柏睿数据:以自主可控的智能算力引擎服务数据产业创新发展


7月12日,2023第二届数商发展研讨会在上海浦东新区召开。研讨会以“AI时代的数据交易”为主题,共同探讨“如何加快数据要素市场化流通交易建设”。上海市经信委、浦东新区科经委领导,以及上海数据交易所、上海交通大学的多位专家学者出席了本次会议。柏睿数据联合创始人李远志发表了题为“基础创新服务数据产业发展”的演讲。


ad173c5b0483b9476ae4c3e35880c1f4.jpg


李远志指出,虽然2022年我国智能算力规模达到268百亿亿次/秒,数据中心的存储能力,已经达到了1ZB的能力,稳居全球第二。但是随着AI大模型、物联网、Web3.0、AR等前沿技术的加速应用,产生了更大规模的数据增量和计算需求因此数据算力不足、信息安全等问题,仍是制约中国数据智能产业发展的“软肋”。


同时还要关注的是,目前中国全部“数据中心”2022年的整体能耗已经超过2000亿千万时,远超整个农业的电力能耗859亿千万时;而数据中心存储的数据中,真正的产业数据只占不到30%;而非结构化数据占比又超过70%;75%的企业和政府用户,已经在进行数据的云部署;65%以上的用户在未来5年内要实现数据在云端的“存算一体”。同时,中国IT和互联网产业传统上都是应用能力强,但底层技术基础弱。因此,中国数据智能产业在基础技术上面对西方封锁的同时,要想实现弯道超车,所面临的挑战和困难无疑是巨大的。


参考中共中央、国务院《数字中国建设整体布局规划》、工信部《“十四五”软件和信息技术服务业发展规划》等指导性政策文件,业界应积极响应国家对于信创标准的要求:必须立足现状、坚持自主研发、从底层技术研发开始;在关键领域采用创造性思维、以点带面实现技术突破,才能够实现弯道超车。李远志表示,柏睿数据就是秉承这样的指导思想,开发出了“多表分析性能全球第一”的高性能数仓,同时采用简洁专注的部署架构,在金融领域实现了对基于Oracle的复杂专业系统的专项性能超越和国产化替代。此外,柏睿数据采用“数据核心算子拆分”和“逻辑硬化到FPGA”相结合的技术,实现了在降低50%能耗的基础上,“数据计算能力”相较于行业能力10倍的提升。也是通过这些技术能力的复合应用,柏睿数据实现了对Oracle Exadata在行业专业应用中的完美替代。


在谈及中国的AI大模型产业时,李远志认为,随之ChatGPT的大热,国内出现了“百大模型的诸神之战”。但是必须清醒地认识到,很多同质化的大模型涌入同一赛道,必然是大多数被竞争出局;而现阶段还是应该将更多资源投入到对产业有明确支撑能力的“产业大模型”,甚至是中小模型的开发。这其中就要关注产业数据的MLOps能力搭建,以及采用“向量数据库”、“分布式计算引擎”等技术,助力大模型能力的有序、高效扩张。最终实现在有限资源下,“数据智能”技术真正赋能传统产业数智化转型、高质量和可持续发展。其中,柏睿数据所发布的LLMOps技术路线、向量数据库等产品,体现了柏睿数据在相关领域已经拥有了深厚的技术积累和切实的先发优势;真正实现了AI for Data & Data for AI。


在展望相关技术发展趋势时,李远志提出,过去30年的信息化技术和数据库技术的发展过程体现出三个必然的规律:数据增量越来越快,数据类型越来越多元化,数据的应用复杂度越来越高。因此,只有坚持对“数据算力性能”的极致追求、对技术规范和标准化的极致响应,以及对智能化处理的极致要求,才能确保中国的数据智能产业,在实现弯道超车的同时,不会在下一个拐弯处被再次落下;而是在每一个拐弯处都有战胜对手的能力。而这一点,正是柏睿数据成立9年来一直坚持的理念,也将是未来持续贯彻的目标。