发布时间:2023-05-18 | 阅读:
5月16日,由SEMI-e深圳国际半导体展组委会、中国通信工业协会、江苏省半导体行业协会和深圳市中新材会展有限公司联合主办的“2023人工智能高峰会——ChatGPT/AIGC引爆应用/算力/芯片”成功召开。柏睿数据作为国内数据智能算力赛道的领先企业,受邀出席大会并做分享。
柏睿数据AI产品总监易水寒在圆桌讨论环节,围绕“数据智能分析引擎支撑人工智能走向大模型时代”的热点话题,与嘉宾、观众共话人工智能发展趋势机遇和前沿技术应用,为数字中国建设发展献言献策。
从ChatGPT推出并展现出惊艳表现以来,人工智能技术的巨大潜力正在逐步显现,正为千行百业带来新机遇、新趋势,也催生新业态、新模式。
以ChatGPT为代表的垂直于文本的AI模型,其核心之一是海量数据,数据的价值在人工智能产品上已得到充分体现并广受重视,可以说,数据是人工智能的基石。对比人工智能技术和数据管理技术的发展历程来看,会发现每次数据管理技术的飞跃会推动人工智能实现较大的进展。
更重要的是,作为人工智能输入的源头和输出的结果,数据是人工智能系统学习和发展的重要驱动力之一。在数据收集和预处理阶段,较高的数据质量和足够的规模体量在一定程度上决定模型训练的效果;在模型训练和优化评估阶段,新数据的输入将帮助进一步提升模型准确性和可靠性。
依托独立自主研发的新一代高性能、标准化、全智能的数据智能产品体系,柏睿数据为AI大模型发展提供从数据采集、存储、计算分析到模型训练、部署、应用的全生命周期解决方案。其中,湖仓一体平台和特征库产品可以更好地保障AI大模型训练时的数据质量。湖仓一体平台(Rapids Lakehouse)可以快速接收数据流并进行实时处理,支持20+多源异构数据之间的数据流和数据交换。特征库(Rapids Vault)作为柏睿数据Rapids AI的智能底座,能够以模型特征的管理和监控来保证特征线上线下一致性,提升建模数据质量,为模型提供低延时、高吞吐的特征服务,赋能AI算法落地。
无论何种数据库,都需要具备数据存储、查询、修改的能力。而在文本类AI的场景下,又对数据库的具体能力提出了新要求。
在数据存储方面,存储的内容从结构化的二维表变成了可以代表文本的向量。在数据处理方面,数据不仅会以批量的形式存在,还会以流的形式存在,例如很多设备都会产生日志,这些日志也是文本,并且一刻不停地产生,如何从这种数据中获取到有用的信息,就需要流式数据的处理能力。同时,由于现在的数据量规模非常巨大,可扩展性也是必不可少的。在数据查询方面,不同于传统数据库的精确查找,文本类AI产品不太可能出现完全匹配要求的查询结果,此时就会用到模糊匹配等技术。
柏睿数据作为数据库专业厂商,在大模型辅助专业应用软件应用方面也做了一些探索。过去,获取数据信息需要使用专业的编程语言如SQL,现在通过大语言模型即可识别各类编程语言,使得用户与专业软件的交互更简单,无需学习特定编程语言即可高效实现信息获取,从而降低用户门槛。在数据库应用中,例如报表生成的过程,也可以利用大模型完成与报表软件的轻松交互,而无需配置查询和汇总字段。
基于AI大模型,柏睿数据正在探索将数据库和大模型完美结合的应用平台,通过微调AI大模型以实现数据库智能化,具备将自然语言转换为数据库语句、优化数据语句等,并智能生成可视化分析等能力。
在谈及现阶段大语言模型是否会取代现有工作时,易水寒认为大语言模型并不会取代诸如程序员编写代码的工作,而将推动社会“智能化”发展,一方面提高工作效率和生产力,创造新的就业机会,另一方面使生活更加便捷、高效和舒适。
程序员不仅是写代码,更是通过一种语言来表达其创意思想,其核心能力仍是人类的创造力和软件架构设计。大语言模型创造了一种新的表达方式,来进一步放大程序员的创造力价值。同时也可以看到,使用大语言模型并不简单,需要专业岗位来更好地指挥大模型,如当前比较热门的职位Prompt Engineer(指令工程师),来为大模型撰写文本提示,以保证AI正确生成人们所需要的输出成果。
柏睿数据以“数据+智能”技术为核心,长期致力于大数据技术在人工智能端的智慧落地,将助力用户安全可控、轻松高效地构建和部署AI大模型,推动数字中国建设行稳致远。