发布时间:2022-05-30 | 阅读:
算力时代的人工智能应用创新
5月19日,由北京市中小企业公共服务平台、北京市软件和信息服务业协会主办的「数字经济生态共建交流会之AI应用创新实践研讨」在线上如期开展。 柏睿数据人工智能产品总监易水寒受邀出席会议,并做《算力时代的人工智能应用创新实践》主题分享。 大数据+澎湃算力 为人工智能的蓬勃发展带来了机遇 2016年3月,一场围棋人机大战万众瞩目,对战双方分别是人工智能围棋手AlphaGo和人类棋手李世石。李世石首场胜利后,便连输3场,最终败给了人工智能。因此,有人称2016年为人工智能元年,2017年是人工智能的落地之年。此时,大众对人工智能的认知达到了前所未有的高度,传统产业对智能转型的热情也空前高涨。 然而事实上,当前主流的人工智能技术中所采用的算法,几乎都是上世纪八九十年代或更早被提出的。以AlphaGo为例,其采用的强化学习、深度学习、蒙特卡洛搜索树都是上世纪被提出来的。 人工智能发展跌宕起伏,在上世纪70年代至90年代,甚至经历了漫长的黑暗期,多项研究进展缓慢。我们不禁要问:为什么在今天,人工智能又开始蓬勃发展起来了呢? 过去的十几年间,随着互联网的发展,社会生活越来越多地依托于互联网上展开,互联网因此积累了前所未有的大量的实体和用户数据。 在大规模数据集和大数据计算的支撑下,使得最终训练得到的模型足够复杂,进而可以有效地逼近很多困难问题的决策边界,使得人工智能,尤其是深度神经网络,在精准推荐、语音识别、图像处理、自然语言处理以及金融、教育、物流、制造等方面都取得了长足的进步,创造了巨大的社会价值和商业利益。 可以说,大数据+澎湃算力为人工智能的蓬勃发展带来了机遇。 算法、算力和数据的衔接 成为实现人工智能应用的必由之路 几乎各行各业都在探索或积极部署人工智能,不管人工智能各种用例的差异有多大,它们都有一个共同点:数据。人工智能应用能够感知、推理、行动和调整。这是通过从规模庞大、种类多元的数据集中学习获得的能力。 从原始数据到数据准备、模型训练到模型部署的过程中,需要使用到许多不同的技术,如下图所示。 同时,实现一个人工智能应用的过程,需要众多不同角色的参与,包括数据工程师、算法工程师、运维人员与应用开发人员。 首先,在提升人工智能模型准确率的时候,数据质量是其中重要的一环。如果没有好的数据质量,无论采用多么先进的算法技术,最终只能是garbage in,garbage out。即便算法工程师处理好了数据,在离线测试中产生了高准确率的模型,也可能在部署上线的过程中,由于和数据工程师使用技术的不同,带来对数据概念理解的偏差,进而导致部署上线的数据和训练使用的数据概念不同,使得最终上线时模型准确率不及预期。 因此,在涉及技术非常多、涉及人员非常多,而且每个人员使用的技术又不同的情况下,如何让与数据打交道的人们协调工作,如何将算法、算力和数据衔接起来,成为实现人工智能应用的关键问题。 为此,柏睿数据研发推出人工智能产品体系架构,贯穿数据存储、数据分析处理、机器学习建模到上层应用开发全生命周期。该架构基于柏睿数据在2019年全球首推的“库内人工智能《AI-in-Database库内人工智能》标准”,这也是最早将“AI”技术与“大数据技术”进行原生结合的国际标准。 分布式内存数据库RapidsDB RapidsDB是柏睿数据全国产自主研发、具有完整独立知识产权、基于全内存架构的分布式关系性型数据库,提供金融级数据持久化、数据安全性、系统高可用性,高于传统磁盘架构数据库100+倍数据读写访问和分析性能,适用于数据量大、实时性要求高的应用场景。 而RapidsDB丰富的数据类型和函数支持,也使得库内人工智能特征构造和模型训练成为可能。 RapidsPY RapidsPY是在RapidsDB之上实现pandas DataFrame API的一个Python库, 让用户可以在RapidsDB上使用pandas对大数据进行处理和分析。依靠RapidsPY,用户无需将数据从数据库迁移到python中,便可以直接利用python的pandas接口来对存储于分布式数据库的数据进行处理。 库内人工智能算法库ParallelAI ParallelAI 是一种R/Python的扩展软件包,可通过R/Python与自研计算引擎实现交互,将R/python中的命令提交到引擎进行集群资源分布式计算,可支持多类数据处理函数以及机器学习算法,通过赋予R/Python分布式计算的能力,极速提升AI建模效率。 通过这一套体系,数据工程师和算法工程师可以使用同一套语言,同一套数据处理和建模的逻辑,避免了因沟通带来的协同效率问题。