发布时间:2023-04-23 | 阅读:
诸如ChatGPT这类的AI模型开发项目是一项需要经历繁琐步骤、应用复杂技术并且需要协同合作的复杂任务。柏睿数据智能平台Rapids AI,以数据为中心,以MLOps为方法论,助力更高效、简易、自动化、低运维地构建、训练和部署AI模型,更好地解决业务流程、用户行为和整体运营等项目中的关键问题。 近期,ChatGPT此类AI大模型的出现,将人工智能技术的发展推向高潮,但显然,人工智能并不是一个新兴词汇。 事实上,当前人工智能技术中使用的算法几乎都是在20世纪八九十年代初甚至更早前提出来的;再到2016年Alpha Go问世起,越来越多的人工智能应用需求涌现了出来;但是直至2022年以ChatGPT为代表的大语言模型的出现,才再次将人工智能技术的发展与应用推向新高度,其出现与近年来大数据技术的迅猛发展密不可分,这一点也可以通过对比大数据和人工智能的发展时间表得出。 人工智能技术发展时间表 大数据技术发展时间表 在过去十年间,随着互联网应用的广泛普及和数字化程度的提高,数据量逐渐增加、汇聚,在大规模数据集和大数据计算的支持下,使得大语言模型的训练更为可行,能够有效地临近许多难题的决策边界,并且人工智能技术已经在精确推荐、语音识别、图像处理、自然语言处理等领域发挥作用,在金融、教育、物流、制造等行业落地应用,创造巨大的社会价值和商业利益。 但实际上,据IBM数据科学和人工智能首席技术官 Debora所说,87%的数据科学项目从未投入生产。为什么会出现这个问题呢?
AI应用项目的成功并不仅取决于模型的性能,模型开发只是AI应用落地的一部分,除了模型开发,还需要进行数据收集、转化、清理以建立模型,评估模型性能并把它部署到生产环境中,部署完成后监控模型及其性能等步骤。可以说,模型开发仅占20%的时间,而模型管理和数据操作则占据了80%以上的时间。
相应的,不同步骤涉及多种技术。哪怕就一个机器学习项目来说,它也会需要用到很多种技术,例如,数据集成可能需要S3、Hadoop、 SQL、Spark等技术,训练模型可以使用Scikit-learn、PyTorch、TensorFlow或XGBoost等工具,模型部署通常使用微服务、Kubernetes或Docker等技术。
由于采用不同技术,也需要跨不同技术团队合作完成项目,需要数据工程师、数据科学家、运维人员和应用程序开发人员等不同团队之间紧密合作,合作中也可能存在数据误解等情况。
可以看到,AI模型开发项目是一项需要经历繁琐步骤、应用复杂技术并且需要协同合作的复杂任务。那么,如何让AI模型开发项目更高效、简易、自动化、低运维呢?
柏睿数据打造数据智能平台Rapids AI,以数据为中心,以MLOps为方法论,将数据准备与建模工作串联起来,以模型特征的管理和监控来提升建模数据质量,以高性能数据分析处理引擎提升数据服务效率,以集成人工智能运维的能力缩短人工智能应用落地周期,从而更好地解决业务流程、用户行为和整体运营等AI模型项目过程中的关键问题。
Rapids AI 是以数据为中心的端到端的人工智能“一站式”平台,包括数据获取、数据探索、数据处理、特征工程、模型开发、模型评估、模型部署应用和模型监控维护的人工智能开发全生命周期能力。其组件包括数据智能分析诊断平台、特征库和AIworkflow。 数据获取、数据探索、数据处理的能力由智能分析诊断平台提供。智能分析诊断平台对接柏睿数据全内存分布式数据库RapidsDB,可视化地分析数据质量及数据分布情况,并为用户提供在RapidsDB之上的Pandas 接口RapidsPY, 让用户能够直接在RapidsDB内调用Pandas API 进行数据计算。 在特征工程方面,特征库将柏睿流湖仓一体化平台作为数据存储,提供了特征注册、特征存储、特征转换和特征服务的能力。 在模型开发、评估和部署、监控部分,采用机器学习建模平台AIworkflow,模型可以通过分布式并行AI算法框架Rapids ParallelAI在数据库内进行训练。同时,基于图形用户界面 (GUI),建模过程和结果全流程高度可视化,以协助管理项目内所有人员的工作。还可以制定出机器学习管道,一旦模型构建完成,Rapids AI即可把模型部署细节提供给程序开发人员,进而由他们开发出相应的应用程序。 数据摄取和准备 智能分析诊断平台提供的 Pandas API完成数据摄取和准备,后端是RapidsDB。用户调用API后,系统对数据和API进行语法分析,重新排序运算符并将其转换为相应SQL语句发送给RapidsDB;RapisDB的数据联邦能够连接用户数据库或生产过程中的总共20+异构数据源,并连接计算引擎进行数据计算,例如数据清洗和分析等。 用户将处理完成的数据记录为特征,通过特征库管理,并向机器学习建模引擎提供实时和批量的数据服务。能够监控特征表现,保证特征线上线下一致性,提升建模数据质量,保证模型上线应用效果和提高模型准确率,大幅缩短模型上线周期和应用成本。 模型训练开发阶段 柏睿数据机器学习建模平台AIworkflow提供包括大语言模型在内的多种机器学习与深度学习框架。对于传统机器学习算法,用户可以在图形界面内用拖拉的方法利用Rapids ParallelAI来开发模型;对于深度学习算法,用户可以在交互式开发环境(IDE)中,使用例如Jupyter Lab等来开发模型。 模型训练评估阶段 在模型训练过程中,不断变化的算法导致相应的超参数也会不断变化,用户需要检查训练过程的版本,跟踪模型性能并反复训练模型。AIworkflow具备自动化超参数调优功能,帮助用户优化模型性能,实现更好的训练效果。 模型部署 模型能够应用在实际生产中需要实现模型的部署。模型部署可以采用柏睿数据机器学习建模平台AIworkflow。通过AIworkflow的模型管理界面,一键将模型部署在容器中,并提供高性能的批量和流式的预测服务。同时,支持将模型部署在RapidsDB中,让用户可以通过SQL的方式实现模型的预测。 模型监控 模型部署上线后需要持续对模型质量进行动态评估,避免随着时间的推移导致的模型失效。通过AIworkflow和特征库,用户可以对特征指标以及模型指标进行监控,及时对模型质量进行预警,并定位模型失效的原因,保证AI应用长期稳定高效地运行。 在电力行业,柏睿数据助力客户完成了失准更换系统的改造升级。 在采用柏睿数据Rapids AI解决方案前,该客户对电表运行误差和运行状态的评估主要依赖于运维人员的实地工作,每次评估时间不仅超过24小时,无法满足每日上报的需求,同时存在评估误差,而柏睿数据的人工智能解决方案大大提高了电能表失准更换系统日评价的效率。 柏睿数据通过在电力系统部署机器学习模型来计算电表运行误差。采用数据库库内分析计算,结合专家业务模型,通过分析挖掘组件RapidsPY,使用Pandas的语法即可在数据库内实现数据分析挖掘;基于Rapids ParallelAI实现数据库内机器学习模型训练和预测,大大降低计算所需时长,高效、智能、安全地满足电能表失准更换系统日评价的要求。 易水寒/柏睿数据