媒体聚焦 | 数据科学技术发展与应用趋势分析

发布时间：2023-05-06 | 阅读：

媒体聚焦

大模型时代加速到来的背后，数据科学技术不断推动着人工智能的发展，大模型的发展也带动数据科学技术走向新未来。

日前，凤凰网科技频道、赛迪网、DOIT等媒体刊登了柏睿数据相关观点文章。

文章内容如下：

以ChatGPT为代表，布局人工智能大模型已成为世界性趋势，大模型时代正在加速到来。大模型发展背后，数据科学技术不断推动着人工智能的发展，大模型的发展也带动数据科学技术走向新未来。

本文将从数据科学技术发展历程出发，探讨数据科学技术在实施过程中面临的挑战，并分析其未来发展趋势。

数据科学技术发展溯源

RapidsDB数据科学的概念最早出现于1962年，美国数学家John Tukey提议用数据科学（Data Science, Datalogy）来替代计算机科学，认为数据科学是数据分析的未来。

在1974年，Peter Naur 发表了《计算机方法简明调查》，调查了各种应用程序中的数据处理方法，第一次明确定义了数据科学是“处理数据的科学”。此后，计算机科学家和统计学家开始关注如何利用计算机技术处理大量的数据。

随着计算机技术的发展和数据量的不断增长，在20世纪90年代，数据科学技术经历了爆发式的发展，诸如数据挖掘、数据仓库等技术概念应运而生。直到现在，数据科学的概念和范围也在持续演变。

当前，维基百科将数据科学定义为“一门利用数据学习知识的学科”。它的目标是从数据中提取输入价值的部分生产数据产品，其中最典型的代表就是各类人工智能的应用。

实际上，数据科学交叉融合了诸多技术，包括数学、统计、机器学习、数据仓库以及高性能计算等关键技术。尤其是将计算机科学中的数据处理技术和数学中的机器学习技术融合，是数据科学典型的特征。

数据处理与机器学习的关系

从上述关系图可以看出，在计算机方面数据科学所涵盖的核心技术是数据处理和机器学习，不妨通过二者发展历程来探寻其关系。

自2016年AlphaGo横空出世起，大众对人工智能的认知达到了前所未有的广度和高度，传统产业对智能升级和转型的热情也空前高涨。再到2022年底ChatGPT的发布，使得更为广泛的大众深刻感受到人工智能对日常生产生活的影响。

其实，当前主流人工智能技术中所采用的算法，几乎都是上世纪八九十年代或更早前被提出的。以AlphaGo为例，其采用的强化学习、深度学习、蒙特卡洛搜索树都是上世纪被提出来的。可以说，在上世纪70年代至90年代，人工智能经历了漫长的“黑暗期”，多项研究进展缓慢。

640 (1).png

通过将大数据技术发展历程图和人工智能技术发展历程图对照，可以看到从1960年开始，数据管理的需求逐渐增长，从二十世纪九十年代到进入二十一世纪，数据库技术持续蓬勃发展，在2005年Apache基金会推出大数据处理框架Hadoop，助力企业更高效地处理和存储海量数据，为数据科学的发展奠定了基础。

640 (2).png

总体来说，数据形式和数据量的变化，推动了数据处理和机器学习的进化：数据量的增加催生了更为先进的数据处理技术，数据处理技术的成熟使得机器学习的发展成为可能。

实施数据科学面临的挑战

传统的数据科学家会使用Python作为工具，而Python的数据科学栈三大底座分别是NumPy, Pandas和SciPy。其中NumPy用来做数值计算，包括最基础的数据结构。Pandas在NumPy之上，通过各种API来对数据进行分析操作，SciPy则负责科学计算。在三大底座之上，还有丰富的机器学习和可视化的函数。

此套数据技术栈组合的益处在于使用广泛，高度标准化；上手成本低，容易为初学者和学生入门；和语言结合紧密，能用Python来组织函数调用。但以Python为基础的数据科学技术栈问题也很明显，它们都是单机的数据库，不能处理很大的数据量。

在数据量爆炸式增长、数据来源多样、数据实时性要求高的当下，显然使用Python的数据库不能很好地解决实际中遇到的问题，因此往往需要引入大数据的技术栈。

主流的大数据技术包括Hadoop, Spark, Flink, Kafka等，虽然都支持多语言，但是学习曲线比较陡峭，也需要用户对系统本身有足够的了解。因此，实施数据科学项目时，通常由数据科学家用Python完成小量数据的分析、处理、建模，将数据处理的部分交给数据工程师，由数据工程师将数据处理的逻辑转化为大数据技术的方法，再将处理好的大数据交还给数据科学家。但由于两者使用的技术不同，技能背景不同，导致沟通配合成本较高，应用落地难。

而在大模型快速发展的当下，除了提供极速的大数据分析处理能力外，如何为模型服务提供高质量的数据，从而提升大模型响应速度并降低算力消耗，也是值得研究的方向。

数据科学技术新趋势

面对以上挑战，数据科学技术也迎来一些新的发展趋势。

In-DBMS analytics

为应对大模型时代越来越大的数据量，最简单的方式就是Scale Up，利用更多的核和更好的硬件，如GPU、FPGA等；另外一个方式是Scale out, 利用分布式的方式，例如RAY, DASK等。

而结合Scale up和Scale out，可以构建一个大规模的、更好的硬件集成，柏睿数据的全内存分布式计算引擎RapidsDB即是如此，搭载了针对引擎的FPGA加速芯片，为大数据场景提供一站式的数据科学解决方案，满足用户对大数据存储、分析、建模的全部需求。

MLOps

上一篇：柏睿数据助力企业轻松实现跨云跨库、云湖仓一体化
下一篇：数实融汇聚智创新｜柏睿数据城市论坛「西安站」即将开启

产品中心

解决方案

媒体聚焦 | 数据科学技术发展与应用趋势分析

热门新闻

中国的国际智能数据算力公司

联系方式

快速链接

关注我们