发布时间:2024-07-29 | 阅读:
近日,工信部主管核心期刊《数字经济》杂志刊发柏睿数据重要文章《实时数据底座加速数据要素价值释放》。文章深入论述了数据库作为数据底座重要的算力提供组件,如何发挥高性能实时计算能力,助力数据要素乘数效应的深度释放。
随着数据技术与数字经济的发展,数据库的价值和作用越发凸显。数据库承担起软件算力部分,和CPU、GPU一起为数字经济提供强大的算力支持。数据底座是支撑数据的基础结构,可以为企业和个人提供稳定、可靠的数据环境。数据库作为提供这部分功能的基础数据底座,在新一代数据库技术变革的加持下,以基于分布式内存计算与存储技术为核心,打造全新的实时数据底座,提高数据利用效率,降低数据管理成本,加速数据要素价值释放。
数据要素价值流通
在狭义定义下的数据要素一般指的是流通、交易、使用的数据和信息,包括原始数据和架构后的数据产品;广义定义下的数据要素覆盖整个数据生命周期链,包括数据采集、数据存储、数据治理、数据分析和应用等。
数据要素重要的市场需求之一就是数据要素的价值释放及产品化流通,其中数据价值流动过程一般分为四个步骤,依次为数据、数据平台、数据交易、企业及个人。
01
数据
数据部分包括原始数据和加工后的数据,原始数据类型可以包括结构化表格数据、图像、音频、IoT数据,加工后的数据可以是各类标签表格数据、标注后的数据、各类图表等。
02
数据平台
数据平台是提供数据进入数据要素市场的媒介,包括了对数据的审计、存储、评估、定价等内容。平台需要提供多元化的数据存储管理能力,满足公共数据、企业数据、个人数据等类型数据的统一高效存储管理和计算。在此环节中,拥有高性能的实时数据底座加持的数据平台,可以极大程度地节省数据从开始准备,到形成资产入表的环节耗时,使人们将更多的注意力投放到交易、消费、使用等环节。
03
数据交易
数据交易过程主要包括以下几种方式,一是通过类似数据交易所等中介进行数据在企业间的交易流通。二是通过数据共享的方式,云厂商或大数据基础软件厂商提供安全、标准、高性能的数据要素平台。三是由政府牵头创建的数据开放平台。
04
企业及个人
对内而言,数据要素价值可以提升企业内部的数据融合,方便进行更好的人员管理、商业决策、市场规划等;对外而言,可以充分将自身产品与市场数据相结合,进一步对原产品进行优化迭代,打造更好的数据产品和服务。
实时数据底座加速数据要素价值释放
数据要素在形成数据资产完成价值释放之前,要经历复杂的数据采集、清洗、开发、存储阶段。由于数据要素市场的逐渐成熟,原始数据的积累量和需求量呈指数增长。那么如何解决前期的海量数据的快速计算分析,也成为了数据要素市场能否保持时效性及长期活跃的重要因素之一。
随着数据技术与数字经济的发展,数据库的价值和作用越发凸显。数据库和CPU、GPU一起被定义为提供算力的基础技术。数据库承担起软件算力部分,和CPU、GPU一起为数字经济提供强大的算力支持。
数据底座是支撑数据的基础结构。它包括数据存储、数据处理、数据分析等内容,可以为企业和个人提供稳定、可靠的数据环境。数据库作为提供这部分功能的基础数据底座,在新一代数据库技术变革的加持下,以基于分布式内存计算与存储技术为核心,打造全新的实时数据底座,提高数据利用效率,降低数据管理成本,加速数据要素价值释放。
01
从单机到分布式
关系型数据库起源自上世纪七十年代,在发展早期阶段由于用户数据量有限,数据库能够很好地满足用户需求。且当时数据库技术蓬勃发展,不断地提升单机实例性能,再加上遵循摩尔定律的硬件提升速度,可以很好地支撑业务发展。
随着互联网的普及发展,数据规模爆炸式地增长,单机数据库越来越难满足用户需求,即使是将数据保存下来这个基本需求都变得难以满足。
在2005年左右,人们开始探索分布式数据库。逐步出现了只解决单机存储问题,却在一定程度上忽略事务或只提供简单KV接口的NoSQL类数据库,例如Redis。后来关系型数据库也提出了中间件和分库分表的解决方案。
到如今,分布式架构能满足用户在超大数据体量下的不同类型的数据存储、计算、分析需求。在无集群规模上限限制的同时,能做到在标准语法体系下对各类事务的支持。已经成为主流的数据库架构。
02
从磁盘走向内存
传统磁盘架构的数据库都会将数据库存储到磁盘驱动器(HDD)或固态驱动器(SSD)中,当有相关的数据写入、访问需求时,数据库的存储引擎会对磁盘进行访问。当数据量过于庞大时,受限于磁盘I/O限制,数据读取过程将变得过长,而在此过程中,内存和CPU都将处于等待状态,无法充分利用到机器自身的资源。
在内存数据库中,数据存储在内存(RAM)当中,它们的延迟远远低于各类磁盘,且磁盘使用机械、移动部件来访问正确的磁盘位置,必须读取数据并通过存储设备和计算机之间的接口进行传输。而在内存中可以做到基于记录(Tuple)的内存地址随即查询,这些将带来超过几十倍的性能差距。此外,在内存数据库中,可以进行数据结构优化,以加快检索速度。内存数据库通常按原样存储和使用数据,不需要在数据库层进行任何转换或解析。这也在一定程度上加快了读写时间,增加了性能表现。
03
动态查询优化
数据库查询优化器是数据库管理系统中的关键组件,其重要性和意义不可低估。在现代应用中,数据库查询通常涉及复杂的SQL语句,可能包含多个表的连接、过滤条件、排序和聚合等操作。查询优化器的主要任务是分析和优化这些查询,以提供高效的查询执行计划,从而实现最佳性能和资源利用。查询优化器的性能优化和资源管理能力直接关系到应用的响应速度和资源利用效率,同时也保证了数据的一致性和正确性。一个优秀的查询优化器可以使得数据库系统更加高效、稳定和可靠,满足不断增长的数据处理需求。
在新一代基于分布式内存计算架构下诞生的数据库RapidsDB中,其发布动态查询优化器是一个学习型优化器,这意味着在执行查询时它会记录查询语句,观察查询结果,并根据最终查询时间更新迭代基数进行估计。在查询进入系统后会生成一个语法分析树来表示查询到关系代数表达式。之后,RapidsDB会首先基于数据独立性、一致性假设计算出初步的数据基数,再使用启发式算法找到代价最小的查询计划。
RapidsDB优化器内部的知识库可以记住查询的每个部分以及每个部分执行的成本。这个步骤是在查询执行时,在增量的基础上完成的。因此随着查询数量的增加,知识库记录的执行历史数据也会随之增加。这样就完成了优化器初始化和数据的积累。随着数据的增加,学习型优化器的优化结果准确性也会随之增加。这在一定程度上大大提升了进行数据分析处理过程的效率。
数据库作为数据底座重要的算力提供组件,可以大大提升在海量数据场景下,对多种类数据进行数据采集、数据存储、数据加工、数据分析的效率。为数据要素市场中的前期数据产品化环境提供强有力支持,帮助其占得先机。真正使得数据要素市场保持活力,同时加速数据要素价值释放。
(责任编辑:杜玢翰dubh@staff.ccidnet.com)
关于《数字经济》杂志
《数字经济》(CN10-1719/F)是国内第一家聚焦于数字经济领域的期刊,是由工业和信息化部主管、中国电子信息产业发展研究院及赛迪工业和信息化研究院(集团)有限公司主办,由北京赛迪出版传媒有限公司出版的部属科技类期刊。