发布时间:2023-03-31 | 阅读:
数据分析引擎是数字经济时代的新动能,但很多数据分析引擎无法满足实时处理大规模数据的性能要求。 柏睿数据从“根技术”自主研发的全内存分布式数据库RapidsDB,通过内存存储、MPP并行计算、动态查询优化和即时编译等查询性能优化技术,为企业提供全球领先的数据处理和分析能力,构建高性能、安全合规、自动化的数据洞察数字化平台,灵活满足企业多元交付场景的实时数据分析与海量数据高效管理需求。
一、背景
二、技术原理与实践
1、RapidsDB技术架构
2、内存存储架构
3、MPP引擎
4、动态查询优化技术
5、即时编译技术
6、联邦查询
三、应用实践与收益
四、未来展望
作为国家重大发展战略,数字经济越是发展,数据的价值越为突出。如何充分挖掘数据价值成为核心任务之一,其中在数据处理这一“价值变现”的关键环节,必然要解决如何处理超大规模量级的数据,以及如何将大规模数据进行实时高效分析和应用等问题,此时则需要强大的数据分析引擎来支撑。可以说,数据分析引擎将是数字经济时代的新动能,并助力实体经济高质量发展。
数字化转型中的企业要成为优秀的数字化组织,同样需要具备实时高效、灵活易用、可扩展的数据分析基础设施,从而充分发挥数据价值,形成业务数据化和数据业务化的驱动闭环,更好地实现智能商业决策、生产经营优化及产品和服务创新。但很多数据分析引擎因受限于低效的磁盘I/O、不合理的执行计划,单机的处理能力上限等因素,无法满足企业实际业务场景中实时处理和分析大规模数据的性能要求。
为助力数字经济高质量发展、加速企业数字化转型,柏睿数据打造具有完全自主知识产权的全内存分布式数据库RapidsDB,做到了极致的数据处理和分析性能。通过内存存储、MPP并行计算、动态查询优化和即时编译等查询性能优化技术,突破了数据库诸多性能瓶颈,构建性能全球领先、安全合规、自动化的数据洞察数字化平台,灵活满足多元交付场景的实时数据分析与海量数据高效管理需求。
柏睿数据RapidsDB与常见数据分析引擎性能对比
如上图,在某国有大型银行招标测试的TPC-H SF100测试上,柏睿数据RapidsDB在各场景的性能测试中,整体性能较诸多常见数据分析引擎大幅领先。从总执行时间上可看出,柏睿数据RapidsDB在100G的TPC-H数据集上查询性能是常见查询引擎的至少8倍。
RapidsDB是柏睿数据新一代数据智能产品体系中的核心算力引擎,基于全内存分布式架构,全面对标Spark计算引擎,帮助企业建立大规模实时数据高效处理与分析平台。 RapidsDB技术架构由管理工具模块、接口模块、分布式计算与存储集群模块和数据联邦模块组成。 RapidsDB技术架构图 管理工具模块提供管理支持 用户可以使用RapidsDB的Manager工具,简单便捷地完成RapidDB的安装、部署、监控和运维;同时可以使用RapidsShell工具,在命令行上对RapidDB进行操作和使用。 接口模块提供对外接入的入口 提供Java、Python等主流语言的驱动程序,用户可以使用多种编程语言,通过标准的驱动API完成对数据库的接入操作。 分布式计算与存储集群提供查询计算和数据存储 用户的操作请求通过驱动传递到存储与计算集群,存储与计算集群完成对用户请求的高性能的解析、优化、执行和响应。 数据联邦模块提供联邦查询服务 联邦模块通过可插拔的连接器接入20+异构数据源,灵活实现跨数据源的查询、分析、聚合等操作。 柏睿数据RapidsDB采取的查询性能优化手段具体如下。 RapidsDB采用内存存储架构,能够做到纳秒级的读写性能,远超微秒级磁盘读写性能几十万倍。RapidsDB存储引擎Moxe的数据以堆外内存