发布时间:2023-02-01 | 阅读:
在对海量多源异构数据进行融合和分析时,为破解使用ETL方法产生的难题,柏睿数据探索出一个更高效、更智能、更低TCO、更准确的实现路径,通过RapidsDB联邦系统打造出一个统一的联邦SQL数据库,从而支撑企业关键业务决策。本文通过问题分析、技术方案与探索、案例实践几方面进行阐述与探讨。
一、目录
二、前言
三、背景及挑战
四、技术方案与探索
1、RapidsDB联邦架构
2、RapidsDB联邦连接器
3、自适应查询下推功能
五、案例实践
六、收益总结
大数据时代,数据作为“第五类生产要素”,是企业进行科学管理、决策分析的基础。金融、能源、通信等诸多行业企业都需要充分激活大数据价值来支持关键业务决策,因此在规定的时间内实现对不断增长的多源异构数据的分析至关重要,但往往其实现成本和复杂程度却相当高。
那么如何高效、智能、低TCO、准确地实现对多源异构数据的融合和实时分析呢?这将是本文要探讨的问题。
当下大数据环境,数据处理需求正由单一数据类型、有限量的数据向海量、多源、异构的数据变化,为在规定的时间内实现对不断增长的多源异构数据的分析,首先需要对海量多源异构数据进行整合。传统上,企业通常会部署复杂、耗时又昂贵的ETL(数据抽取、转换和加载)操作工具,来实时地将复杂的大数据环境整合为单个数据库模式,但ETL过程本身却对企业及时做出业务决策设立了障碍。
此处展示了一个典型的大数据环境,如图可见有一组快速变化和扩张的、不同类型的数据源,企业要查询和整合所有数据源中的数据,通常采用ETL方式将数据转换为通用格式并转移到可查询的位置,往往会造成“数据湖”的形成,从而导致实现过程具有复杂性、效率低、成本高等弊端。
复杂性
ETL过程会产生多余的数据副本,导致数据冗余。“数据湖”的形成也增加了其复杂性,既要管理好多源异构数据的数据库模式信息和对象命名,以便为整个数据湖提供一个统一视图;同时随着新数据源不断出现,额外的ETL过程需要被开发出来以将新的数据源抽取、转换和加载到当前的数据湖中,数据湖也将随之持续扩大,难以应对实时产生的海量数据。
效率低
数据的提取、转换和加载需要大量的时间,同时由于数据量庞大,ETL流程影响数据分析速度。
成本高
ETL流程比较复杂且维护难,需要熟练的技术人员才能操作,而且需要不断维护,将产生大量的人力和财力成本。
可以明确,为实现在规定的时间内对不断增长的多源异构数据进行分析,企业需要针对复杂性、效率低、成本高等常见问题予以优化。
柏睿数据基于自主研发的、以RapidsDB为核心的全内存分布式数据库产品体系和人工智能产品体系,以“Data+AI”核心技术,探索出能够完全避免ETL过程而实现更高效、更智能、更低TCO、更准确地融合和分析多源异构数据的最佳路径,即RapidsDB联邦系统,有力支撑了企业关键业务决策。
柏睿数据RapidsDB联邦系统具有如下特性:
• 无需数据迁移:允许数据处于原来的数据源中,避免冗余的数据副本。
• 标准SQL统一接口:ANSI-SQL模式涵盖所有在联邦中的数据源, 使该系统成为所有数据源的统一查询接口。这些数据源包括关系型数据库管理系统,JDBC数据源,HDFS,CSV文件和其它文件系统。
• 基于底层数据源的抽象化模式:RapidsDB执行引擎将所有数据视为一个单一的整体,具有可以将多个数据源和多张数据表格相连接起来的能力。
• 高性能引擎:RapidsDB执行引擎是一个分布式全内存大规模MPP引擎,其高性能可以确保业务用户在规定时间内获得数据处理结果。
• 生产数据实时分析:轻松集成现有数据源中的新数据或者新数据源,消除ETL过程的落盘中转需求。
那么RapidsDB联邦系统是如何实现以上特性,并避免ETL方法所带来的的问题的?它主要是基于RapidsDB联邦架构,通过RapidsDB联邦连接器和自适应查询下推功能实现的。
RapidsDB联邦系统的设计旨在支持对多源异构数据的分析型SQL查询,下图是RapidsDB联邦系统的架构图,从中可以看出RapidsDB联邦连接器子系统是如何被集成在该系统中的。
从上图中可以看到,RapidsDB联邦架构为用户提供了一组可以在应用程序中向系统提交查询的接口,它包含:
一个基于动态成本的SQL查询编译和优化器,用于生成查询计划。
一个与联邦连接器相结合的MPP执行引擎,能够对结构图底部所示的分布式数据源执行实时查询。
还有至关重要的联邦连接器,能够控制对数据的访问并与RapidsDB数据库执行引擎进行协作,来完全避免系统对ETL的需求,进而为用户提供访问数据的能力。
RapidsDB联邦连接器能够为用户提供一个可以将底层所有数据源整合起来的单一的SQL联邦数据库。这意味着用户可以专注于构建针对多源异构数据的查询,而不用担心数据类型或所处位置。
在对所有数据源运行查询时,RapidsDB联邦连接器能够自动提取元数据,将数据以ANSI-SQL模式呈现,处理不同数据源之间的数据类型转换,并以行和列的形式传递给RapidsDB执行引擎,由此通过这个单一的联邦SQL数据库,用户可以使用SQL查询访问所有数据源的数据。而其他允许用户访问远程数据源的系统,通常要求用户在访问对象之前明确指定模式。