强化云能力,柏睿数据构建生于云、长于云的数据仓库


Gartner《2023中国数据库管理系统市场指南》认为,中国DBMS整体上云的势头依然强劲,更为多样化的数据管理环境也在形成,包括DBMS基于中国公有云的部署、国有供应商/私有云的部署及非中国公有云的部署,以及多云/云间/混合云的部署;DBMS云间技术能力的重要性更为凸显


强化数据库/数据仓库的云能力,已经成为数据库厂商未来发展的关键命题。柏睿数据以柏睿云能平台和柏睿实时云数仓交出了优异的答卷。本文将介绍柏睿数据如何构建生于云、长于云的数据仓库。


柏睿实时云数仓基于柏睿云能平台,可实现国内外公有云、私有云、混合云及服务器自动化部署和统一管理具备极速性能、跨云跨库、安全可靠、弹性伸缩、智能管理等优势特性,且总体拥有成本更低,全面满足企业在大数据云时代的全场景数据仓库/数据库需求。


柏睿云能平台


多云自动化部署与统一管理平台


柏睿云能平台(Rapids Data Cloud)是依托柏睿数据自研产品体系、适配云端运行环境特点打造的多云自动化部署与统一管理平台底层采用统一的技术架构,由云管理平台、全内存数据库和数据库管理Portal三部分组成。

47b706c65e9205cefa77e39e6e57a490.png


01
云管理平台(BCMP)


柏睿云管理平台是整个平台的系统管理层,负责与云厂商API对接,实现数据库集群建立、删除等功能所需的云资源调度。


02
全内存数据库(DB)


底层基于柏睿数据全内存分布式数据库,由数据库网关(Master)和计算节点(LEAF)组成。通过Master为用户程序提供兼容MySQL协议的数据库服务。


03
数据库管理Portal(OPS)


每个集群都有独立的数据库管理Portal,实现管理与业务分离。


e6554806ff5062e24c2fcb1a86b31c92.jpg


柏睿实时云数仓


极致性能云上数据仓库


柏睿实时云数仓(RapidsDB Cloud Data Warehouse,简称Rapidsdb DWS)基于柏睿数据自研新一代全内存分布式数据库打造,可为用户提供云原生的数据仓库服务,主要采用大规模并行处理(MPP)、云原生、库内人工智能、数据联邦等技术实现。


01
MPP并行计算架构


集群性能随着节点规模的增加而增加,优化云计算运行环境,提升性能。


6e120d09c7f579a4c2ad575bf73cf554.jpg


02
数据安全


采用责任共担模型,三方共同保障系统安全;基于云厂商的高可用运行环境,每个数据库集群都独立部署于云主机中,运行资源完全隔离;优化数据库存储能力,支持云存储备份与恢复数据。


03
云原生技术


采用微服务架构,可根据业务实现后端各类资源的快速、动态、自动的扩缩容,促进集群性能提升和成本优化;实现类容器的Image功能,将每个云主机节点通过云存储技术做成镜像,以快速统一部署数据库集群。


04
优化和加速查询


全内存分布式数据存储,支持行存、列存和混合存储,且无需ETL操作;支持自动分区平衡,采用自适应下推、动态查询优化等技术,提高查询效率和性能。


05
数据联邦


通过可插拔的自有连接器MOXE和其他内置的各类连接器,接入20+数据源的结构化、半结构化和非结构化数据;基于SQL标准的统一接口,实现多源异构数据的实时聚合、查询和分析。


云原生数据仓库服务的价值优势



面向大数据时代,柏睿数据构建的云原生数据仓库服务可助力企业锻造敏捷创新能力,助力企业真正释放数据创新潜力。


01
极速性能


支持全域PB级规模数据存储与实时在线分析,3000亿条数据查询秒级响应,TPC-H测试比主流产品快5倍。


02
安全可靠


具有完全自主知识产权的数据库,适配中国公有云环境,保障数据安全、数据隐私与数据一致性,支持集群高可用。


03
弹性伸缩


支持在线自助扩容/缩容数据库节点,数据库集群性能随节点数量线性提升。


04
智能管理


自主部署、自动化管理数据库集群,全面掌控集群运行情况、主机状态等信息,可灵活敏捷调度云资源。


05
更低TCO


按需即买即用,利益最大化配置计算资源;相同数据量和云端运行环境下计算资源占用更少,且学习成本较低。


06
兼顾OLTP和OLAP场景


灵活选择数据存储方式,最大化保障数据库性能,以支持不同的数据处理场景。


云原生数据仓库的实战检验



为进一步详细展示柏睿数据云原生数据仓库服务的优势价值,以柏睿实时云数仓的华为云Enabled认证测试为例。该测试表明,部署在华为云上的柏睿实时云数仓在性能、安全、成本等方面均有优异的表现


在9个数据库节点集群环境下,从华为云存储中导入500G的TPC-H数据,柏睿实时云数仓分别对22条TPC-H SQL语句做顺序执行、并发访问。从云主机IOPS的记录图可以看到,数据加载完成后,基本不会再对磁盘进行读写操作。这体现了柏睿实时云数仓强劲的性能。


d2a464c61a8445323e8b95c235aa8078.jpg


下图是柏睿实时云数仓与其他主流云数仓产品的测试比较结果:在同等规格云主机环境下使用500G TPC-H测试数据,顺序执行22条TPC-H语句;结果显示,柏睿实时云数仓比主流云数仓产品的TPC-H 计算速度5倍


c153770ce203bda1e26ccf219eac32d9.jpg


在数据备份与恢复方面,柏睿实时云数仓可基于华为云为用户提供高可靠、高效的数据存储和恢复能力。据悉,华为云主机的云硬盘数据可靠性高达99.9999999%。


此外,柏睿实时云数仓在写入数据时,会同步在每个节点的磁盘上写入本机数据快照;即使当某节点异常重启后,数据也能从本机快照中迅速恢复,而不会丢失


在成本方面,根据华为云测试,基于通用的SSD硬盘,柏睿实时云数仓能够将硬盘的读写分散到每个数据库节点,使得硬盘使用成本大幅降低,较主流云数仓产品节省60%以上的成本