发布时间:2023-04-10 | 阅读:
伴随“湖仓一体技术”进入Gartner Hype Cycle 2021成熟度模型,相关技术成为“数据管理分析”领域的热点。湖仓一体技术融合数据湖、数据仓库与数据流批于一体,能够为企业提供海量、多模数据实时处理与分析的能力,正为行业发展带来新价值。 那么,湖仓一体技术是如何创新演变来的?为何如此受到业界关注?目前有哪些创新实践?本文将结合柏睿一体化流湖仓Rapids Lakehouse产品的创新实践来探讨。
20世纪60年代至70年代,数据分析与场景尚在萌芽,未正式登场。这一阶段技术特征包括晶体管、集成电路、SMP架构等,以事务交易场景为主。
1980年到2010年是经典数仓发展的三十年,大规模并行处理架构的数据仓库走上舞台,柏睿数据也是在2014年推出基于分布式全内存架构的分析型数据库RapidsDB。
为解决数据分析能力不足,该时期孕育出经典产品数据仓库及相关技术,经历了固定报表,满足T+1时效性到分析需求增加,需提供灵活深度查询能力;到预测型需求,需满足多维度分析预测;再到运营型数仓,不局限在后台提供服务,强调实时变化、分析学习和反馈控制;再到智慧型数仓,强调人工智能的全面感知。其主要技术特征包括无共享、分布式、数据压缩、行列混存、智能内存、动态负载和数据库内置高级分析等。
2000 年以来,越来越多的组织生产了海量的json、图像、音视频、日志等等半结构、非结构化数据,数据仓库慢慢不能满足这类数据的与处理海量数据和实时性需求,由此,开源Hadoop/NoSQL与数据湖技术迅速发展。如在2006年,Hadoop首次发布,大数据应用系统变得容易;2011年,James Dixon提出数据湖概念。 该阶段,尽管海量多模的数据存储和处理、低成本的大数据技术和算法已经在生产中得到广泛应用,但是数据湖在存储数据外,仍然缺少一些重要功能,如不支持事务,不保证数据质量,缺乏一致性、隔离性,几乎无法实现混合追加和读取数据,以及完成批处理和流式作业,缺少DBMS中常规功能,兼容差、安全差等。因此,管理不善的数据湖被戏称为“数据沼泽”。 近年来,随着各行业数字化转型的深入,企业的分析型业务日趋复杂。客户数据量快速增长,数据处理复杂度与难度巨增,数据分析实时性难以保障、多模数据智能化处理任务艰巨,数据沼泽现象严重;同时面临运维难、扩展性差、成本高等问题。 业界也持续总结行业数字化的业务特点,力求克服传统数仓和数据湖技术在场景应用方面的不足,以期实现海量数据、多模数据处理、T+0实时性保障、智能化、安全及云原生技术的规模化应用;既着眼于平台拓展性、应用与成本,同时更加注重在不同环境、不同功能的产品组合与协作,以及面向更广阔的数据科学、数据工程、数据应用、数据服务等领域的业务挖掘和全球化市场拓张。 由此,融合数据湖、数据仓库与数据流批于一体的一体化流湖仓正式登场,为企业提供海量、多模数据实时处理与分析的能力。与此同时,柏睿数据为助力企业海量多模数据实时分析能力不足问题的解决,推出高性能、一站式、智能集成的湖仓一体化产品Rapids Lakehouse,打造统一的数据集成、数据湖、数据仓库的数据管理平台,结合AI/ML技术,全面发掘数据价值、提供即时数据洞察,帮助客户提升业务能力和行业领导力。 柏睿一体化流湖仓Rapids Lakehouse的数据集成能力使企业能够快速、安全地连接不同数据源、不同的服务、应用程序,简化通信和自动化数据驱动,使数据集成更轻松、更安全。还具有可定制的用户级身份验证和授权功能,数据湖和数据仓库的能力充分结合、形成互补,并对接上层多样化的计算生态,集成机器学习和AI算法,保障企业360 度运营、业务复用与创新、提升竞争力与成长性。 相较于同类产品,柏睿一体化流湖仓Rapids Lakehouse不仅具备高性能分布式SQL引擎、20+多源异构数据接入、统一存储、统一元数据、统一访问、安全可靠等全面的功能,还具备核心优势价值。 海量实时:PB级规模多模数据存储,T+0实时在线分析,数据长期归档和复用。 流批兼顾:流处理吞吐量超Spark 40%,延迟低28% ,离线同步速率超20万TPS,CDC平均时延低于4s。 智能场景应用:基于AI算法集成、机器学习、深度学习等10余种算法,满足离线、流式、交互式分析等多场景应用。 高扩展性:计算与存储采用分布式架构,可实现数百节点的横向扩展,支持在线扩容和节点替换,业务不中断。 开放兼容:集群、虚拟化、容器化多种部署模式,兼容多种软硬件与开源数据生态,支持多语言Open API,更易集成。 组装化:可提供一体化湖仓方案的同时,提供组装化产品解决方案,保护客户即有投资、成本控制、支持同行业生态合作。 湖内治理:在为客户提供全保真、可管理、可追溯的数据基础上,可为客户提供湖内数据治理以及特征库建设,满足客户数据分析准备与具有行业特征的机器学习训练需求。 基于上述能力,柏睿一体化流湖仓 Rapids Lakehouse 将助力金融、政府、智能制造、运营商、能源等行业企业打造统一的数据管理平台,深度服务于企业的数据流处理、批处理、实时数仓、数据湖、交互式分析、即席查询等业务场景,助力企业大幅提升大数据管理与分析能力与效率,全面发掘数据价值,快速响应业务需求,优化数据资产,实现降本增效和业务创新。