首页 新闻中心 如何打造更快、更简单、性价比更高的数据智能分析处理平台(下篇)

如何打造更快、更简单、性价比更高的数据智能分析处理平台(下篇)

发布时间:2022-12-02  |  阅读:

640.gif

马珺/柏睿数据

联合创始人 全球副总裁 首席技术官

//



传统数据库已然面临NP难题,对于要考量CPU、I/O、网络等诸多要素的内存分布式数据库来说,如何更好地实现优化查询计划,情况则更为复杂。RapidsDB给出了一个智能解决方案,即基于人工智能和机器学习算法自主研发出的动态查询优化技术


在上篇内容中,柏睿数据联合创始人、全球副总裁、首席技术官马珺介绍了内存计算和分布式计算的基础应用,阐述了柏睿数据是如何将内存计算和分布式计算珠联璧合,打造出一个更快、更简单、更高性价比的数据智能分析处理平台。


640.png


然而,单具备内存计算和分布式计算能力的数据平台,是无法满足大数据更深度的行业场景应用需求的;尤其是随着政企数字化转型加速,大数据正在向更多的行业和应用场景持续拓展。在行业方面,大数据在金融、通信、政务、医疗等行业得到广泛实践;在应用场景方面,大数据在数据治理、数据模型分析、数据资产管理、数据追溯等场景得到深度应用,这也对大数据平台提出了更高要求。如何更易用、更敏捷、更智能、更安全地进行数据处理与计算、数据挖掘与学习呢?


下面让我们一起来看看数据联邦和智能技术是如何让数据平台智慧“思考”的。


基于数据联邦

智慧集成构筑数据“群”岛




大数据时代,数据多样性意味着诸多不同的数据源,不同的数据技术、大数据技术供应商和数据处理模式,同时数据也会被存储在不同的位置,诸如此类;所以当进行数据查询时,多样性导致了复杂性。因此,柏睿数据设想应该有一种虚拟数据源,来处理数据并迎接多源异构数据所带来的挑战,柏睿数据针对这一虚拟数据源给出的答案是数据联邦,即对数据接口进行革新,实现多源异构数据的集成融合。


640.jpeg


Rapids Federation在数据库平台设置了一个叫做联邦连接器的接口层,使之能与各种不同类型的数据库和数据源相连接,包括ORACLE、Postgres、GREENPLUM连接器、流数据连接器、JDBC连接器、HDFS Hive连接器等,通过联邦连接器运行查询,从而有效解决多源异构数据在不交换数据情况下的协作问题,突破数据共享瓶颈,实现多方数据安全高效流通。


640 (1).jpeg


同时,Rapids Federation可实现自适应查询下推,数据处理更加智能化、高效化。联邦连接器能够将部分数据的查询向下推送到数据源,以让能力更适配的数据源直接处理这些数据;并能够通过识别多种不同的数据结构来读取不同类型的数据。这也是Rapids Federation的优势特性之一。


640 (2).jpeg


以智能技术

智能化释放数据服务价值




为进一步提升数据库系统的性能,我们还能如何优化查询计划来更智能地处理数据?想解答这一问题,首先需要了解传统数据库究竟有什么局限


尽管每个数据库系统,都有一套自己的优化方式,但是对于传统数据库而言,往往面临一些挑战。传统的数据库通常基于关系代数、系统配置、参数等信息来估测查询的最佳执行计划,但是系统列出的查询计划往往会非常繁杂,且查询计划相似;系统通常采用基于规则和启发式算法的方法评估查询计划成本,以选出性价比最优的查询计划,但这实际上是一个NP难题;此外如果出现临时性宕机等网络问题,传统数据库则不能继续执行操作,这些情况将会导致数据处理效率低、效果不佳。


虽然对于分布式数据库来说,这些问题依然需要面对,但是RapidsDB能够充分胜任,根据查询运行时收集的统计信息智能优化和调整查询计划,极大地提升了查询执行的高效性、易用性、灵活性和稳定性。


01 查询更高效:通过JIT编译技术优化查询计划


借助JVM(JAVA虚拟机)强大的编译功能,RapidsDB将数据结构图转化成动态程序,将SQL查询转换成JAVA字节码程序,再重新加载程序;当JVM发现某个程序被频繁运行时(或一个多次执行的循环体),就会对该程序本身进行编译,将JAVA字节码转换成机器码。这就是JIT编译技术的强大之处,不仅能够避免重复编译查询,而且运行更高效。


640 (1).png


02 结果更精准:基于人工智能和机器学习算法的动态查询优化技术


传统数据库已然面临NP难题,对于要考量CPU、I/O、网络等诸多要素的内存分布式数据库来说,如何更好地实现优化查询计划,情况则更为复杂。RapidsDB给出了一个智能解决方案,即基于人工智能和机器学习算法自主研发出的动态查询优化技术


查询优化的核心问题之一在于连接排序,尤其是面对多连接查询和大型连接查询场景时。假设一个查询条件要从人员表中选择身份证号和地址数据,看上去信用评分和教育程度两个条件的先后顺序是等价的,但在查询的实际运行过程中会发现,这两个条件执行的先后顺序对不同年龄段的人群来说有很大差别,原始查询的工作条件却检测不到这一点。


但RapidsDB数据库引擎能够通过动态查询优化技术,根据数据分布特征,预先有效捕获到不同列/表之间的相关性,并自动插入条件语句来完成优化查询计划,从而得到更精确的查询结果;同时也能对查询计划成本进行预先评估,在查询计划的结果准确性一致的情况下,选择最佳的查询计划。


目前,柏睿数据的动态查询优化技术已经获得了美国专利,这也表明动态查询优化技术是一项具有创新意义的先进水平的技术。


640 (2).png


03 运行更稳定:动态查询优化技术持续自主调整查询计划


在遇到突发的网络宕机情况时,分布式数据库上的查询依然能够继续运行,因此RapidsDB动态查询优化技术可以完美的应对这一复杂情况。在运行过程中,RapidsDB能够自动检测到报表的故障问题,并自主动态调整查询计划,以确保系统正常运行。


基于内存计算、分布式计算、数据联邦、智能技术这四个重点技术方向,柏睿数据完全自主研发的数据智能分析处理平台RapidsDB目前已在金融、通信、政务、医疗、能源、工业互联网等行业实现了广泛而深入的业务场景落地。


未来,柏睿数据将携手政府部门和千行百业的企业持续开展数智化转型,助力其最大程度发挥业务数据价值,赋能其业务场景精细化运营,实现降本增效、创新应用和绿色低碳发展。



热门新闻