柏睿数据创始人兼CTO刘睿民:流数据库技术实现及国际标准制定路线图

2017年5月26日,一年一度的数博会大数据标准化论坛在贵阳如期来开帷幕。大会以“中国智造核心技术标准世界话语权引领”为主题。该会由数博会组委会主办,工信部直属机构中国电子化技术标准化研究所,全国信标委大数据标准工作组、贵阳市质量技术监督局承办,来自全球大数据领域顶尖企业、专业学者、业界翘楚云集在大数据标准化论坛共同探讨大数据领域未来的发展趋势。

2017年5月26日,一年一度的数博会大数据标准化论坛在贵阳如期来开帷幕。大会以“中国智造核心技术标准世界话语权引领”为主题。该会由数博会组委会主办,工信部直属机构中国电子化技术标准化研究所,全国信标委大数据标准工作组、贵阳市质量技术监督局承办,来自全球大数据领域顶尖企业、专业学者、业界翘楚云集在大数据标准化论坛共同探讨大数据领域未来的发展趋势。


会上,专家们纷纷对大数据行业是继续跟随国际技术引领还是实现弯道超车,以及利用我国已有的国际标准话语主导权优势,迅速实现中国核心技术国际引领进行探讨。中国电子技术标准化研究院院长赵波、国标委领导刘大山、全国信标委大数据标准工作组副组长杜小勇以及国际标准制定者、国际信标委国际协调员、柏睿数据董事长刘睿民、华为标准专家光亮等大数据行业权威专家均指出,做为国家未来核心竞争力的大数据行业已经进入数据流爆发的时代,中国必须要尽快制定相关国家标准及行业标准,掌握行业的话语权,引领行业有序健康快速发展,这对我们国家大数据发展至关重要。


而作为中国唯一一个大数据领域国际标准主笔人,数据库领军专家刘睿民指出,大数据行业已经进入流数据爆发的时代,中国应充分发挥自身优势,依托中国已经引领制定的2018流数据库国际标准,尽快制定自己的国家标准及相关工业标准,把握现在国际核心技术重新布局过程中,中国现在拥有的话语权,掌握国际大数据市场主导权。刘睿民是国内第一位大数据领域国际标准制定者,并被聘为工信部国际专家,他所拥有的分布式流数据库国际专利,被认为对甲骨文公司国际数据库市场霸主地位构成挑战。



柏睿数据创始人兼CTO、国际数据库标准的主笔专家,分布式流数据库国际专利的拥有者刘睿民先生


在keynote上,刘睿民先生还为与会者们带来了《流数据库技术实现及国际标准制定路线图》的主题分享。在他看来:中国必须要尽快制定相关国家标准及行业标准,掌握行业话语权;必须重视国家数据安全保障,数据库是保障数据安全的有力屏障。


刘睿民表示“中国在流数据领域拥有国际领先的技术实力。比如,我国提案“SQL对MapReduce及与之相关的流数据处理的支持”得到国际标准为技术专家的高度肯定,WG3在2016年孟菲斯会议全票通过了这个来自中国的首个提案。中国首次作为SC32 WG3“数据库语言工作组”和JTC1 WG10“物联网工作组”的联络员,负责探索流数据处理和WG10工作组的相关性,以便完善我国的提案作为SQL数据库语言ISO国际标准的独立章节。”


制定流数据库标准的关键意义


刘睿民认为大数据时代的数据价值体现在大数据的实时分析决策:1.实时流数据分析跟传统静态查询的区;2.实时交互式/即席查询。


这也是在国际会议上打败国际数据标准巨头甲骨文的实现弯道超车的核心亮点技术:原来传统数据库是静态的,数据是被进行清洗以后再放在磁盘里,要进行数据分析时,需要到磁盘里提取出数据再进行不同渠道、不同来源的滞后分析,所以分析不具有实时性,数据对经济实时指导价值不能更有效的体现出来;而流数据库所有数据都存在于在内存里,就如同数据瀑布在流动过程中,利用数据库内置模块对数据实时打上标签、归并、分析,使数据产生实时分析指导结果; 而在流动中打上的这些标签是为今后对数据做进一步处理,将数据进行有序存储,从而进一步成为不断变动的数据的存量历史经验参考依据。


因此,实时流数据分析与传统静态查询的区别在于,传统静态查询后即成为沉淀数据,数据价值不能充分发挥,而流数据处理完后不存储,而实时交互式是即席查询,数据的实效性及有效性成百倍千倍提高。而对大数据的实时分析意味着:即席查询使得索引没法预先被计算 。譬如,在线广告匹配、物联网、交通优化,等等。数据的价值如果在秒级,甚至毫秒级来体现,其价值要远远大于若干天后的滞后评估结果带给经济社会的价值,所以,流数据实时处理才是数据的核心价值。这才是和以前技术完全不一样的亮点,这是一项颠覆性技术,也就是这项技术征服了所有的国际技术评委。也只有这样的技术才能使得数据能够实时对经济社会、经营决策产生科学分析,并提供预警预测的指导结果,才能切实指导社会生活及生产经营,使得数据产生最大价值。

磁盘处理向实时流处理的进化


当前大数据分析面临的问题和机遇


刘睿民指出当前大数据分析面临的问题是工业互联网IoT数据量巨大,以高端制造业为例,每天新增的数据量为300GB,尽管Hadoop解决了数据存储于磁盘,但分析的实时响应基本没有可能;通过磁盘数据的分区并发来搬运去内存处理 ,带来了巨大的网络延迟,磁盘的速度比内存在读取方面的差距巨大10^5。


对大数据进行实时分析也就是说要即席查询, 使索引没法预先被计算 (数据立方将不被允许). 譬如,在线广告匹配, 物联网,交通优化等等。数据的价值如果在秒级,甚至毫秒级来体现,其价值要远远大于若干天后的评估,譬如,芯片厂良率1%的提高则意味着巨大的产值提升。


流数据库的实现架构图


刘睿民解释道:“流的定义类似于表的定义,这意味着不需要在编译器层面重新构建查询语义。同时可以以联邦的形式链接更多数据库作为流数据的数据源。通过连接器的方式来构建通用的流数据库架构,这样可以将访问和连接更加便捷,不用为每一个流创建连接器。”


刘睿民在会上还明确指出,流数据库是2025中国制造巨大支点。原来不管是在工业界还是金融界,使用的数据库95%以上都是甲骨文的,我们整个工业化进程,就是甲骨文在国际社会不断发展壮大的进程,据不完全统计,中国一年至少给甲骨文交的服务费至少在60-70亿美元,这使得我国工业、金融甚至政府的数据全部都在这些国际公司的数据库里,按他们的制定的规则被保存着,我们的数据安全完全依赖这些国际公司的技术,这其中的安全路径里存在的隐患,在不远的将来可能会让中国付出不可估量的代价,这不是杞人忧天,是我们必须正视的问题,所以拥我们自己国际领先技术标准的数据库才是根本解决方案。


目前,国际大数据领域对刘睿民在国际标准化委员会对流数据库的提案开始高度重视,原来传统的国际数据库垄断巨头厂商,像甲骨文、SAP他们这些老牌厂商,在趋势面前也不得不开始从以前的排斥转到现在的追随,因为,他们也已经从中国夺取的此次国际标准所显示的技术,意识到他们一统天下的时代已经终结,未来必然是中国技术引领的流数据的天下。


SQL9075国际标准后续路线图


最后,刘睿民针对SQL9075国际标准后续发展路线图给出了一些见解,他认为未来的发展趋势为:1. 未来数据库SQL并行化与机器学习函数化——大量的机器学习算法库将被标准化,融合到数据库内。

2. 数据库SQL并行化与深度学习/人工智能函数化——流数据库与人工智能的结合,使得数据自动标签及匹配识别;深度学习/人工智能的算法库函数化,标准化。


刘睿民在主题大会上的演讲

大会现场座无虚席


刘睿民演讲中还特别强调,数据库一直被成为软件工程皇冠上的明珠,是所有大数据产业的核心技术,只要运用数据的地方就不可能离开数据库的技术支撑, 所以,我国拥有适合时代发展、引领国际前沿先进技术的自有数据库技术,才能真正为国家数据安全提供有力的保障。我们只有摘下皇冠上的明珠,才能真正成为皇冠的拥有者。