柏睿数据CTO刘睿民畅谈大数据:政府应紧急设立首席数据官

刘睿民认为,大数据时代的国家竞争发展优势,就是对海量数据进行分析让数据变成对社会有价值的产品。目前中国虽初步具有这种能力,但空间还很巨大。他建议,政府决策部门应紧急设立首席数据官。

从IT到DT,技术的发展使人类真正有了预测未来的基础能力。中国数据分析技术的市场据预测将从2015年的45亿美元增长到2022年的368.6亿美元。在行业应用分布上,政府、银行、零售业是大数据分析市场最大的用户 。

在互联网和大数据时代,人类所有行为包括思想都会被记录下来并存储成数据,它是真实世界和虚拟世界之间的映射,构成了另一个世界,而且根据国家统计局信息,诺贝尔经济学奖获得者均有深厚统计学分析背景——即大数据分析背景。


数据是灵性和理性的结合,在当今世界海量数据是第一位资源,对于数据的发展和规划,反映出国家、行业和思想界的路径方法。从中央政府最近发布的《促进大数据发展行动纲要》来看,大数据的发展战略已被纳入到国家级和经济策略级的发展中,也被看做以市场作为资源配置的决定性因素,数据技术、产业发展必将促进中国从IT到DT的发展,加速中国经济转型的过程。


全球科技创新趋势正在发生巨大变化。大数据是人类社会的第一资源,对这一资源的有效利用和加工再生产,必将会对社会经济发展起到极大的推动作用,进而使人类可以更理性地分析世界、预知世界、应对未来,中国已经在大数据领域以后发优势的态势走到世界的前列,继续坚持下去,中国将会执世界经济发展之牛耳!那么大数据又将如何帮助改变企业、国家间的竞争格局?中国在基础领域及数据库研发领域最主要问题是什么?政策层面应如何加以引导解决这些问题?


《华夏时报》记者新近约请柏睿数据科技有限公司董事长兼CTO刘睿民接受专访,深入阐述相关问题。


曾任多家世界级跨国IT公司大中国区及亚太高管的柏睿数据公司创始人刘睿民,曾在国内上市公司华胜天成担任CTO,归国前在硅谷Tandem公司师从图灵奖大神级得主Jim Gray,共同参与过Tandem NonStop SQL/MP的内核编写。据业界权威人士介绍,Tandem公司的MPP分布式数据库迄今为止依然在欧美的高端市场傲视群雄。


刘睿民认为,大数据时代的国家竞争发展优势,就是对海量数据进行分析,让数据变成对社会有价值的产品。目前中国虽初步具有这种能力,但空间还很巨大,因此刘睿民建议,政府决策部门应紧急设立首席数据官,这将有助于国家宏观战略决策中,各种数据不协调造成的应用管理中诸多问题获得解决。


大数据VS人与社会与国家


《华夏时报》:学术界有句话叫“透过数据看本质”,我们看到,包括您在内,当今海内外的学者正在以空前的热情投入用大数据研究和解决中国问题的事业中来,这一趋势所反映的本质是什么?


刘睿民:大数据产业其实是国家软实力的重要体现,记得我们从事大数据研究项目最早的一个案子,来自于传统制造业,时间大概在一年半以前。当时我们觉得很奇怪,制造业为何对大数据如此感兴趣?尽管那时大家都觉得制造业似乎在走下坡路,但制造业是真正的实业,由于其利润薄、生产效率相对较低,因此需要考虑如何从中国制造转向中国智造的产业转型问题。而所有产业转型都必须建立在对各类数据的精确管理上,数据最后会体现出产业增长和精细化管理的整体面貌。


从工厂管理到城市管理再到国家管理,都要靠数据来说话,都要根据数据所说的话来加以调整。比如国家统计局依据传统统计科学统计各种经济增长数据,如果与大数据管理方法结合起来,则其统计结果就能帮助人们更深入、更实时交互地了解或判断当前经济真实状况,甚至帮助人们预测未来的经济变化趋势。


再比如过去一向很保守的传统金融业,在遭受了互联网金融的刺激之后,其数据量开始变得很庞大,这引发了监管难题。尤其对于P2P,其所有交易都是多点对多点交易,监管难度很大。所以,一个需要清晰认识的问题是,如何通过数据管理这些经营活动?


在国家治理层面,决策者所看到的,可能是如何通过数据管理国家的问题。透过数据看本质,我们所看到的都是从宏观到微观的一系列需要以数据来支持和帮助人们解决的问题。


《华夏时报》:大数据将如何改变人和社会的思维?改变企业、国家间的竞争格局?


刘睿民:上世纪90年代我在美国从事大数据研究工作,有机会接触到技术上通常比较超前的美国军方的一些项目,这包括无人自动驾驶技术、舆情监控技术、欺诈检测技术等。当互联网数据爆发之后,许多原先属于军用的技术渐渐变成了普通的民用技术,被运用于企业或国家间的经济发展竞争之中。最早出现的舆情监控技术,现在就已被许多地方政府普遍运用,并且下一步,舆情监控技术将会有进一步发展,变得可以引导舆情走向。较早被银行使用的欺诈检测技术,现在已经在制造业得到广泛使用。


数据可能会泄露,也可能会透过某种方式渗透进入网络中,可以通过排序、机器学习,通过人工干预的半监督学习、深度学习,拼凑出某种完整图景,以探索出并固定住某种经验。人类过去从没做到这一点。机器累积的这种认知能力,将大为提升人类使用知识的能力。


比如天气APP与地理APP的整合,就可能精确地告诉人类在某种天气形势下某些地区的某些状况会出现什么样的变化几率。这也就是说,过去靠人的经验判断的变化,今后可以由机器帮助人类做出更精确判断。这可能将从根本上改变人类的思维习惯。


《华夏时报》:如果大数据的核心就是预测,它能预测些什么?


刘睿民:所谓预测,正如刚才所言,只是将不同的人对一些特别环境的感受、判断等数字化之后,通过各种APP加以搜集并放入数据库,再进行检索、分类,以及监督学习算法、学习处理模板,和通过半监督学习对监督学习模板进行校正——大约就是这样的一种原理。但其所有的步骤都涉及到不同算法,比如排序、分类、聚类,以及深度学习算法等。这些算法在上世纪八十年代都已出现,但至今并未有突破性进展,并未发生质变,而只是量变,是在广度上发生了变化。不同维度上的数据量的增加,产生了不同的聚合,现在很多深度学习的算法与高性能计算中所用到的算法并无二致。而高性能计算中所用到的数据过去就已经很大。所不同的是,一个用在科研上,一个用在生活中。

大数据的预测,并非是指其能准确的看到未来,而是指其判断结果可能更接近实际值。


《华夏时报》:通过大数据管理有无可能看到竞争的对方将来的预定发展策略?


刘睿民:完全有这种可能。在算法不变的前提下,收集的竞争对手行为特征如果从10个扩大到10万个,且具备分析这10万个行为特征的计算能力,则分析的结果就可能很接近实际的情况。据此,就可做些推演,设想将会出现的变化,再根据算法做些调优,就确实有可能预料到对方所出的牌。但这更多只能算是一种推演,而不能算是预测。预测是按照某种路径推论,而推演则可能有若干个路径。但二者导致的结果都尚不具备唯一性。


美国大数据管理在算法、计算能力、模式创新等方面都要比中国走得快许多,这首先是因为美国在数据库方面已有很多年积累,中国的大数据积累只是从上世纪九十年代才开始启动,这两年才真正热起来。像Hadoop、spark等一些关键技术,我在2005年的时候才听到国内有提起。


《华夏时报》:中国在大数据管理方面如此落后,会否在国际竞争战略上有所体现?


刘睿民:现在我们的竞争战略可能更多的是靠人、靠传统智慧来做分析判断和设计,靠数据说话的程度可能并不很多。但这方面应该只比美国差,比俄日、比英法德应该并不差。


《华夏时报》:由此来看,是否可以说,在中国人还没出招的时候,美国人已经知道中国人大约会出什么招?


刘睿民:这种危险性可能真的存在,却可能未必被真正清醒意识到。仅从经济学角度看,美国获得诺奖的几位计量经济学家,包括他们的学生,这些人当中很多原来都是学数学的,之后形成芝加哥学派,其中一些人去了华尔街做对冲基金,也有的去美国财政部任职,参与政策制定。这些人长期被数据所熏陶。

美联储采取加息之类的政策之前,相信更多会采取计量经济学上的一些方法论并结合大数据再做出判断。

《华夏时报》:根据IDC的预测,经济高速发展下的中国产生全球21%的数据,其比重已远超中国人口占全球的比重,这是些什么样的数据?对其应用价值可以做怎样的评估?


刘睿民:这一数据似乎有些保守。中国是个跳跃式发展的国家,而且一步就跳跃到互联网发展时代。所以,中国巨大的人口基数使得中国产生的数据量可能占全球的25%到30%。


这些数据专业术语称之为结构化数据或非结构化数据,通常以字节有无规律可循来划分。从这些数据中可以判断出各种行为取向,据此可以发现各种商业价值。从国家间竞争或社会治理角度看,甚至据此可以对某个人建立一个有关其行为习惯的数据信息库,从而推演出其行为的倾向性特征。


《华夏时报》:大数据的另一面是什么?比如对数据的垄断,形成某种监控,它会否造成严重的社会问题甚至国家治理层面的问题?大数据最终会否成为人类的敌人?


刘睿民:软件业的人都知道,没有人写软件没有bug。这个bug到底会出现在哪里?如果只是通过数据去启动软件,并与武器结合,确实不太容易控制,也确实对人类很有危险,但目前还没有到危害人类的阶段。大数据更多的只是一种算法的判断,并停留在有点接近于人类思维的模板上面,并没有跨越到自己去思维的程度。


至于超算,它是一种更高级的计算,但在超算的竞争层面,这么多年也尚未出现实质性突破,尚未出现一种能够颠覆整个游戏规则的算法。大数据的深度学习算法,应该与超算结合起来。我们正在与一些研究机构建立这样的联合实验室,试图将深度学习上的一些研究成果与实际案例中的问题结合起来,使深度学习的一些算法更加实用。比如对于最近人民币汇率的急剧变动,国内采用了一些非常手段加以控制,以传统智慧见招拆招,而非通过大数据管理提出应对举措。


大数据的商业价值及其应用技术竞争


《华夏时报》:大数据现在热得发烫,大数据运用业已上升为国家战略,这被认为是大数据企业难得的战略机遇,大数据产业将大繁荣、大发展,中国社会将进入大数据时代。但实际很多企业尚未找到利用大数据创新、创业的“门道”。大数据在中国究竟如何真正产生巨大商业价值?


刘睿民:对于大数据,现在出现一众围观的现象,所有的人都在谈大数据,好像连云计算都不太谈了。这一方面是由于云计算竞争比较激烈,另一方面我们也看到,很多原来做软件的人,都给自己戴上大数据的头冠。


但在数据领域中国落后很多的原因,是企业也好政府也好往往都被话题引导,而没有扎扎实实做一些事情。所以我们一上来就做基础软件。2014年我拿出了第一个大数据的国产数据库。


大数据创新更多体现在基础软件层面,体现在数据处理和深度学习方面。而中国与美国的差距正体现在这些领域。差距还体现在大学教育方面。美国很多著名大学开设数据库专业课程,着过在这方面很欠缺。中国在大数据方面存在的欠缺,恰是一种价值洼地,能产生巨大的商业价值。


长远来看,政府和企业今后更多的是要做一些基础性工作。热潮总是要退却,到一定程度,还要去伪存真,最终看基础是否扎实,因此要多借助开源的东西,但开源的东西并不能解决所有的问题。比如中国大陆之前做linux没能成功,因为开源更多的是一种生态,围绕其周边有很多深入开发商业软件的公司。甲骨文公司最早的数据库软件也吸收了开源很多东西,最终它成为了商业数据库软件巨头。这值得我们借鉴。


如何在当今数据大爆发时代使自己有一个好的定位,政府如何引导开发大数据商业价值,都是值得深入思考的问题。


《华夏时报》:柏睿数据在国内首创的MPP内存数据仓库被认为是中国数据仓库领域的“诺曼底反攻”,并且最近完成接近千万美元级融资。柏睿数据前不久还获得“2015年度中国软件和信息服务大数据领域最佳产品奖”,并且据悉柏睿数据被授权撰写了数据库国家级标准。为什么柏睿数据这么“火”?


刘睿民:媒体所称中国数据仓库领域的“诺曼底反攻”,并不算夸张。中国大陆做分布式数据库的人很少,而做内存式数据库的几乎根本就没有。上世纪九十年代中期以后,中国大陆数据库行业一直为美、德等国外厂商所垄断。当时中国本土众多软件公司所追求的,可能更多的是短期效益,而不愿挣数据库这样的慢钱。再加上数据库本身技术标准严苛,对算法稳定性要求很高,实现难度较大,是一种慢工出细活的领域,中国公司如果起步晚,积累少,肯定就会显得落后,所以这种支撑大数据核心发展的基础技术需要国家的大力支持。


现在大数据时代到来,数据大暴涨,人们对数据的要求也越来越高,势不可挡。甚至房地产商做所谓场景消费也需要用到大数据,这是以前所无法想象。当今人的互联、物的互联正在不断加强,而工业4.0,中国智造,也都是充分条件,大数据即将时势造英雄,也是柏睿数据的流数据库走上台面的良好时机。


两年之前我即开始启动流数据库的研究,那时国内还没有人提这项研究。因为时势都未到,但它所发生的必要条件均已具备。今后将要充分发挥这些必要条件。中美专家包括中国工信部专家都对于流数据库在中国国内出现感到惊讶。柏睿数据撰写的数据库标准已被认定为中国国家级标准,受到国内外同行的充分肯定。


《华夏时报》:你怎么看贵公司的行业和技术地位?


刘睿民:行业地位应处于前三,公司和个人的技术研究实力应排名第二。


《华夏时报》:您被认为是大数据行业的一匹黑马,被工信部聘为国际专家,同时被国际标准委员会指定为国际协调员。您这么“火”,你所向往的人生目标是什么?


刘睿民:自己并不觉得有多么“火”,做好数据库还须有赖于自己很多年的积累。我首次见到我的导师Jim Gray是在1996年,当时他给了我一个bug,说你去做吧,这让我感到很郁闷,心想不就是一个bug吗,后来才知道,在我当时工作的这个惠普实验室,一个bug很有深度,没有三个月的时间解不出这个bug。但一个多月后我解出了这个bug,这让导师很吃惊。后来我接的客户有很多都是世界级客户,其中包括美国国防部、维萨组织、沃尔玛等,有的客户其分布式数据库里的集群有1024个节点。


一个打算要进入到数据库这个行业的人,之前必须要有5年写底层代码的经验,进入之后还要写6、7年的代码。这样才可能驾驭数据库整体架构的东西。我未必是黑马,但却是有长期积累的熟练工,又正好碰到当前大数据发展兴盛的时点。关于我的人生目标,我的投资人汪潮涌先生曾问过我,我的回答是,如果我的数据库系统写得好,被产业界认可,那么,之后我将回到学校里,从理论上加以提炼和总结,并传授给学生,这才是真正有很重要意义的事情。汪先生很认同我的这一人生目标。


《华夏时报》:如何看下一代软件开发技术趋势与对各行业的深刻影响?


刘睿民:下一代软件开发技术趋势可能会有很大变化。并行计算今后可能会要求很高,这其实也是我们正在做的事情之一。但对有些概念,国内存在混淆现象。比如我一直坚持说MPP内存数据库,有的人却说这是分布式数据库,其实MPP也是一种分布式,而原则上,MPP是海量并行处理,算是一种分布式,但分布式并不见得是MPP。所谓并行处理是说每个处理单元与其它单元有关联。


最近两年,并行计算确实出现了一些语言或软件开发方法,这一趋势比较明显。尤其是当处理的数据量很多,则对之后的影响会很大。这方面,国内积累真的不多。


《华夏时报》:在您看来,一个完美的大数据处理系统究竟是怎样的架构?


刘睿民:三年前,我曾认为,理想中一个分布式的MPP的海量并行的内存数据库就已足够,我能处理的数据比如说当时是64G的内存有100个节点6个T的数据,就让我觉得很大了。但去年很多用户已开始问我,你们能不能处理256G内存的单节点的数据。这个发展真是太快了。


下一个趋势是,单节点可能至少要处理4个T的数据,4个T1000个节点就是4000T。在做好算法,系统稳定的条件下,4个T数据可在数分钟之内处理完毕。这是一个比较漂亮的结果。


就硬件而言,CPU自身速度在提高。而分布式计算集群现在越来越大。这在之前很难预料。


我们的内存数据库内部测试现在已达到256个节点,下一步可能是512个节点,这是数据库的一个比较大的变化趋势。三年前我开始考虑的流数据库,去年这一想法已开始成熟,原以为可能要等候两三年能出成果,现在看,如果每个人手中的手机云端数据直接进入我的有数百台机器组成的内存池子,进入流数据库,做一些简单查询,或进入分布数据库做非常复杂的分布查询,这些过程都无需落地,只在内存里跑。这是一个比较完整的体系。在之后,是深度学习的算法,也存于内存之中,而且要与数据库紧密结合。也就是说,在只要有数据的地方,就有算法围绕着它。今后会朝着这个方向发展。


大数据应用涉及国家战略


《华夏时报》:中国在基础领域及数据库研发领域最主要问题是什么?政策层面应如何加以引导解决这些问题?


刘睿民:总结了看,数据库本身是一个基础领域,其研发主要取决于积累,之后是院校之间与企业研究成果如何结合的问题。在中国人民大学萨师煊教授之后,中国数据库领域就再也没有权威性成果问世。从这个意义上看,未来我们的研究成果如果能变成教材,让大学里的学生学习之后能写出简单的分布式数据库,我们人生的很大一部分目标就实现了。


《华夏时报》:关于在一些政府决策部门设立首席数据官这一职位,您有何看法?是否还早了点?


刘睿民:一点都不早,而是很迫切。


现在我们遇到的很多情况都是拿不到数据。有人想做事,但数据拿不到,原因就在于行政管理存在条块分割,这导致数据也被隔离开。


数据到底具有怎样的价值,通过数据官的协调,就可以协调出来。而协调的规则是什么,这也需要探讨。


目前中国的政府部门和企业部门仍以CIO为主处理IT问题,尚未设立CDO即首席数据官,企业部门只有阿里巴巴公司有CDO,外企设CDO的比较多。


中国的政府部门尤其是决策部门有必要尽快设立CDO这一职位,这将有助于使得宏观战略大数据应用管理中遇到的诸多问题获得解决。


《华夏时报》:与全球主要发达国家相比,中国仍处于大数据发展的初级阶段。如何构筑大数据时代的国家竞争发展优势?


刘睿民:所谓构筑大数据时代的国家竞争发展优势,就是应用数据的能力,就是让数据变成有价值数据的能力。目前中国尚远远不具备这种能力


《华夏时报》:大数据安全现在已经上升成为国家安全极为关键的组成部分。您对此有何建言?


刘睿民:最近我们正在这方面做探索,比如与金融界合作,尝试将分布式数据库与区块链技术结合在一起,这意味着可以即时发现数据库中的数据进出状况。


《华夏时报》:最后,能否请您预测一下中国大数据变革的前景?


刘睿民:当今从事大数据应用者很多,也有很多从事大数据交易的企业,如果能形成合力,整个大数据生态系统能够良性循环,将是一件令人乐观的前景,也将会为中国大数据应用发展积累经验和人才。因此,政府需要在这方面积极加以引导。大数据应用不应只是一种热潮,因为当热潮散去,还会留下什么吗?如果形成生态系统,在数据库和数据处理方面,包括中间件方面,可能会有基础软件升级的问题要解决,这可能会导致中国出现一些大的基础软件公司,并与甲骨文公司、SAP公司等国际巨头竞争。从应用软件方面看,中国可能会出现一些突出的应用,在虚拟现实和自动驾驶领域,中国也许同样会出现一些大公司。但这同样需要很多积累。应用也需要能够落实的环境。最怕的是大数据成为套利的工具。


文章来自:新浪科技