发布时间:2019-10-17 | 阅读:
“再快一天,我就能赶上Deadline。”
“再快一分钟,我就能在9:00打卡。”
“再快一秒,我就能拿下百米赛跑第一。”
每天,人们都在与时间赛跑,希望在有限的时间内完成更多事情,挖掘更大价值。尤其在物联网技术、云计算、人工智能、大数据技术等迅猛发展的信息时代,人们在转瞬间就能感知万物的变化,预知未来。
日前,谷歌发布了R支持Google Cloud Platform(GCP)大规模应用。据谷歌称,云计算的兴起为R开辟了新的机遇,使用GCP for R可以避免限制理解数据的基础设施障碍,并构建大型模型来分析以前需要在高性能计算基础架构上进行大量前期投资的大小数据集。
众所周知,R语言作为一种数据分析和机器学习的专业语言,是当今数据科学领域流行的免费开源编程语言之一,在数据分析与机器学习领域已经成为一个重要的工具,目前有75%左右的数据科学家使用R语言,有35%左右的数据科学家将R语言作为统计分析的首选工具。尤其在新一轮科技与产业变革下,人工智能深刻地改变着人类的生产方式,R语言在技术应用方面也取得了较大的突破,如符号计算、模式识别、机器翻译、机器学习、问题求解、逻辑推理和定理证明、分布式人工智能、就算计视觉等方面。
R作为一套完整的数据处理、计算和制图软件系统,能够带来强大的数据集群分析能力和运算时效能力,这也是各大人工智能、云计算、大数据分析、数据库等产商赖以推崇的原因。
那么,在性能与场景上是否有要求?
目前,单机版本的R开源软件,只能够在相对小规模的数据集上执行高效分析运算(难以⾼效处理数十GB级的数据分析),而针对海量并行的数据时代,需要更为强悍的并行集群R来处理大规模并行数据,实现建模运算,保障在市场竞争中处于绝对优势。柏睿数据的ParallelR可以对内存数据库、分布式文件系统中的数据进行大规模并行建模运算,而且数据处理、加载时间更快。
柏睿数据的ParallelR与R紧密结合,用户通过R接口进入ParallelR的命令行界面,输入各种指令操作,指示ParallelR集群加载、清洗、分析和统计各种数据集。ParallelR提供的多种统计算法,并对统计数据分析算法专为分布式运算环境重新开发的分布式算法实现,也通过R的软件包方式展现给用户,供用户在数据分析过程中调用从算法包方面比较,ParallelR把数据处理的多种操作也包含在算法包里面,兼容更多的数据类型,功能更加强大,模型更加优化,在部分情况下预测结果更准确,模型结果更加丰富,使用户可以更加方便的进行建模分析。多种情况下,能够避免了需要花费大量时间的哑变量转换操作,简化了建模流程,还避免了模型在哑变量转换后资源急速膨胀的情况。
时间上来比较,ParallelR支持分布式模型运算,当在数据量较大,传统单机R已经无法运行建模时,ParallelR还能够轻松应对。在测试过程中,我们观察到ParallelR的分布式运算模式,不仅可以支持对大数据执行建模分析,同时能够⼤幅度缩短建模分析的时间,通过利用四种算法分别用来建立航班准点计算模型,在4MB小数据和12GB全量数据两种情况下的测试对比。我们看到在小数据和更大规模数据两种情况,ParallelR的建模运算性能都全面超越单机R的性能。单机R能够支持这些算法,但它的算法包在对诸如哑变量的要求使单机R对哪怕大⼀些的数据集都可能由于资源不够而无法完成建模的运算。另外,通过对比单节点ParallelR和3节点ParallelR,我们看到ParallelR能够线性增加更多的处理能力,使建模运算性能随之线性扩张。
纵观当前技术发展的新局面,AI技术也在不停地迭代更新,不仅要依托像R语言等新技术、新产品来提升自己的竞争力,还必须积极思考自己的行业将如何进行升级。其中,姿势很重要:主动拥抱趋势优于被动卷入浪潮;速度和时机也很重要:因为冲浪时,一旦没抓到“起乘”瞬间,下一波就会被打下潮头。
在今年两会报告中,“促进新兴产业加快发展。深化大数据、人工智能等研发应用,培育新一代信息技术,壮大数字经济”引发了广大关注。李克强总理提到:“思危方能居安。在充分肯定成绩的同时,要清醒看到我国发展面临的问题和挑战。自主创新能力不强,关键核心技术短板问题凸显。我们一定要直面问题和挑战,勇于担当,恪尽职守,竭尽全力做好工作,绝不辜负人民期待!”
在当前的国际环境与经济发展形势下,安全可控显得尤为重要,在关键领域坚持安全可控,是增强自主创新能力,解决关键核心技术短板的前提。所谓安全可控,就是产业在发展上可以做到自己做主,不受制于人。这就要求,在产业的关键技术方面,有自己的核心技术;在参与全球产业的竞争过程当中,有自己独特的竞争力。
柏睿数据作为一家拥有国际领先的、基于完全自主研发的安全可靠数据库技术产品的大数据公司。以持续的科技创新,践行国家自主可控战略,致力于为政府和国民经济行业的数字化转型升级提供基于大数据平台的实时分析技术服务。目前,柏睿数据是国内唯一实现了从解析层、优化层、执行层到存储层等全面的完全自主可控的数据库产品体系,并以海量、高并发、实时、全内存分析等特性领先国际;并依托柏睿数据的库内人工智能并行算法库ParallelR产品技术为支撑,主导制定中国唯一的数据库国际标准《AI-in-Database库内人工智能》,实现底层核心技术数据库人工智能的自主可控。其产品已成功落地应用在政府、金融、医疗、工业等众多领域。
“在面对海量、实时大数据分析上,柏睿数据的ParallelR作为一款分布式内存数据库人工智能并行算法库,拥有快速,可扩展的机器学习和预测分析功能,可以在企业环境中,轻松构建机器学习模型,实现数据分析的智慧化。同时,作为自主核心数据库人工智能基础框架,柏睿的ParallelR-3节点在12GB数据集耗时仅为105秒,而传统R为1086.9秒。”柏睿数据相关负责人介绍。
相信,在激烈的同业竞争中,比拼的不仅速度,更是自主核心的产品体系方能在风云际会的市场上占据一席之地。