Google推出Dataprep,借助机器学习搞定数据预处理

Google推出Dataprep,借助机器学习搞定数据预处理
2017年03月10日 13:30 量子位

△ 在旧金山的Google Cloud Next 2017会议上,Google副总裁Brian Stevens展示了Google Cloud Dataprep。王新民 编译整理

量子位·QbitAI 出品

对于数据科学家来说,在运行机器学习模型之前对数据进行处理实在是件麻烦事。

今天,Google在旧金山Cloud Next大会上宣布推出Cloud Dataprep,一项让用户可以借助机器学习算法选择性清理数据集,然后将其存入数据存储平台,比如Google BigQuery服务。

Dataprep不需要用户写代码,就可以自动检测数据的模式、关联,以及数据缺失、重复等异常,检测完成后,它能够帮用户建立一组规则,来处理这些数据。

Google的云平台副总裁Brian Stevens没有在台上提到的是,该软件是Trifacta公司Wrangler企业应用的嵌入式版本。Trifacta的Wrangler企业应用有简单的点击式界面,通常用来清理数据。

Trifacta发言人在邮件中对科技媒体VentureBeat表示,这两者的区别在于,Cloud Dataprep与Google云存储,BigQuery服务和云数据流这三项技术无缝整合,而Trifacta的Wrangler企业应用则是利用分布式文件系统HDFS,数据仓库技术Hive和计算引擎Spark进行部署实现。

现在有4500家公司的员工在使用Trifacta的应用,该公司去年宣布获得了3500万美元融资。

△ Google Cloud Dataprep的应用界面

谷歌说会在稍后公布此款应用的定价信息,所以该服务将会是收费的。目前Cloud Dataprep只提供内部测试版,客户必须通过注册才能进行使用。当使用Cloud Dataprep时,内部测试版用户只需要支付使用BigQuery服务,云数据流和Google云存储资源所产生的费用即可。

该服务可能与创业公司Paxata的软件进行竞争。亚马逊旗下的云计算服务AWS最近宣布了一项能够提取,转换和加载(ETL)数据的Glue服务,Google此举也是对亚马逊的响应。微软的云服务Azure目前没有能够与Google Cloud Dataprep直接竞争的独立工具。

Trifacta的首席执行官Adam Wilson在一篇博文中写道:“作为一家领先的数据存储公司,我们遵循市场上的趋势,这是合乎逻辑的。我们公司非常注重投资基于云端的解决方案,所以我们很高兴能够与Google合作。Google公司的指导和帮助大大加快了我们实现云端计划的进度。我们为我们已经提出的一切产品感到自豪,同时我们非常高兴地看到我们的解决方案能够为Google Cloud快速扩大的客户群服务,为他们带来了新的价值来源。”

今天AI还搞了哪些大新闻?

在量子位(QbitAI)公众号会话界面回复“今天”,看我们全网搜罗的AI新鲜资讯。比心~

△ 扫码强行关注『量子位』

追踪人工智能领域最劲内容

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部