数据革命进行时 数据堂的掘金时代——访数据堂创始人齐红威

数据革命进行时 数据堂的掘金时代——访数据堂创始人齐红威
2016年12月14日 14:03 创天下

引言:今时今日,大数据的能力范畴已远远超乎我们的想象。但整个行业却并非人们想象的那样人潮拥挤。事实上,它仍是一条荒芜之地,需要更多守规矩的从业者奋力开采。

45亿年前的宇宙大爆炸使得地球旋转起来,撞出去的物质和小行星形成了月亮,撞击留下的大坑形成了海洋。和宇宙相比,人类历史只不过是沧海一粟,元素在微秒间形成,动物开始直立行走,认知革命带来了语言和宗教。历经了农业革命,人类盖起了金字塔。直到科学革命后,工业的巨轮推动智人这种动物走向更加遥不可及、无法想象的未来。某一天,科学家也许不仅能够改造身体,也能改造心灵。

在这个又嘈杂又拥挤的地球上,譬如石油、煤矿等天然能源正在不断被挖掘和利用。互联网让今天与昨天划出一道分割线,它看不到、也摸不着,却弥漫在当前社会生活的每个场景下。而由互联网所产生而出的大数据资源,正在潜移默化地改变信息社会的进程,它将在不久之后开启下一轮革命。

大数据正在崛起……

人类世界的下一个资源宝藏

大数据时代正以不可逆转之势将数据与社会发展紧密相联,十八届五中全会明确提出实施国家大数据战略,国务院也出台《促进大数据发展行动纲要》,旨在推进大数据发展,加快建设数据强国的目标。大数据已成为国家基本国策,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生,以及推动政府治理能力现代化的内在需要和必然选择。市场热度不断攀升,政策的催化为大数据产业再添一把火,也藉此激发大数据产业的巨大潜力,释放市场主体的创新活力,为“中国制造2025”、“互联网+”再添动力。

数据堂成立于2011年,创始人齐红威博士毕业于中科院自动化所。毕业后他曾任NEC中国研究院研发部部长、高级研究员。在NEC研究院7年的工作中,他帮助多家汽车厂商、金融机构等企业进行数据分析。2008年,丰田出现“刹车门”事件,为了更深入地了解用户对车辆部件的评价以提成自身口碑,丰田汽车委托NEC研究院进行数据的调研和分析。在此过程中,齐红威发现了数据应用过程中的一大痛点--没有数据。“当时我们与汽车之家、门户网站的汽车频道、4S店进行合作,获取用户在网上发表的评论和车辆维修记录等数据,为了拿到数据花费了很多时间和成本。我们当时的痛点就是找不到数据。”齐红威将这一过程形容为做面包的过程找不到面粉。创业后,有两条道路供他选择:一条是继续走老路做数据挖掘和应用定制解决方案,另一条是做数据本身,整合原始数据,经过清洗、加工后制作成标准数据。“这就像我们通过不同渠道拿到小麦、玉米、高粱,再将它们做成面粉后出售。”

五年来,数据堂秉承“专注数据 共享价值”的企业理念,依托自身的数据资源、技术研发优势及丰富的市场运营经验,打通了数据获取、数据处理、数据服务环节,融合和盘活各类数据资源,推动相关技术、应用和产业的创新,实现数据价值最大化。目前数据堂在国内拥有4家全资子公司和1家控股子公司,并在硅谷下设美国子公司。2014年底,数据堂挂牌新三板,成为中国大数据第一股。

在齐红威看来,大数据并非仅仅是一个行业,它更是一种可无限再生并循环利用的资源。“就像石油、煤炭一样,大数据也是一种资源,而且是可以无限再生的资源宝库。”可以预见,大数据已发展为一个融合性的产业,它将成为各行各业的粘结剂和后备军。它与诸多领域息息相关,企业一方面需要借助大数据提升自身的竞争力,另一方面要积极寻找新的机会,参与大数据建设。这一方宝藏,将随着挖掘力度的加大,展现出更大的价值,显示更强大的力量。

支撑行业成长的数据资源运营商

至今为止,数据堂已开展了三大核心业务,数据定制、数据线上平台和数据云服务。齐红威介绍,数据定制板块推出了基于数据堂众包模式的数据采集平台――众客堂,通过50万全球实名注册用户高效采集和处理各类线下数据,用户只需要下载App或者登录平台执行图片、语音、视频或文本等数据采集或标注任务即可领取报酬。数据云服务则深度整合各类数据资源,全面挖掘数据价值,为各行业客户产品和服务提供数据增值在线支撑平台。

数据堂线上平台datatang.com实现大数据资源的在线共享与交易,极大的增强数据变现的空间,提高了数据价值的流通。这里汇聚来自行业合作、数据众包采集、政府合作和网络爬取等方式获取的涵盖科技、信用、交通、医疗、天气、地理等十几大领域的近45000套共2000TB海量数据,通过彼此关联融合为立体维度数据库,以数据库和API接口的服务形式满足近千家数据应用商数据需求。

三大业务板块构成了数据堂的闭环,不断推进着企业向前发展。齐红威表示,随着大数据价值逐渐凸显,应用不断落地,越来越多拥有数据源的企业与数据堂合作。目前,数据堂的数据涵盖科技、信用、交通和医疗等数十大领域,主要用于金融征信、精准营销和智慧交通等。

作为大数据领域的领军企业,数据堂已整合约45000套数据,数据总规模超过2PB。跨业整合、异业应用,是数据堂行业大数据产品一大特色。“跨业整合就是将多个行业的数据整合在一起,并找出之间的关联,形成数据产品。以征信领域为例,仅靠基本身份信息无法评估信用,需要把在线交易等多种数据整合起来,才能评估个人信用。异业应用就是将一个行业的数据应用到另一个行业。比如,数据堂的高速公路数据可运用在保险、旅游等行业。”

互联网数据的规模是巨大的,但齐红威认为,这其中存在着大量无用信息,要想得到有价值的数据分析结果,单靠线上数据难以完成。而线下数据收集困难,需要花费大量的人工、时间和资本才能完成一定量的积累,数据形成规模才能真正产生价值。这也在行业发展中形成了较高的门槛。

数据堂的线下数据主要体现在人工智能数据和行业数据。人工智能数据包括图像数据、语音数据和文本数据,这些数据量大,且在互联网上难以大规模获取。数据堂通过众包的方式,五年来共累计获得50万全球众客(信息采集员),从线下快速获取语音、图像、文本等数据。通过筛选、去重、脱敏等技术手段处理,将数据标准化,以数据包的形式出售给客户。“我们在AI领域的数据可以应用到无人驾驶、人脸识别、智能家居、人机交互、安防监控、智能电商等领域。”

成为数据海域的“中石化”

“其实我们正在做的与中石化类似。在石油领域,中石化这样的企业要先获取原油,之后对原油进行技术提炼并加工成各种标准用油,在这之后它帮助铁路、私家车、航空各产业的发展,支撑了一整个生态的形成。数据也是一样的道理,我们的核心理念与其相同。”

数据堂通过各种渠道获取大数据资源,通过筛选、去重、脱敏等技术手段处理,将数据标准化形成各种数据产品。这类似石化企业获取原油后进行提炼生产各种产品。形成数据产品后,再给客户提供安全、方便、快捷的API接口服务。数据可以无限复制,而石油不可再生,这就是数据运营的魅力所在。

通过数据繁荣生态,让交通、医疗、人工智能、营销等领域享受到数据带来的成本降低、效率提高正是数据堂昨天、今天和未来都为之努力的方向。

根据2016年半年报显示,数据堂上半年营业收入同比增长51.77%,呈现了较好的增长态势,除了源于大数据产业环境变化外,更源自于企业自身的蓬勃发展。在还未大规模爆发前,齐红威就已确定了行业脉搏:“我们具备了先发优势,之所以选择这个行业与我们早年间的从业背景有关。在数据堂之前,我们的创始人团队已经拥有10余年的经验和积累,对整个大数据产业有着很深刻的认识。”

数据堂创始人大多是技术出身,齐红威坦言,自己与数据堂一起成长,最大的转变就是将技术思维变成商业思维。“以前认为技术做好就可以,但现在看来技术只是敲门砖。产品能否满足大批客户的需求才是关键。要在正确的时间,用正确的方法满足最大的需求。”

市场节奏越走越快,创业环境也可变得更好,更多雄厚的资本源源不断注入大数据的市场。但每一个产业在快速发展的过程中都会遇到各式各样的问题。在齐红威看来,市场的混乱无序是首要问题。“行业内企业良莠不齐,有各种声音出现,各家有各家的方法。有点像去年P2P金融,一些企业的做法导致了整个行业蒙灰。”大数据行业“看上去很美”,但内里仍在不断摸索探寻着一条适合行业发展的道路。宝藏亦美,但怎样合理挖掘,谁来定价仍旧是亟待解决的问题。

“大数据是个资源性产业,大家不能对它太急功近利,它是一个慢工出细活的行业。”从市场需求来讲,帮助企业提升效率、降低成本是大数据的优势。但对于to B企业而言,大数据所带来的并非是立竿见影的改变,无法产生翻天覆地的变化,在这个过程中需要更多的人对大数据有一定的认知和了解。这样的特性,更需要大数据从业者不断的努力,也需要时间让企业逐渐接受。

线上、线下庞大的数据规模,前瞻性瞄准产业需求,以及对人工智能等领域的预判使得数据堂具有掌控机会的能力。齐红威认为,未来大数据行业聚集效应会越来越强,发展路径类似电商行业。电商做的是平台,本身并没有产品。在大数据领域,拥有数据源的一方,通常数据种类单一,需要与更多领域结合才能发挥更大价值。数据获取是一方面,但更关键是如何整合,将数据源打通才能形成价值。

数据将为未来智能世界的到来提供强有力的保障,它与创新发展及商业变革有着密不可分的关系。所有企业的进程中都将以数据作为支撑。即便是现在,一些电商已经通过分析消费者在自有和其他网站内的消费数据了解到用户的喜好,并通过大数据分析为用户推送精准的产品广告。搜索引擎也早已可以利用历史搜索记录预测用户想要打开的网站。大数据已经为政治、经济以及传统事业带来了积极的影响。

今时今日,大数据的能力范畴已远远超乎我们的想象。但整个行业却并非人们想象的那样人潮拥挤。事实上,它仍是一条荒芜之地,需要更多守规矩的从业者奋力开采。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部