智驾数据,制造了一场百亿美金梦 | 数智前瞻

智驾数据,制造了一场百亿美金梦 | 数智前瞻
2023年01月31日 21:30 36氪
梦想还是要有的,万一实现了呢?

文|潘程

编辑|石亚琼

来源|数字时氪(ID:digital36Kr

封面来源视觉中国

临近2022年底,一家自动驾驶数据标注公司的会议室人头攒动,CEO正向几位来访的投资人透露公司的业绩:过去一年里拿到主机厂订单额超5000万人民币,比2021年翻了一倍不止。

澳鹏中国预计2022年收入增速达100%左右,其中自动驾驶相关的份额占60-70%以上,增长率200%左右。

36氪从业内获悉,国内多家主机厂将2023年数据标注的投入预算从百万级别直接飙升到了数千万级别。

自动驾驶热潮下,“数据”是传统车企自动驾驶业务急于补足的短板,“数据标注”率先成为了这场补短运动的隐形赢家。

这让不少国内投资人嗅到机会、纷纷入局。

2022年,国内有星尘数据、曼孚科技、恺望数据、博登智能、倍赛科技等近十家机构对外发布最新融资消息。据知情人士透露,数据标注行业某成熟公司也在积极寻找优质标的,试图通过并购深入自动驾驶数据标注领域。

一度,数据标注被认为是劳动密集型产业,被资本质疑其业务上限。大洋彼岸,Scale AI已经成为硅谷知名独角兽,估值73亿美金。2021年,在美国自动驾驶公司普遍缺乏极端数据,且常规数据的标注增量接近瓶颈的情况下,Scale AI选择收购SiaSearch,向数据引擎Date Engine更大的生意迈进。

从AI辅助标注+大规模雇佣廉价人力,到拓展自动驾驶之外的国防安全等领域,再到拓展数据标注之外的数据业务……Scale AI的“三级跳”让国内不少创业者重拾信心,看到了一个更大的资本市场故事。

借助自动驾驶的产业红利,他们能走出一个对标Scale AI的百亿美金梦么?

两倍速增长

2022,自动驾驶成为国内数据标注公司眼里的热门业务场景。不同传感器、不同车型、不同极端情况的需求源源不断地从主机厂涌出来。

业务上最直观的好处,是业绩的两倍速增长。

据不完全统计,国内几家相对成熟的厂商2022年纷纷实现了自动驾驶数据标注业务200%以上的增速,且汽车业务占比逐年上升;有新入局的厂商还未完成产能爬坡期,就已接到百万订单。

两倍速增长背后,是多重因素叠加作用的结果。

首先,国内自动驾驶场景的复杂度超越欧美,需要标注的数据量几倍于海外。当倍赛科技的商务&生态合伙人童玲与业务交流时发现,“在一些国外订单中,我们只需要将人和障碍物简单标出来,实现常规的物体识别即可。但在国内,路上能看到的虚实线、马路墩以及所有细节都需要去做标注。”

其次,每家主机厂都各自拥有一套标注标准,不少数据正在被“重复”标注。行业甚至有人开玩笑说,“即使所有厂商都拥有相同的数据,数据标注公司依然会忙得不亦乐乎,因为有多少家公司,就有多少遍‘重复’标注。”

此外,随着自动驾驶在L2+的应用场景不断丰富,城市快速路、停泊一体、行泊一体的自动驾驶方案轮番上阵,数据标注的需求量不断攀升。

未来,这种高速增长的局面仍可能持续一段时间。

据龙猫数据CEO昝智预测,“这个机会窗口至少得持续5~10年,预计2030年才能完全释放出来。”

今年,国内新车型发布即将迎来井喷。据中国电动汽车百人会的不完全统计,2023年国内将至少有100款新车型密集发布。这背后,不同车型装载着不同的传感器,传感器的参数配置、采集到的数据成像质量,以及交互方式都存在差异。几乎每一款车型的数据都需要重新标注。

而回归到自动驾驶技术迭代的层面,整数智能创始人兼CEO林群书意识到,“以深度学习驱动的自动驾驶感知系统,感知的能力来自于对海量结构化数据的学习,来自corner case场景的数据也尤为重要,因此数据标注的精度和效率,会深刻影响自动驾驶技术的迭代。”

自动驾驶数据标注短期内高速增长,中长期内长尾需求持续出现,几乎成了行业内的共识。

两拨人同台竞技

所有入局者,都想抓住这一波自动驾驶的数据红利。但做“数据标注生意”和做“汽车数据生意”的两拨人同台竞技,此时还难分伯仲。

做“数据标注生意”的玩家,以百度、澳鹏中国、海天瑞声、数据堂、龙猫数据为代表。它们几乎乘着互联网和AI技术的风口起飞,拥有成熟的研发和管理体系、自研的标注工具、稳定的众包合作模式。经历了三至五年以上的市场积累,它们的客户广泛覆盖互联网大厂和AI+各垂直行业。

而做“汽车数据生意”的后来者,则以恺望数据、博登智能、卓印智能为典型。它们在近两年成立,试图抓住新能源汽车崛起的窗口期,切分该垂直行业的数据市场。这些创业公司的团队大多拥有智能汽车相关的专业背景,试图通过数据闭环工具链、一站式数据解决方案来获得自动驾驶公司、主机厂的订单。

这便首先演化成了一场“成熟”与“新锐”之间的对抗。

前者首先受益。这些公司所具备的“成熟”优势,意味着在产能、标注质量和价格方面具有稳定性。以澳鹏中国为例,其官网明确公布了不同自动驾驶数据标注项目的“未来周交付产能”,2D图像-视觉障碍物周交付20万+帧,点云-联合标注周交付10万+帧,点云-分割周交付5万+帧……

除了产能稳定,昝智认为,“数据标注的质量是决定各家主机厂成败的关键,一旦质量不达标要推翻重来,现在所有主机厂都耗不起这个时间。”

后者则凭借对自动驾驶的专业理解,陆续被投资人和主机厂所接受。据了解,这群新创业者中不乏汽车行业Tier1企业核心算法高级工程师、全球即时用车软件高管、自动驾驶公司高管等人才。他们在汽车领域十余年的研发与运营经验,能够更快速地理解需求、迭代产品。

“但目前看来,我并不认为专注汽车行业的数据科技公司一定比传统数据标注公司更有优势。”一位算法工程师出身的投资人对比后发现,“起码在算法层面,新入局者没有大量自动驾驶数据标注经验的积累,优势并不够明显。”

未来数据标注的市场竞争,拼的不仅是谁开始领先,还有谁跑得更快。

恺望数据创始人兼CEO于旭观察到,“需求正在呈现指数级的增长,但需求方的预算却是线性增长的,如何最大程度的降本增效是所有数据科技公司要思考的问题。”

当数据标注的需求大规模来临时,所有玩家都明白靠收买五线小城的廉价劳动力肯定行不通。而后来者中,已经出现了利用AI辅助标注2D周交付产能达50万+帧,3D周交付产能达10.5万+帧的强势搅局者。

靠什么捕获未来

在服务行业的过程中,童玲感受到了创业公司与主机厂的合作可以上升到工具层面,“面对数据质量被多元化定义、数据漂移、模型调优等问题,主机厂十分需要有更领先的工具帮它们进行大规模、系统性的处理。”

升级工具,成了不少数据标注公司投入的重头。

“如今,数据标注的需求非常复杂,需要服务商不断优化工具,科学配置标注的方式。”昝智透露,“公司中大约有三分之一的员工投身于工具研发。”

而已完成B轮融资的倍赛科技,直接对外宣布资金将主要用于核心技术研发,为AI模型提供多模态数据标注和数据治理等工具,特别是针对自动驾驶和计算机视觉等场景,深度优化SaaS平台各环节功能和自动化水平;澳鹏中国则表示正在将AI植入到“数据获取、数据准备、模型训练和部署、人工模型评估”四大阶段,并与大学、科研机构长期合作进行技术储备。

在规模、质量与效率面前,即便是成熟的早期玩家,也正在将AI辅助标注的技术植入到现有工具中。它们清楚,只有技术升级才能不断消解掉对“人”的过度依赖,再叠加掌控众包资源的能力、项目的管理方法论、数据安全的保障体系……这将会是捕获更多主机厂订单的关键。

但主机厂对数据的需求远不止于“标注”这个简单阶段,新的生产方式、新的产品正在诞生。

“在整个自动驾驶的数据闭环中,数据标注是被割裂出来的一部分,如果我们通过技术和算法可以解决很多部分,就会有更多增值的空间。”于旭认为,原来的生产模式很可能会被打破,新的生产方式可能会迎来机会。

一位主机厂产投的资深顾问坦言,“我们觉得这些公司如果想要往更大的估值空间发展,它们必须和汽车整个产业链去做更多结合,数据标注、数据治理、数据闭环……也许是它们的方向。”

的确,数据标注的新创业公司将重心放在了更大的市场增量上。

博登智能正试图通过自研的“智能驾驶数据处理平台”,覆盖市场上95%以上传感器驱动的数据采集、存储,预处理,标注,模型训练/部署等整套数据处理流水线系统,形成数据闭环;恺望数据寄希望于发挥技术和运营两方面优势,对数据标注生产过程进行原子化拆解,实现数据标注全流程的整体增质与提效;整数智能则开发出了AIPower模块,在为客户提供AI预标注、AI审核等辅助功能的同时,沉淀自己的核心价值。

事实上,这个行业的新老面孔都还不具备驾驭更大市场的全部技能。

未来,只有同时拥有过亿级的数据处理经验积累,豪华的AI标注算法研发团队,对自动驾驶应用场景的专业理解,以及拥有主机厂渠道资源,才能捕获汽车行业的红利。

一路争议与跌宕

这个赛道的估值和融资并不容易。

第一个争议来自技术层面。都说AI标注的尽头是“自动标注”,但不少人认为“自动标注是个伪命题”。未来技术如果真的进化到自动标注阶段,是不是意味着数据不再需要被标注?

作为旗帜鲜明的技术派,博登智能CEO 赵捷表明,“我是自动标注的绝对支持者。”但他认为自动标注不是无人标注,就像拥有自动化生产线的工厂并不是无人工厂一样。

算法背景出身的林群书则直言,“就像我们不能抛开剂量去谈毒性一样,讨论这个问题首先得定义自动标注要达到什么程度。我们在实战中,会通过算法来完成大部分的标注工作,比如可以实现整体95%左右的标注精度,而从95%到99%的精度,我们会通过优选的人类标注员去完成这一步骤。”

自动标注,从技术上可以分成两个流派。

第一个流派是对真实世界中采集到的数据做自动化标注,如果对自动标注的准确率要求是达到99.9999%,“自动标注”技术显然永远做不到,但如果把准确率设定在95%,经过一定的研发努力和工程化实践,还是有希望实现的。

第二个流派则是通过建模的方式首先生成带有基准真相(ground truth) 的场景,再进行光线渲染得到与真实场景比较贴近的数据集,整个过程完全不需要数据标注的参与。但这条路径上,渲染能力的难度特别高,还很难在短时间内突破;此外,真实场景永远无法被技术穷尽,这就意味着那些没有被算出来的场景依然需要数据标注。

也就是说,用自动标注解放更多的“人”是未来趋势,但完全不需要“人”仍需漫长的期待。

另一个争议则来自资本层面。面对二次崛起的数据生意,即便有了“自动化”的加持,美元投资机构依然不太看好。红杉内部人士坦言,“这个在我们讨论下来就是个小市场,所以不会太关注。”

二级市场分析师们则对这批公司的估值感到迷茫。对标国内已经上市的海天瑞声,其PS( Price-to-Sales)近期维持在11.98 倍上下浮动,一级市场的这批公司未来稳差毛利究竟能剩多少谁都说不清。

目前,国内更多的投资金额来自人民币早期投资机构。而真正有需求的产投和主机厂,则更希望待项目成熟后“战略投资”、“据为己有”。

“我觉得大家应该借着这个势头,先绑定几家比较好的主机厂让自己活下来。”赵捷认为,“最多的数据量来自主机厂,这是毫无悬念的。”

但主机厂对于核心数据安全仍存在顾虑。据业内人士透露,主机厂在跟数据科技公司合作时,更多是把数据脱敏之后交给外部去做,外部公司很难在其中沉淀出额外价值,最有价值的那部分数据会被留存在主机厂的云系统中。

要想真正在与主机厂的合作中沉淀出长远价值,就需要数据科技公司有深入产业的能力。

上述业内人士认为,“比如在早期研发阶段或数据治理阶段,数据科技公司的解决方案团队应该尽可能与主机厂形成合力,将数据价值最大化。当双方在合作中有了很默契的配合并生成产品后,主机厂将慢慢变为投资人的角色,与数据科技公司达成更深入的合作。”

深度绑定主机厂的价值,不仅仅是帮助数据科技公司生成更接近需求的产品,谁也转移不走的核心能力将会被不断沉淀,这或许是帮助创业机构提升估值不太坏的选择了。

一群人的百亿美金梦

纵使数据标注经受了一路争议与跌宕,但这个行业的创业者,依然怀揣着百亿美金的梦想。

这种激励来自于ScaleAI 。

这家2016年创立的数据标注公司,乘着美国自动驾驶风口而起,客户包括Waymo、Toyota、英伟达等;随后其不断拓展标注领域,2020年拿下美国国防部9100万美元大单;紧接着通过并购向数据引擎Date Engine更大的生意迈进,估值达73亿美元。

对标ScaleAI于旭认为,“从上游主机厂,到 ADAS公司、自动驾驶公司、芯片公司,一直延伸到AI 公司,未来市场将广泛地对数据标注有需求。”

林群书预言,“至少在未来10年到20年,自动驾驶的蓬勃增长会让我们营收获得长期增长。”

昝智则掷下豪言,“我觉得百亿美金不是梦。”

他甚至详细地规划了实现梦想的“两步走策略”。在他看来,第一步是做到100亿人民币市值。对标上市公司海天瑞声26亿人民币市值,如果创业公司们能将自动驾驶赛道作为主要的收入来源,增长率一定会比海天瑞声高,再努力将营收做到做四-五亿人民币,实现第一步明显能算得过来。

第二步是做到100亿美元市值。创业公司们可以把 AI 的数据管理,数据模型的训练做起来,针对自动驾驶的数据处理打造完整的工具链,这将比单纯做数据标注的毛利高很多。有技术的加持,将会有利于提升公司的PS,也就有机会市值百亿美金了。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部