具身数据通用性不足,过渡依赖AI标注或降低数据质量

具身数据通用性不足,过渡依赖AI标注或降低数据质量
2025年03月27日 13:07 第一财经网

赵剑强调,AI标注的局限性不容忽视。“在AI本身都不那么成熟的情况下,AI自动标注怎么能做到那么成熟呢?”

在AI淘金热中,有一些人手持铁锹和镐,不断“开垦”更多数据,为AI企业提供资源。

3月27日,在博鳌亚洲论坛2025年年会期间,杭州曼孚科技有限公司CEO赵剑接受第一财经记者专访时表示,随着人工智能的发展,不同类型的企业对于数据的需求不同,数据的应用场景也在不断拓展,数据行业正在经历新的变化。

数据是驱动AI产业链的燃料。当信息智能向空间智能、具身智能发展时,企业对数据的定义和需要也会改变。赵剑透露,曼孚科技正将重心转向大模型多模态数据标注。赵剑解释,随着大语言模型(LLM)向多模态演进,文本、图像、语音、视频等数据的融合标注需求激增。“未来的AI需要理解真实世界,而多模态是必经之路。”

当被问及多模态数据标注的成本挑战时,赵剑坦言,由于处理维度的上升,数据成本也会随之变高。以自动驾驶为例,一辆智驾汽车的传感器能够包括激光雷达、摄像头、毫米波雷达等多源信息,收集、清洗、标注这些数据是一笔不小的工作量。

在复杂的数据处理场景,利用AI和自动化流程提升数据处理效率,是赵剑认为的解决方案。在标注层面,AI辅助技术可以识别图像中的车辆、行人,并预标注关键点,在自动化流程中,重新建立一套工业化标准进行流水线的数据清洗、标注。赵剑强调,AI标注的局限性不容忽视。“在AI本身都不那么成熟的情况下,AI自动标注怎么能做到那么成熟呢?”

从曼孚的客户结构来看,自动驾驶领域的企业仍然是公司主要的客户来源。赵剑解释,这是因为自动驾驶商业化的成熟度更高。“车企愿意为数据付费,且需求明确,行业已形成从数据采集到模型落地的闭环。”

相较之下,服务机器人、人形机器人等领域的客户相对较少。“机器人是软硬件协同的智能体,公司对自身硬件所适配的数据是否了解,对业务场景是否有明确的定义,这些都会影响他们所要求的数据质量和数据规模。”赵剑说,在机器人行业,数据的通用性很低。如果在公司尚未摸清自身需求的情况下进行数据购买,效率不会高。

对于自动驾驶的技术路线,赵剑指出,从技术发展路径来看,强化学习与端到端模型的探索正在加速。“不过,自动驾驶算法的‘黑箱’特性带来法律风险,事故责任界定仍是难题。这需要技术、法规甚至伦理层面的共同突破。”

全球范围内,科技巨头们围绕人工智能领域的布局持续升温,微软、Meta、OpenAI等科技公司均透露过有建设AI数据中心的想法。微软在2025年开年宣布,在2025财年豪掷800亿美元用于建设AI数据中心。微软官方透露,800亿美元将着重用于开发能够训练人工智能模型、基于云的应用程序的数据中心等。Meta公司CEO扎克伯格也曾透露,2025年计划投资650亿美元用于扩展人工智能基础设施。在1月“星际之门”计划宣布后,OpenAI也宣布将立即投入1000亿美元,以在美国建设数据中心。

面对科技巨头们在 AI 数据中心建设上的巨额投入,赵剑表示,相比单纯的数据中心建设,数据处理、筛选以及管理更为重要。“其实从行业角度看,大家在数据处理等环节实际投入的资源不足。”他表示,当前行业仍处在发展早期,在数据标注在处理效率和速度方面未达到理想状态,未来仍有很大提升空间。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部