作者 |耿宸斐
编辑 |宋婉心
“数据标注”是伴随AI进程诞生的重要的产业链一环。尤其在大模型问世后,数据标注行业规模极速扩张,但随着大模型迭代,作为劳动密集型行业,数据标注又不断被市场重估。
美股市场的头部数据标注公司Innodata是这一过程的一个典型缩影。
近一年以来,Innodata股价涨幅高达432%。最新财报显示,2024全年Innodata营收同比大涨96.44%,且8家大客户中,有5家来自美股七巨头。
不过稳健的基本面挡不住市场预期的调整。DeepSeek发布后,市场对用于训练的公开数据的需求开始产生怀疑,Innodata股价因此产生波动,尤其在三月,公司股价下跌了超30%。
对于这家公司,目前市场声音分歧较大。
看空者认为在过去十年中,Innodata仅盈利了两次,因此股价飙升是没有道理的,而看多者则认为,因为大模型现在的情况已经不同,Innodata已将业务模式转向了大模型的数据清理。
01 价值重估
数据标注行业的第一次高光时刻,是来自自动驾驶的发展。在大模型出现之前,德勤报告显示,2022年自动驾驶领域的标注需求占整个AI下游应用的38%。
而大模型对数据标注的需求提升到了另一个量级。
“如果不是大模型出现,就算是干成自动驾驶行业数据标注龙头的Scale AI,在2023年之前,其年收入也就1亿至2亿美金。而到了2024年,Scale AI全年的ARR预计在12-14亿美金,比2022年翻了7倍左右。”有投资者表示。
大模型行业的Scaling Law理论认为,模型性能与模型参数量、训练数据量和计算资源相关。以GPT-4为例,其参数量从GPT-3的约1750亿提升至约1.8万亿,而训练数据集的规模也从GPT-3的几千亿Token扩大到13万亿Token。
业务集中在数据工程领域的Innodata,吃到了大模型卖铲人的大量红利。
最新财报显示,Innodata的最大客户授予该公司价值约2400万美元的额外合同,使来自该客户的总年化运营收入达到约1.35亿美元。
除了该最大客户之外,来自Innodata的另外七家大型科技公司客户的收入,在第四季度环比增长了159%。
从近期业绩看,Innodata的收入增长明显加速。2024年一至四季度,该公司营收的同比增速分别为40.7%、65.6%、135.6%和126.6%。而且Innodata预计,2025年公司收入增长将超过40%。
不过,如今大模型行业扩张期过去之后,数据标注行业的矛盾已经开始浮现——即将耗尽的数据难以支撑模型迭代与与大模型落地等所带来的训练需求。
Epoch AI的研究估计,自2020年以来,用于训练大语言模型的数据增长了100倍,且AI训练数据集的规模每年翻倍。然而,互联网可用内容每年的增长却不足10%。到2028年,AI训练数据很可能耗尽。
事实上,数据不足所造成的发展瓶颈已经是行业中的普遍现象。去年11月,The Information爆料称,OpenAI下一代旗舰模型Orion改进大幅放缓,一个主要原因正是高质量训练数据的短缺。
行业共识是,目前通用数据的供给已接近饱和,垂类数据将是未来AI模型差异化的关键。
02 DeepSeek淘汰数据标注?
作为美股市场上仅有的AI数据标注标的,Innodata的“AI含量”至今仍饱受质疑。
早在2019年,Innodata就宣称自己开始实施人工智能和机器学习流程,并将自己划为一家人工智能公司。但去年2月, Wolfpack Research发布的一份报告称,Innodata是在拿AI炒作股价,其核心业务仍是依靠海外廉价劳动力进行基础数据标注,而非自主研发的AI技术。
报告引用前员工说法,称公司为硅谷客户提供的服务本质是“键盘劳动”。
“Innodata的商业模式上就是基于人力外包的数据标注,赚一份血汗钱。和同业的差异只是他们干得最久,做得最大。”有投资者评价,“技术只能让数据标注更快,要让数据标注更好,现在只能靠人。”
据智研咨询报告,尽管已经有数据标注公司开发了相应的半自动化工具,但从标注比例来看,机器标注和人工标注的比例约为3:7。
Innodata的财报数据也侧面印证了这一现实。仅在2024年第二季度,Innodata就花费了360万美元的招聘代理费,这表明公司仍旧非常依赖人力。
业内人士告诉36氪,这主要是由于数据标注的复杂性和多样性,以及不同领域的数据标注要求不同。此外,自动化标注技术在现阶段还存在一定的局限性,如对某些类型的数据的识别准确率不高、对复杂场景的处理能力有限等。
但DeepSeek一定程度上改写了数据需求的逻辑。
技术层面来看,简单而言,DeepSeek采用的强化学习(RL)技术,让大模型不再需要被不断喂养模型外的新数据,只用模型内已存在的数据即可进行自我训练。
这一方面降低了大模型厂商对数据量的需求,另一方面,全联并购工会信用管理委员会专家安光勇认为,企业出于开源节流的考虑,有可能会倾向于低成本合成数据。这也会在一定程度上冲击Innodata等数据标注企业。
关于DeepSeek冲击的质疑,财报电话会上,Innodata管理层表示,他们相信,预训练数据和微调数据对AGI发展而言是无法替代的。
在他们看来,DeepSeek依赖以现有模型数据训练新模型,会极大地压缩数据,最终导致模型崩溃。
从市场质疑声音来看,Innodata可持续增长的不确定性来源于两点,一是数据标注需求是否持续增长,二是标注工作是否持续低自动化。
针对前者,科技部国家科技专家周迪告诉36氪,合成数据的适用边界在于它更适合于生成新的、用于训练模型的数据,而人工标注则更适合对已有数据进行深入的理解和解读。
尽管合成数据可以提供更加一致和可控的数据,但在情感分析和文本生成等需要深度语义理解的领域,人工标注数据仍具有不可替代性。
另有投资者分析指出,随着DeepSeek带来的模型部署和运行的成本大幅降低,会有越来越多应用层的公司部署自己的大模型,这也会带来额外的数据标注的需求。所以DeepSeek的出现对Innodata至少不会是一个利空。
但针对后者,这一问题沦为了“鸡生蛋还是蛋生鸡”的悖论。当市场投资者们质疑Innodata“AI含量”低时,一个可能性很大的未来是,数据标注工作的AI化会首先革掉数据标注公司自己的命。
关注获取更多资讯


APP专享直播
热门推荐
明查|法国已决定要没收俄罗斯资产并将其用于乌克兰重建? 收起明查|法国已决定要没收俄罗斯资产并将其用于乌克兰重建?
- 2025年04月03日
- 23:35
- APP专享
- 扒圈小记
25,120
弹劾案通过,韩国总统尹锡悦被罢免!他是第二位被弹劾下台的韩国总统
- 2025年04月04日
- 03:47
- APP专享
- 扒圈小记
2,888
四维图新:公司没有为小米提供智驾方案
- 2025年04月03日
- 09:58
- APP专享
- 北京时间
1,386

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 02:45:11
2024年华为车BU首度实现盈利后,近日,原华为常务董事、终端BG董事长、车BU董事长正式卸任华为车BU董事长职务。记者查询获悉,目前,华为官网对余承东的介绍信息、余承东微博和抖音的认证信息已变更为“华为常务董事、终端BG董事长”,原先的“智能汽车解决方案BU董事长”身份认证已取消。 -
趋势领涨今天 00:15:55
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 00:15:28
二、沪深交易所明确高频交易标准 对高频交易作出差异化监管安排一是明确高频交易标准。将投资者交易行为存在单个账户每秒申报、撤单的最高笔数达到300笔以上或者单日申报、撤单的最高笔数达到20000笔以上情形的,认定为高频交易。二是对高频交易作出差异化监管安排,包括额外报告要求、从严管理异常交易行为、实行差异化收费标准等。上面终于对量化再次动手了,现在大盘量能萎缩到万亿左右,量化资金每天有3000-5000亿的活跃资金,基本上可以主导市场,所以,大家经常可以看见盘中个股出现急速拉升,随后快速下跌,随后就没有随后了,这种情况就造成了游资不敢玩,散户追涨就会被套,最终大家都不玩了,所以,大盘量能出现了大幅萎缩。量化将相当于某些人的一条狗,每次只要市场活跃了,狗就被放出来,大家还能相信吗?另外,该政策要到7月7日执行,还有3个月的阵痛期,大家慢慢熬吧,坚持就是胜利!昨天大盘再次在60日线附近止跌,说明这附近支撑很强,现在一是要关注节日期间的消息面,看能否推出重要消息对冲,比如央行降息降准等;二是关注大盘反弹的量能,节后只要能够放量,3317点附近的低点就会再次得到确认。 -
趋势领涨今天 00:15:21
老美的靴子终于落地了,但确实远远超出了市场预期,所以全球股市大跌,连避险的石油、贵金属等都出现了暴.跌,这个影响确实很大,但A股和港股走势还是比较强势,A股盘中还出现了翻红,主要是市场前期已经有了预期,毕竟七年了,咱们见怪不怪了,后期该怎么走,就要看消息面了。一、美股暴.跌、白银、原油大跌美股三大指数均大幅收跌,纳指跌5.97%,创2020年3月以来的最大单日跌幅;标普500指数跌4.84%,道指跌3.98%,均为2020年6月以来的最大单日跌幅。费城半导体指数大跌9.88%,创2020年3月以来最大单日跌幅。苹果跌超9%,亚马逊、Meta跌逾8%,英伟达跌超7%,特斯拉跌超5%。国际原油期货结算价大幅收跌超6%;现货钯金日内大跌6%;COMEX黄金期货6月合约跌1.07%;COMEX白银期货跌7.92%。欧洲主要股指均大幅收跌,德国DAX30指数跌3%,英国富时100指数跌1.59%,法国CAC40指数跌3.31%。老美杀敌800,自损1000,不光带下来全球股市,重点是自己跌得更厉害了,老美说了,只要不反制,这个就是最高的,但怎么可能不反制呢?所以,这事没有完,对全球股市的影响也没有完,后期还是要关注消息面吧。对我们来说,重点要开始转移到有避险的品种,比如农业、大消费,医药、房地产等板块,尽量回避主要依托美国业务的公司。 -
趋势领涨今天 00:15:16
大家早上好!趋势为王,做股海的领航者,新的一天,新的战斗,欢迎你来到本直播室!新进的朋友请注意点赞,收藏本直播室,以方便你下次观看,谢谢大家的支持!【更多独家重磅股市观点请点击】 -
趋势领涨2025-04-03 10:34:19
又在打击量化了!以前每秒300笔,只是挂单,现在撤单也算了!将投资者交易行为存在单个账户每秒申报、撤单的最高笔数达到300笔以上或者单日申报、撤单的最高笔数达到20000笔以上情形的,认定为高频交易。 -
数字江恩2025-04-03 10:01:03
简单来说,下周一第一小时只要没有跳空低开低走,大盘都将快速突破本周高点。 -
数字江恩2025-04-03 10:00:57
5分钟图来看,3439的回踩已经到了末端,哪怕是大的利空消息都未能再讲指数打下去。下周一早盘只要没有向下跳空低开低走,那么都将快速突破图上的蓝色轮峰线,确认3439回踩第二浪结束。但只是下周时间之内,拉起后前红色轮谷线暂时还压力。【更多独家重磅股市观点请点击】 -
数字江恩2025-04-03 10:00:38
15分钟图来看,3140之后,老师便预测了abc + 12345的上涨结构。目前abc全貌已经看到了,但市场对后面的12345的看法还有分歧。从结构来看,2的运行已经到了末端,下周便应该拉起确立第3轮。所以下周只要力度拉起来,便可以确立12345的结构预测无误。【更多独家重磅股市观点请点击】 -
数字江恩2025-04-03 10:00:25
大盘本周只有4个交易日,都维持在低成交量群中窄幅震荡,震荡空间仅仅40个点。本周在强烈场外利空消息影响下,保持了坚强,周线依旧收盘在10周线附近,这条均线也是下周的重要支撑,不可以有效跌破。板块上,本周没有持续性热点,基本属于大风车轮流来的行情,相对来说,防御性板块稍好一点。