大模型时代急需“燃料库”,章丘海阳利津这些山东区县亮了

大模型时代急需“燃料库”,章丘海阳利津这些山东区县亮了
2025年01月16日 13:12 齐鲁晚报-齐鲁壹点

齐鲁晚报·齐鲁壹点记者 蔡宇丹

大模型时代的“智能新基建”开始了!哪些城市有机会?

1月13日,随着国家发改委、国家数据局等四部门联合发布《关于促进数据标注产业高质量发展的实施意见》,从国家层面首次对数据标注进行系统谋划,这个曾经的劳动密集型产业终于支楞起来。

在山东,随着百度、浪潮等头部企业建立数据标注基地,济南、利津、烟台等地的数据标注产业走出了不同的路子,章丘有了“百度在全国最大专业高精地图数据标注基地”这个新标签,海阳20亿建起“卫星数据工厂”,利津这样的县域城市也切入数字经济新赛道。

齐鲁人才网数据显示,山东16市对数据标注员均有需求,在这个驱动AI发展的“燃料厂”上班,薪资最高直逼万元。

1.国家吹哨,大模型时代“智能新基建”开始

1月13日,国家发改委、国家数据局等四部门联合发布《关于促进数据标注产业高质量发展的实施意见》,这是国家层面首次对数据标注这一新兴产业进行系统谋划。

所谓数据标注,就是给文本、语音、图片、视频等等各种各样的数据“打标签”。自动驾驶、低空经济、智能制造、智慧医疗等领域,都离不开数据标注。

这个驱动AI发展的“燃料工厂”,发展之初曾带着“扶贫助残”的印记。

2014年,贵州率先在全国发展大数据产业,2017年贵阳大数据产业及其关联产业规模总量超过1500亿元,当时的典型样本贵州百鸟河数字小镇就是通过发展“互联网+大数据应用”,助力脱贫攻坚的。

位于贵州黔南布依族苗族自治州的百鸟河镇与BAT、360等进行合作,百度在百鸟河建立大数据基地,以大数据清洗、加工、标注为主业,这个“数据工厂”直接带动1000人以上就业。台湾HTC董事长王雪红在这里也办了一家“数据工厂”,带动千余人就业。在这个“数据工厂”打工的,有职高学生、聋哑人、新生代农民工,其中近一半是附近职业学院的学生,经过几天培训就能上手。

2018年1月,京东金融发布国内首个聚焦人工智能领域的数据众包平台京东众智。这个智能数据采集标注处理平台对外宣传一大亮点就是“助残”。京东金融的科技助残就业基地同期落户山东淄博,经过一个月培训,残疾人士就能学会用模板做数据标注,一些专职的残疾人士平均月收入达到3800元至4500元。高峰期在这个平台从事数据标注工作的人有30000人。

这个时期,数据标注比较简单,比如普通图像的拉框、声音转录、文本简单标注等。数据标注员一张图接一张图地手动标记,对电脑接触较少的人经过几天培训后就能快速上手,许多数据标注公司聚集在三四线城市以降低人力成本。

2022年,“人工智能训练师”(AI训练师)被人社部认定为新职业。

根据此次四部委发布的《意见》,“到2027年,数据标注产业专业化、智能化及科技创新能力水平显著提升,产业规模大幅跃升,年均复合增长率超过20%”。这也意味着在专业化、智能化、科创能力加持下,数据标注这个行业在人工智能时代有了全新迭代。

2.齐鲁人才网:青岛济南济宁三市需求占到全省1/3

齐鲁人才网数据显示,近4年来,山东就业市场上数据标注岗位需求增幅2022年达到顶峰,为75.22%,2023年有所回落,2024年需求量增幅又冲高至66%。

这条曲线与大模型技术爆发的时间点相吻合,这意味着人工智能技术变革的浪潮正快速反映对提供人工智能发展“燃料”的数据标注员的大量需求上。

齐鲁人才网2024年招聘数据显示,山东16市对数据标注员均有需求,从全省看,青岛、济南、济宁需求量排前三,三市需求量分别占到全省12%、9.4%、8.9%,三市需求量总计占全省的1/3;在薪资水平上,3000元-5000元区间占比达到55%;学历以专科为主流。

2024 年,随着大模型不断扩大应用,各个行业都在AI+,出现了更多新的标注需求,从自动驾驶到文本大模型再到视频标注领域,各种新业务不断涌现。这也反映在下面这张热力图上。

2024年山东就业市场数据标注岗位需求热力图(数据来源:齐鲁人才网)

齐鲁人才网市场总监李召华告诉记者,从岗位需求看,近几年,山东就业市场上数据标注员岗位越来越细分,对专业要求越来越高。大模型数据涉及的知识面很广,评判标准复杂,非常考验标注师的语言理解能力和逻辑推理能力,相比传统数据标注员在人力结构上进行了升级。根据齐鲁人才网的招聘数据,2024年,山东就业市场上数据标注员的岗位薪资最高已到9000元,这对于计算机专业毕业生而言相当于中等薪资水平。

AI会“一本正经地胡说八道”,如今已成为大模型的一个痛点。要突破AI幻觉,离不开数据质量提升,而训练模型的语料一定程度上会影响 AIGC 应用、微调后模型等内容生成的合规、以及价值观。对于文心一言等生成式 AI,海量的数据训练、人工标注、指令微调,可以让大模型与人类价值观、思维方式不断对齐,对标注质量提出更高要求;与此同时,专业性较强的传统细分行业都在“AI+”,像图像的医疗影像识别及文本专业语句标注等就需要具备专业知识;同时,传统人工标注逐渐被自动化、智能化工具所取代,这都要求数据标注这个行业告别之前的野蛮生长。

一个标志性变化是,2023年8月,百度智能云在海口建立国内首个大模型数据标注基地,这个基地的标注师均为100%本科学历。

3.章丘戴上新标签

数据显示,11年来百度在自动驾驶和人工智能上的研发投入超过 1700 亿元,这1700亿不光烧在GPU上,也烧在数据标注这个“基石”上。

自动驾驶研发需要大量数据采集、标注、分析需求。百度Apollo自动驾驶系统需要依靠高精地图提供的精确道路信息、障碍物位置、交通信号等数据,提高车机对周围环境的感知和理解能力。

作为数据标注的需求大户,海口基地成立时,百度智能云已在全国与各地政府共建了十多个数据标注基地,累计为当地提供超过 1.1 万个就业岗位,间接带动 5 万人就业。

2018年,百度在山西太原建立在国内的第一家数据标注基地,截至2023年9月,百度山西基地已拥有5000余名数据标注师,吸引和培育数据标注企业超50家,累计产值超6亿元,这个基地具备无人驾驶、语音识别、图像识别、内容审核等场景的标注能力。

2021年6月,百度山东数据标注基地落地济南明水经济技术开发区。这是百度智能云在山东布局的首家数据标注基地,主要从事百度地图的地理标记。

公开报道显示,2022年4月,这个基地累计产值超过3700万元。

3年后过,百度山东数据标注基地已成为百度在全国最大的专业高精地图数据标注基地,是百度地图重要“数据库”供应地。高峰期,这个基地数据标注师曾达到1500余人。目前,这个基地已吸引和培育孵化数据标注企业22家,带动灵波微步、昆仑度智能科技等周边超30家相关标注企业集聚。

百度把山东数据标注基地放在章丘,章丘作为高职院校重要集聚区,为数据标注产业提供了大量人力资源。公开报道显示,这个基地培训的“AI训练师”90%以上为大专以上学历,80%以上为章丘本地人员,50%以上为章丘高校毕业生,部分人员工资月收入可达万元以上。

4.海阳20亿建“卫星数据工厂”

2024年10月,山东发文加快推进数据要素市场化配置改革,培育壮大数据清洗、标注等数据产业集群,2027年数据产业年均增速超过20%。

推动数据产业集群发展的核心动力来自于产业刚需。随着中国“星链”排队发射,组网卫星数量越来越多,产生的数据量越来越大,这也让烟台海阳在发展卫星发射产业时,不光要建设“火箭工厂”、“卫星工厂”,还要建“卫星数据工厂”,将产业链延伸至空天信息服务产业。

在山东海阳东方航天港卫星数据产业园,卫星数据智算中心目前已与百度智能云达成卫星数据运营合作。2023年,百度3.1亿元中标东方航天港数据智算中心项目,为当地航天产业提供120P算力支持,用于配套院士大模型训练,系统开发以及落地企业的火箭和卫星模型轨道计算和卫星数据存储需求。

作为烟台新质生产力的典型代表,东方航天港卫星数据产业园总投资20亿元,主要建设卫星数据智算中心、数据标注中心、数据安全灾备中心、数据交易和科技成果交易中心、企业科研中心、智能卫星工厂,打造集卫星总装、载荷实验、卫星数据接收、存储、超算、应用、交易、灾备于一体的卫星全产业链垂直产业生态,目前已有5个院士团队领衔重点项目和10家企业入驻。

2024年8月27日,在山东省政府新闻办举行的新闻发布会上,烟台市大数据局透露,数据标注产业园2023年实现产值2.5亿元。这个数字意味着烟台打出了一张富有产业特色的数字经济新名片。

5.利津发展数字经济的切口

在这波大模型时代的“智能新基建”浪潮中,县域城市有没有机会?

2024年10月22日,浪潮(东营)AI 数据标注基地在利津数据(内容)产业园揭牌,这是浪潮卓数在全国布局的的首个数据标注基地落地。

记者注意到,这个数据标注基地一项重要内容就是大学生实训。浪潮卓数依托在数据采集、数据标注、数据交易、数据服务等领域的技术积累,将其转化为产教融合产品,联合东营职业学院等当地职业院校建立标注实训中心,解决职校学生学业与就业衔接问题,也为基地发展提供人才保障。

作为山东大数据产业龙头企业,1998年,浪潮集团创建了浪潮数字服务这一产业板块。2022年5月,浪潮子公司中网盾数字服务入驻青岛数字贸易港,打造数据标注产业基地。公开报道显示,2023年9月,这个数据标注基地经过一年发展已拥有1000名数据标注师,基地累计产值超1亿元。

作为县域发展数字经济的抓手,公开报道显示,利津数据(内容)产业园从2022年6月投入运营到2024年10月浪潮入驻,年产值已突破10亿元,园区目前已吸引了浪潮卓数、韩国集美、三象互动、万诚数据等数据企业入驻。根据利津最 新招商信息显示,这个园区年营收将稳定在40亿元左右,园区为当地带来税收预计可达 3500 万元。

对于三四线以及县域城市来说,从数据标注等数据外包服务切入大数据产业赛道,不失为一个实操性选择。

日照东港区目前已建成日照数字服务外包基地(大学城分园)、金杉大厦、浪潮(日照)数字服务外包基地等6个数字服务外包园区,20多家数字服务外包企业落户东港区,带动就业10000余人,为京东、阿里巴巴、顺丰、百度等企业提供服务外包,初步形成以客服呼叫、数据标注为主要业态的产业集群。

在数据标注这个细分赛道上,2013年,日照通过招商引资将北京电商联盟网络科技有限公司招引来日照,北京电商联盟网络科技有限公司是百度、京东、淘宝、抖音等互联网公司的供应商,落地日照后不仅孵化了日照首个电子商务产业园,还联手国企打造了日照人工智能数据服务基地和日照数字服务外包基地大学城分园。

据悉,日照数字服务外包基地大学城分园自2023年9月开园以来,业务规模迅速扩大,从单纯图文数据标注向人工智能、网络平台、影视动画等行业领域扩展,先后招引青岛海尔、北京恺望数据等数十家企业或项目入驻。

国家超算济南中心位于齐鲁科创大走廊核心地带,围绕这个重量级算力资源,济南布局了济南智能传感器产业园、济南生物医药港两大园区,目前这个创新圈已初步形成功率半导体(智能传感器)、信创网安、人工智能、生物制药、医疗器械、基因检测、医美抗衰七大产业链条,吸引了一大批大数据应用服务企业在周边聚集。

2024年11月,中达安子公司山东中达安智算数据科技有限公司在国家超算济南中心园区(山东超算科技园)设立数据标注基地。从产业端来看,数据标注是发展数据要素产业的关键,而下游AI和上游的算力会因为这一产业发展而得到带动。

新闻线索报料通道:应用市场下载“齐鲁壹点”APP,或搜索微信小程序“齐鲁壹点”,全省800位记者在线等你来报料!

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部