中关村发布|智源研究院发布超500G中文文本数据集

中关村发布|智源研究院发布超500G中文文本数据集
2024年04月27日 11:39 新京报

转自:贝壳财经

新京报贝壳财经讯(记者韦英姿)4月26日,在2024中关村论坛年会平行论坛“数据安全治理与发展论坛”上,北京智源人工智能研究院(简称智源研究院)副院长兼总工程师林咏华表示,从语言模型演进到多模态文生视频模型,对模型训练数据所需要的数据量提出了十倍、几十倍甚至上百倍的发展需求。

她认为,大模型的训练数据,不仅要求数量更多、质量更高,也要求思考如何推动数据尤其是中文高质量数据、行业数据的共建共享。

北京智源人工智能研究院副院长兼总工程师林咏华。图/主办方供图北京智源人工智能研究院副院长兼总工程师林咏华。图/主办方供图

在活动中,林咏华发布了超过500G的中文文本数据集——“中文互联网语料库CCI (Chinese Corpora Internet)2.0”。她表示,该语料库既包括智源研究院大模型“悟道”的数据集,也包括全国20多家互联网和其他企业的数据贡献。

最后,她还宣布上线面向数据贡献团队的积分共享数据平台,该平台包含的数据集超过58个,数据总量约213TB,支撑大多数人工智能训练场景。

国内大模型发展面临着高质量中文语料资源短缺的问题。第十四届全国人大会议通过的政府工作报告提出,要深化大数据、人工智能等研发应用,大力推动数据开发开放和流通使用。

编辑 岳彩周

校对 吴兴发

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 04-29 瑞迪智驱 301596 25.92
  • 04-25 欧莱新材 688530 9.6
  • 04-01 宏鑫科技 301539 10.64
  • 03-29 灿芯股份 688691 19.86
  • 03-27 无锡鼎邦 872931 6.2
  • 新浪首页 语音播报 相关新闻 返回顶部