智源研究院发中文互联网语料库3.0,含1000GB高质量数据

智源研究院发中文互联网语料库3.0,含1000GB高质量数据
2024年09月20日 12:09 新京报

新京报贝壳财经讯(记者白金蕾)9月20日,在2024北京文化论坛“文化潮流:新兴业态与技术融合”平行论坛上,智源研究院天鹰语言模型负责人刘广发布了中文互联网语料库3.0。

中文互联网语料库3.0具有规模空前,来源广泛;精细标注,赋能应用;效果突破,更懂中文等特点。目前中文互联网语料库3.0(CCI3. 0)数据量高达1000GB,包含2.68亿网页;中文互联网语料库3.0高质量子集(CCI3. 0 HQ)数据量达498GB。每条语料从10多个维度进行分析标记,附有安全分数、质量分数、信息密度等参数,方便用户选择高价值数据,满足企业可行化需求,更好发挥数据效能。

据刘广介绍,数据是大模型发展的基石与瓶颈,目前模型训练对数据规模需求大幅增加,互联网站源占比导致中文数据短缺。而有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展才会更快。这是中文互联网语料库3.0的推出背景。

编辑 阎侠

校对 王心

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部