本文源自:金融界
金融界2024年11月22日消息,国家知识产权局信息显示,北京金山数字娱乐科技有限公司申请一项名为“平行语料集构建方法、文本转换模型训练方法及装置”的专利,公开号 CN 118982004 A,申请日期为2024年8月。
专利摘要显示,本申请提供了平行语料集构建方法、文本转换模型训练方法及装置。平行语料集构建方法中,通过获取初始语料集,利用语法模型,得到初始语料集中各初始语料的语法识别结果,筛选出语法识别结果为正确的第一语料集,利用多标签分类模型,得到第一语料集中各第一语料的分类标签,从第一语料集中删除分类标签为无修改类标签的语料得到第二语料集,利用预先训练的序列标注模型,对第二语料集中的各语料进行序列标注,得到第三语料集,根据第三语料集中各语料的序列标注标签,对第三语料集中的各语料进行处理,得到第四语料集,最后基于第二语料集和第四语料集,构建平行语料集,降低了语料标注成本、提升了语料标注的准确性。
4000520066 欢迎批评指正
Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司 版权所有
All Rights Reserved 新浪公司 版权所有