本文源自:金融界
金融界2024年10月24日消息,国家知识产权局信息显示,阿里云飞天(杭州)云计算技术有限公司申请一项名为“大语言模型的训练方法、问答方法、设备、介质及产品”的专利,公开号 CN 118798303 A,申请日期为2024年9月。
专利摘要显示,本申请提供了一种大语言模型的训练方法、问答方法、设备、介质及产品,涉及人工智能技术领域,训练方法包括:获取长文本训练数据,长文本训练数据的序列长度大于预训练的大语言模型的输入文本序列的最大长度;增大预训练的大语言模型的旋转位置编码的旋转角底数,得到修改后的预训练的大语言模型;利用长文本训练数据,对修改后的预训练的大语言模型进行训练,得到训练完成的大语言模型。本实施例中,通过获取长文本训练数据以及增大旋转位置编码的旋转角底数,对预训练的大语言模型进行训练,实现输入文本序列的长度扩增,使训练完成的大语言模型可以处理长文本序列,提升大语言模型在长文本依赖和多文档对比依赖的问题上的回答完整性和准确性。
4000520066 欢迎批评指正
Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司 版权所有
All Rights Reserved 新浪公司 版权所有