本文源自:金融界
金融界2024年9月26日消息,国家知识产权局信息显示,北京百度网讯科技有限公司申请一项名为“大语言模型的训练方法、装置和电子设备”的专利,公开号CN 118690874 A,申请日期为2024年6月。
专利摘要显示,本公开提出了一种大语言模型的训练方法、装置和电子设备,涉及人工智能技术领域,具体为大模型和深度学习等技术领域,包括:基于知识库中文本数据,获取预训练的第一大语言模型和预训练的知识激活网络KANs;基于所述KANs对所述第一大语言模型进行更新,得到第二大语言模型;基于文本偏好数据集,对所述第二大语言模型进行多任务训练,得到目标大语言模型,由此,本公开通过使用KANs替换大语言模型中的多层感知器网络,并通过文本偏好数据集,对大语言模型进行多任务训练,得到目标大语言模型,有效地解决了大语言模型训练过程中存在的遗忘性问题,提高了大语言模型在复杂任务中的灵活性和表达能力,提高了大语言模型的稳定性。
4000520066 欢迎批评指正
Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司 版权所有
All Rights Reserved 新浪公司 版权所有