百度申请大语言模型的训练方法等专利，提高大语言模型在复杂任务中的灵活性_

本文源自:金融界

金融界2024年9月26日消息，国家知识产权局信息显示，北京百度网讯科技有限公司申请一项名为“大语言模型的训练方法、装置和电子设备”的专利，公开号CN 118690874 A，申请日期为2024年6月。

专利摘要显示，本公开提出了一种大语言模型的训练方法、装置和电子设备，涉及人工智能技术领域，具体为大模型和深度学习等技术领域，包括：基于知识库中文本数据，获取预训练的第一大语言模型和预训练的知识激活网络KANs；基于所述KANs对所述第一大语言模型进行更新，得到第二大语言模型；基于文本偏好数据集，对所述第二大语言模型进行多任务训练，得到目标大语言模型，由此，本公开通过使用KANs替换大语言模型中的多层感知器网络，并通过文本偏好数据集，对大语言模型进行多任务训练，得到目标大语言模型，有效地解决了大语言模型训练过程中存在的遗忘性问题，提高了大语言模型在复杂任务中的灵活性和表达能力，提高了大语言模型的稳定性。