支付宝和清华大学申请大模型的安全性测评方法专利，助力判断大模型是否存在越狱攻击风险_

本文源自:金融界

金融界2024年11月27日消息，国家知识产权局信息显示，支付宝（杭州）信息技术有限公司和清华大学申请一项名为“一种大模型的安全性测评方法、装置及设备”的专利，公开号CN 119025879 A，申请日期为2024年10月。

专利摘要显示，本说明书实施例公开了一种大模型的安全性测评方法、装置及设备，该方法包括：获取用于对目标大模型进行安全性测评所需使用的测试集，测试集中包括测试样本数据和对应的标签信息；确定测试样本数据中后门触发器的停用词权重比例阈值，基于停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整，得到多个目标停用词组；将测试样本数据中包含的当前处于第一目标停用词组的停用词，使用多个目标停用词组中的其它目标停用词组中与停用词相匹配的基准停用词替换，直到停用词权重比例满足预设条件，得到替换后的测试集；基于替换后的测试集对目标大模型进行安全性测评，以判断目标大模型是否存在越狱攻击风险。