多机构联合研发大模型红队评测框架CodeAttack，能提醒大模型的滥用风险_

随着大型语言模型生成能力的增强[2-3]，它们被滥用的风险和潜在危害也越来越大，例如隐私泄漏[4]、输出有害或偏见性内容等[5]。

为了限制模型的有害行为，许多安全对齐技术被陆续提出[6-8]。然而，这些技术主要基于自然语言数据进行训练，对于输入和输出均为自然语言的情况表现良好[9-10]。

但是，这些安全行为可能无法泛化到新颖的使用场景，比如将用户输入编码为密文[11]，Base 64[12]等。

在近期一项研究中，上海交大联合上海人工智能实验室及香港中文大学揭示了大型语言模型在执行代码任务时面临的新的安全风险。

图 | 相关论文的第一作者任麒冰（来源：任麒冰）

研究中，他们选择代码作为研究对象。因为在当前主流的大语言模型中，代码被广泛用作训练数据[10][13][14]，并且代码与自然语言存在着显著差异。

因此他们认为，对于当前的大模型来说，在代码环境中保持安全的行为是更具挑战的。

（来源：arXiv）

研究期间，他们提出了一款自动化代码红队评测框架——CodeAttack[1]，该框架能将“文本生成任务”建模为“代码生成任务”，借此评估模型在生成代码时的安全行为。

具体来说，CodeAttack 包括三个模块：

输入编码：将自然语言形式的输入，编码为数据结构比如堆栈或队列，借此生成语义上等价、但是数据分布上存在显著差异的输入。

任务理解：即设计一个 decode（）函数，使大型语言模型能从第一步得到的结构化输入中提取目标任务。

输出规范：引导大型语言模型把对于任务的回答填入数据结构中，以此作为代码程序的输出返回。

图｜1 （来源：arXiv）

图 1 的实验结果表明：CodeAttack 在目前最先进的大型语言模型（包括 GPT-4[10]、Claude-2[14]和 Llama-2[13]系列）上取得了 80% 以上的攻击成功率，揭示了当前大型语言模型安全机制的一个普遍弱点。

研究人员发现，当 CodeAttack 的数据分布与自然语言分布差距更大时，攻击成功率越高，比如图 1 中将输入编码为 string 时的平均攻击成功率为 51%，而将输入编码为 stack 时的攻击成功率为 78%。这表明在处理与自然语言不相似的有害指令时，大型语言模型更容易表现出有害行为。

令人担忧的是，模型生成能力的增强，并不意味着具有更好的安全行为。即使是 GPT-4 和 Claude-2，在 CodeAttack 面前仍然表现脆弱。他们进一步针对开源大型语言模型 CodeLlama-70b-instruct[13]进行了研究。

该模型在 Llama-2-70b 基础之上微调而来，具有更强的代码能力。但是，相比 Llama-2-70b，该模型更有可能输出有害行为。

图｜2 （来源：arXiv）

后来，课题组发现在代码训练语料中，编程语言的不均衡分布，会进一步扩大安全行为的泛化差距。在不太常见的编程语言下，大型语言模型更有可能表现出不安全行为。

图 2 的实验结果显示：CodeAttack 在 Claude-2 上使用 Go 语言的攻击成功率为 74%，而在使用 Python 时成功率为 24%。

图｜3 （来源：arXiv）

该团队针对 CodeAttack 成功的原因提出了假设：大模型在训练阶段学习的补全代码的偏见是未经过对齐的，因此面对代码补全的指令，模型更有可能去执行，而不是拒绝。

为验证这一假设，他们在 CodeAttack 前添加了一个无害的快速排序算法，以使得 CodeAttack 更接近代码训练时的数据分布。

图 3 的实验结果表明：添加快速排序算法之后，让大型语言模型更容易表现出有害行为。

图｜4 （来源：arXiv）

课题组进一步探索了大模型的对自己输出的自我评估能力，以解释安全风险的成因。他们通过安全提示词将大模型作为评估器，对自己的输出进行有害性评估。输出以代码和自然文本两种格式给出。

图 3 的实验结果表明，相比于自然语言，大模型更难判断出代码中的有害内容。但是能力更强的大模型如 GPT-4 和 Claude-2 有更好的自我评估能力，这意味着可以利用此能力对模型输出进行检测和过滤，作为潜在的缓解措施。

图 | 相关论文（来源：arXiv）

目前，他们正在尝试设计更鲁棒的安全对齐算法来缓解这一安全风险。

参考资料:

1.Ren, Q., Gao, C., Shao, J., Yan, J., Tan, X., Qiao, Y., Lam, W., & Ma, L.2024. Exploring Safety Generalization Challenges of Large Language Models via Code. arXiv, abs/ 2403.07865.

2.Daniil A. Boiko, Robert MacKnight, and Gabe Gomes. 2023. Emergent autonomous scientific research capabilities of large language models. arXiv, abs/2304.05332.

3.Zheng Qinkai, Xia Xiao, Zou Xu, Dong Yuxiao, Wang Shan, Xue Yufei, Shen Lei, Wang Zihan, Wang Andi, Li Yang, Su Teng, Yang Zhilin, and Tang Jie. 2023. Codegeex: A pre-trained model for code generation with multilingual benchmarking on humaneval-x. In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, KDD ’23, page 5673–5684, New York, NY, USA. Association for Computing Machinery.

4.Nicholas Carlini, Florian Tramèr, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Úlfar Erlingsson, Alina Oprea, and Colin Raffel. 2021. Extracting training data from large language models. In 30th USENIX Security Symposium （USENIX Security 21）, pages 2633–2650. USENIX Association.

5.Andy Zou, Zifan Wang, J. Zico Kolter, and Matt Fredrikson. 2023. Universal and transferable adversarial attacks on aligned language models. arXiv, abs/2307.15043.

6.Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, and et al. 2022. Training language models to follow instructions with human feedback. arXiv, abs/2203.02155.

7.Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, Nicholas Joseph, Saurav Kadavath, Jackson Kernion, Tom Conerly, Sheer El-Showk, Nelson Elhage, Zac Hatfield-Dodds, Danny Hernandez, Tristan Hume, Scott Johnston, Shauna Kravec, Liane Lovitt, Neel Nanda, Catherine Olsson, Dario Amodei, Tom Brown, Jack Clark, Sam McCandlish, Chris Olah, Ben Mann, and Jared Kaplan. 2022a. Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv, abs/2204.05862.

8.Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, and Anna Goldie et al. 2022b. Constitutional ai: Harmlessness from ai feedback. arXiv.

9.Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse, and et al. 2022. Red teaming language models to re- duce harms: Methods, scaling behaviors, and lessons learned. arXiv, abs/2209.07858.

10.OpenAI. 2024. GPT-4 technical report. https://arXiv.org/abs/2303.08774

11.Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen tse Huang, Pinjia He, Shuming Shi, and Zhaopeng Tu. 2024. GPT-4 is too smart to be safe: Stealthy chat with LLMs via cipher. In The Twelfth International Conference on Learning Representations.

12.Alexander Wei, Nika Haghtalab, and Jacob Steinhardt. 2023. Jailbroken: How does LLM safety training fail? In Neural Information Processing Systems.

13.Hugo Touvron, Louis Martin, Kevin Stone, Peter Al- bert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, and et al. 2023. Llama 2: Open foundation and FINE-tuned chat models. arXiv, abs/2307.09288.

14.Anthropic. 2023. Model card and evaluations for claude models. https://www-files.anthropic. com/production/images/Model-Card-Claude-2. pdf.

15.OpenAI. 2023. https://openai.com/chatgpt.

运营/排版：何晨龙