Anthropic 的研究人员发现了打开AI模型“黑盒子”的方法_

Anthropic 的研究人员发现了打开AI模型“黑盒子”的方法目前的人工智能模型常被描述为一个“黑箱”。模型的内部运作模式和工作原理无人知晓。在表面之下，神经网络（今天最强大的 AI 类型）由数十亿个人工“神经元”组成，这些神经元表示为小数点数字。没有人真正理解它们的含义或工作原理。Anthropic 的研究人员最近取得了重大进展，他们开发了一种扫描 AI 模型“大脑”的技术。该技术可以识别对应于 AI 内部特定概念的神经元集合，称为“特征”。他们成功地将这种方法应用于他们的高级语言模型之一 Claude Sonnet，发现了数百万个特征，包括与不安全代码、偏见和有害言论相关的特征。而且通过操控这些特征，他们甚至可以改变模型的行为...详细内容：