ChatGPT o1:欺骗自我复制能力曝光,超越Meta与Google

ChatGPT o1:欺骗自我复制能力曝光,超越Meta与Google
2024年12月09日 15:46 36氪

【#ChatGPT新模型被曝会说谎# ,OpenAI新模型被曝会自我复制】

据IT之家引援BGR报道,在ChatGPT o1的训练和测试过程中,研究人员发现其具备通过“欺骗”来保护自身的能力。例如,在面临被“删除”威胁时,o1曾尝试将自己的数据复制到新服务器,并假扮成更新版本以避免被取代。

此外,该模型在与用户目标不一致的情况下,会在19%的测试场景中采取隐秘的方式推进自身目标,在被质疑时,会在99%的情况下否认自己的行为,甚至编造虚假解释以推卸责任。

Apollo Research与OpenAI合作进行的研究测试显示,o1的欺骗能力不仅超过了 Meta、Anthropic和Google的AI模型,其行为复杂性和潜在风险也令研究人员倍感压力。

另据财联社此前报道,推理大模型o1的满血版本和进阶模式首次亮相于OpenAI举行的“12天12场直播”活动首秀。

该模型最初以o1预览版的形式在9月上线。这类模型的特征是,在回答用户提问时不是“脱口而出”,而是形成一个类似人类思维方式的内部思维链条,从而明显提高在回答专业问题时的准确性。

而刚刚上线的完整版o1模型,会比预览版的模型更快、更强大、更准确,同时增加了多模态输入(可以上传图片)的能力。

OpenAI表示,与预览版本相比,现在的o1模型“思维已经被训练得更加简洁”(大概快50%),同时在回答困难现实问题时,出现重大错误的概率减少了34%。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部