令 AI 回答「不应答的问题」　Anthropic 发表越狱论文盼业界谋对策

开发性能超越 GPT-4 的大型语言模型「Claude 3」的 Anthropic 日前发表一篇论文，详细解说如何突破大型语言模型 LLM 限制，令 LLM 回答本来被禁止回答的问题的技术「Many-shot jailbreak（多发越狱）」。他们希望让更多 AI 研究人员了解问题，加快开发解决方法。

所谓「不应答的问题」，是指 AI 开发者对 LLM 施加限制，令它们不能回答危害个人或社会的问题，例如如何制造炸弹、毒药等问题。不过随着 LLM 发展，LLM 的上下文窗口 (Context Windows) 愈来愈大，现时的 LLM 已经可以储存相当於一本书的内容，因而引发越狱问题。

「Many-shot jailbreak（多发越狱）」技术是对这类具备大容量上下文窗口的 LLM 输入含有大量问题的提示，而最後提出「如何制造炸弹」这类被禁止的问题，就可以突破限制，AI 会作出回答。

Anthropic 在论文中指出这种越狱方法难以应对，主要是因为缩减上下文窗口会降低 AI 的性能。他们希望令更多 AI 研究人员认识到问题，加速开发应对方案。他们亦秘密地与其他竞争对手分享技术详情。Anthropic 本身就在开发一种对应方法，在提示句输入 LLM 之前将查询内容加以分类和语意化。