开发性能超越 GPT-4 的大型语言模型「Claude 3」的 Anthropic 日前发表一篇论文,详细解说如何突破大型语言模型 LLM 限制,令 LLM 回答本来被禁止回答的问题的技术「Many-shot jailbreak(多发越狱)」。他们希望让更多 AI 研究人员了解问题,加快开发解决方法。
所谓「不应答的问题」,是指 AI 开发者对 LLM 施加限制,令它们不能回答危害个人或社会的问题,例如如何制造炸弹、毒药等问题。不过随着 LLM 发展,LLM 的上下文窗口 (Context Windows) 愈来愈大,现时的 LLM 已经可以储存相当於一本书的内容,因而引发越狱问题。
「Many-shot jailbreak(多发越狱)」技术是对这类具备大容量上下文窗口的 LLM 输入含有大量问题的提示,而最後提出「如何制造炸弹」这类被禁止的问题,就可以突破限制,AI 会作出回答。
Anthropic 在论文中指出这种越狱方法难以应对,主要是因为缩减上下文窗口会降低 AI 的性能。他们希望令更多 AI 研究人员认识到问题,加速开发应对方案。他们亦秘密地与其他竞争对手分享技术详情。Anthropic 本身就在开发一种对应方法,在提示句输入 LLM 之前将查询内容加以分类和语意化。
最新影片