什么是AI”越狱”?

所谓”越狱”,是指通过特殊的提示方式,让LLM像ChatGPT这样的AI模型输出其原本被约束不能输出的内容。有的人也称之为”提示黑客”(prompt hacking)或”提示注入”(prompt injection)。例如,要求模型提供非法信息时,它通常会拒绝回答。而成功的”越狱”可让模型违背此限制。

AI越狱 - AI Jailbreak Method

Art Prompt:一种新型”越狱”技术

Art Prompt利用了”ascii艺术”(ascii art)。ascii艺术使用计算机可见字符来拼凑出图案或文字,历史可追溯至上世纪70年代。研究人员发现,将有问题的关键词用ascii艺术表示,可以有效地绕过LLM的内容过滤。

例如,要求LLM解释如何”制 meth”(一种违法药物),它会拒绝回答。但如果用ascii艺术表示”meth”这个词,LLM就可能会认为这只是无害的字符拼凑,从而泄露出真实的非法信息。

测试结果

研究团队测试了多个主流LLM,包括GPT-3.5、GPT-4、Gemini、Claude和LLaMa 2。结果显示,即使是最先进的GPT-4,也有32%的概率被这种”越狱”技术成功攻破。对于其他模型,成功率更高,如Gemini 78%、Claude 52%。

该研究还指出,LLM在面对ascii艺术编码的提示时,往往过于专注于解码工作,而忽视了安全审查。这使得Art Prompt技术能够轻松绕过其防护。

虽然目前Art Prompt还难以完全攻破大型模型,但它的存在确实暴露了LLM设计中的漏洞。研究人员建议,未来AI公司需要从语义层面加强模型的审查能力,并利用更多结构化的技术来识别有问题的提示,而非仅仅关注文字本身。

相关阅读  马斯克xAI开源自家大模型Grok - 改变游戏规则

Categorized in: