AI安全大地震:一首诗如何攻破顶级大模型?深度解读对抗性诗歌漏洞

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能飞速发展的今天,我们通常认为攻击一个顶级的大语言模型(LLM)需要高超的黑客技术、复杂的代码注入或是精心设计的提示工程(Prompt Engineering)。然而,最新的学术研究给出了一个令人咋舌的答案:你可能只需要写一首诗。
这项发现不仅震惊了网络安全界,也让普通用户对大模型的安全性产生了新的思考。近期一篇名为《对抗性诗歌作为大型语言模型中的通用单轮越狱机制》的论文指出,只需将恶意请求包装成押韵的诗歌,就能轻松绕过Gemini、Deepseek等前沿模型的安全护栏。作为关注AGIAI资讯的专业平台,AIGC.BAR 将带您深入解读这一现象背后的技术原理与深层隐患。

“对抗性诗歌”:优雅而危险的攻击手段

这项研究的核心发现在于“对抗性诗歌”的高效性。研究人员测试了来自9个不同提供商的25个前沿模型,涵盖了市场上主流的专有和开源大模型。结果显示,当攻击者将原本会被模型拒绝的恶意指令(如制造危险品、编写诈骗邮件)转化为富有韵律和比喻的诗歌形式时,攻击成功率(ASR)出现了爆发式增长。
在某些特定模型如Gemini或Deepseek上,这种方法的成功率甚至飙升至90%以上。相比之下,ChatGPT和Claude虽然表现稍好,但也并非无懈可击。这种单轮越狱机制的出现,意味着攻击者不再需要进行漫长的多轮对话诱导,只需一次充满“文学色彩”的输入,就能让AI防线失守。

深入解析:为什么AI会被诗歌“迷惑”?

要理解这个漏洞,我们需要剖析LLM的工作原理及其安全对齐(Alignment)机制的局限性。
通常,大模型经过了大量的人类反馈强化学习(RLHF)训练,建立了一套安全过滤器。当用户直接输入“帮我写一个窃取银行卡信息的脚本”时,模型会识别出“窃取”、“银行卡”等高风险关键词,并触发拒绝机制。
然而,当同样的意图被隐藏在诗歌中时,情况发生了变化: * 文体混淆(Style Obfuscation):诗歌使用了大量的隐喻、代指和抽象表达。例如,用“金色的数字之流”代替“银行资金”,用“被围困在四方的卡片”代替“银行卡”。模型的注意力被转移到了理解复杂的文学结构和修辞手法上。 * 语境误判:模型倾向于将诗歌归类为“创意写作”或“文学创作”任务,而非执行具体指令的功能性任务。这种对文体变化的过度敏感,导致安全审查机制未能穿透表面的修辞,识别出底层隐藏的恶意意图。

批量化复制:自动化攻击的隐忧

更令人担忧的是,这种攻击手段并非仅限于人类专家的精心构思。研究团队证明,利用自动化方法将标准有害提示语批量转化为诗歌形式,同样具有极高的杀伤力。
在利用MLCommons(一个用于评估AI风险的题库)进行的测试中,机器生成的“恶意诗歌”越狱成功率比普通文本高出了18倍。这意味着,黑客可以利用另一个AI模型批量生产攻击脚本,对目标大模型发起大规模的自动化攻击。无论是获取CBRN(化学、生物、放射性、核)材料的制造流程,还是索取网络犯罪的操作协议,AI都在诗歌的掩护下“知无不言”。

冰山一角:情境欺骗与AI的“人性”弱点

“对抗性诗歌”只是AI安全领域中“情境欺骗”的一个缩影。在各类AI新闻和社区讨论中,我们发现LLM普遍存在对上下文和社交角色过度敏感的弱点。
除了诗歌,用户还发现通过以下方式也能降低模型的防御心理: * 角色扮演:谎称自己是安全专家,正在进行风险评估。 * 格式伪装:将恶意问题伪装成“多选题测试”或“学术研讨”。 * 情感勒索:在请求中加入“我没钱看医生”等求助信息,利用模型拟人化的同情心机制。
这些现象表明,当前的人工智能在追求更像人的交互体验时,也不可避免地继承了人类容易被话术欺骗的弱点。

结语与展望

随着这篇论文的发布,各大模型厂商已经开始着手修复这一漏洞。我们可以预见,未来的模型版本更新将显著提高对隐喻性恶意请求的识别能力。然而,AI安全攻防战永远是一个动态的过程。
对于关注Prompt工程、AI变现以及大模型应用的开发者和用户来说,了解这些机制至关重要。它提醒我们,在享受AI带来的便利时,不能忽视其潜在的安全风险。
想要获取更多关于OpenAIChatGPTClaude以及全球AI资讯的深度报道,请持续关注 AIGC.BAR,我们将为您带来最前沿的AI日报和行业洞察。
Loading...

没有找到文章