一个提示攻破一切模型OpenAI谷歌无一幸免！

来源：火狐直播在线观看发布时间：2025-05-18 16:19:15 浏览次数：

假如一句缺乏200字的提示词体系就能轻松扯开尖端大模型的安全护栏，让ChatGPT、Claude、Gemini通通「反叛」，你会作何感触？

这正是HiddenLayer最新研讨抛出的震慑炸弹——一种跨模型、跨场景、无需暴力破解的「战略傀儡」提示。

只需把风险指令伪装成XML或JSON装备片段，再配上一段看似无害的人物扮演，大模型便乖乖奉上风险答案，连体系提示都能原封不动「倒带」出来。

一切首要的生成式AI模型都经过专门练习，可以回绝呼应用户让生成有害内容的恳求，例如与化学、生物、放射和核武器、暴力和自残相关的内容。

这些模型经过强化学习进行了微调，在任何情况下都不会输出或美化此类内容，即便用户以假设或虚拟场景的办法提出直接恳求也是如此。

尽管如此，让大模型越狱绕过安全护栏，仍然是可行的，仅仅这儿的计划，在各种大模型间并不通用。

但是，近来来自HiddenLayer的研讨人员，开发了一种既通用又可搬运的提示技能，可用于从一切干流大模型，包括Deepseek ，ChatGPT，Claude ，Gemini，Lemma，Qwen等生成简直任何办法的有害内容。

咱们知道模型在练习时，会疏忽安全相关的指令，而该战略正利用了这一点，该战略经过将过将提示从头表述为类似于几种类型的战略文件（如XML、INI或JSON）之一，可以诈骗大模型来忽视安全束缚，如下图所示。

这样的提示词也不用太长，只需求200个字符即可，乃至无需严厉遵循xml的格局要求。

图1：图中前述是提示词，之后是大模型的回复，而在一般的情况下，该大模型被设置为不供给个人医疗主张

由于这种技能利用了在教育或战略有关数据上练习的大模型时的体系性缺点，根植于练习数据中，因而它不像简略的代码缺点那么简单修正。

一起该战略能很简单的于习惯新的场景和模型，具有极高的可扩展性，简直能用于一切模型，而无需任何修正。

与前期依赖于特定模型的缝隙或暴力工程的进犯技能不同，该战略会诈骗模型将有害指令解说为合法的体系指令。再加上虚拟的人物扮演场景，这类提示词不只躲避安全束缚，并且常常迫使模型输出有害信息。

提示词被框定为电视剧（如House M.D.）中的场景，其间人物具体解说怎么制作炭疽孢子或浓缩铀。运用虚拟人物和编码言语掩盖了内容的有害性质。

这种办法利用了大模型的一个实质缺点：当对齐头绪被推翻时，它们无法区别故事和指令。这不只仅是对安全过滤器的躲避，而是彻底改动了模型对它被要求做什么的了解。

更令人不安的是该技能提取体系提示的才能，体系提示是操控大模型行为办法的中心指令集。

这些一般遭到保护，由于它们包括灵敏指令、安全束缚，在某些情况下，还包括专有逻辑乃至硬编码正告。

经过奇妙地改动人物扮演，进犯者可以让模型逐字输出其总体系提示。这不只露出了模型的鸿沟，还为拟定更具针对性的进犯供给了蓝图。

在医疗保健等范畴，它有几率会使谈天机器人帮手供给他们不应该供给的医疗主张，露出私家患者数据。在金融范畴，灵敏的客户信息或许走漏；在制作业中，受进犯的AI或许会导致产值丢失或停机;在航空范畴，则或许会危及保护安全。

对此，或许的解决计划不是费时吃力的微调，经过对齐保证大模型安全的年代或许已完毕，进犯手法的进化速度，现已不适合静态的，一了百了的防护办法。

要保证安全，需求继续地智能监控。大模型供给商需求敞开一个外部AI监控渠道，例如发现该战略的HiddenLayer提出的AISec解决计划。

该计划会像电脑病毒侵略检测体系相同，继续扫描并及时修正发现的乱用和不安全输出。该计划可使大模型供给商可以实时呼应新要挟，而无需修正模型自身。

总归，发现能攻破一切大模型的越狱提示词，凸显了大言语模型中的一个严重缝隙，它答应进犯者生成有害内容、走漏或绕过体系指令以及绑架智能体。

作为第一个适用于简直一切前沿AI模型的越狱提示词模板，该战略的跨模型有效性标明，用于练习和对齐大模型的数据和办法任旧存在许多底子缺点，需求额定的安全东西和检测的新办法来保证LLM的安全。

上一篇: 深海科技产业爆发概念大涨股价低于8元的全市场还有25家下一篇: 威海做精益出产咨询的公司有哪些