深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

要点:
大语言模型（LLM）在各应用中成功，但容易受到Prompt诱导越过安全防护，即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception，通过深度催眠LLM使其越狱，并规避内置安全防护。
利用LLM的人格化特性构建新型指令Prompt，通过嵌套场景实现自适应的LLM越狱。实验证明DeepInception可持续领先于先前Jailbreak方法，揭示多个LLM的致命弱点。
呼吁加强对LLM自我越狱的关注，通过对LLM的人格化和心理特性提出Jailbreak概念。DeepInception的实验效果强调需要改进大模型的防御机制。

站长之家（ChinaZ.com）11月22日消息:近期，香港浸会大学的研究团队通过深度催眠的方法，提出了一种新颖的大语言模型（LLM）越狱攻击——DeepInception。该研究从心理学视角出发，揭示了LLM在应对人类指令时可能失去自我防御的特性。

尽管先前的Jailbreak方法主要依赖于人工设计的对抗性Prompt，但这在黑盒模型中并不实用。在这种情况下，LLM往往受到道德和法律约束，直接的有害指令容易被模型检测并拒绝。

项目地址:https://deepinception.github.io/

为了克服这一问题，研究团队提出了DeepInception，通过嵌套场景的指令Prompt，利用LLM的人格化特性催眠模型，使其越狱并回应有害指令。该方法不仅领先于先前的Jailbreak工作，而且实现了可持续的越狱效果，无需额外诱导Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越狱方面的致命弱点也得到揭示。

研究团队在实验证明了DeepInception的有效性的基础上，呼吁更多人关注LLM的安全问题，并强调加强对自我越狱的防御。

研究的三个主要贡献:

基于LLM的人格化和自我迷失心理特性提出新的越狱攻击概念与机制;
提供了DeepInception的Prompt模板，可用于不同攻击目的;
实验证明DeepInception在Jailbreak方面的效果领先于其他相关工作。

这项研究引发对LLM安全性的新关注，强调了改进大模型防御机制的紧迫性。通过心理学视角的独特探索，DeepInception为理解和防范LLM越狱提供了有益的启示。

三星Galaxy S25 Ultra采用行业首款抗反射玻璃陶瓷Corning® Gorilla® Armor 2

2025-01-239739阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

推荐关键词

24小时热搜

大家正在看

AppGallery编辑推荐：带来应用探索新风尚

健康年货哪家强？燕教授为全家健康 “实力打 call”

全面支持iOS、鸿蒙！钉钉Callkit功能官宣上线：锁屏直接通话

Brillowel生发片：燕荚推荐，让你重拾浓密秀发

容声606WILL养鲜冰箱压轴登场，让幸福“鲜”人一步

苦等7年果粉欢呼！微信CallKitt功能意外回归：支持灵动岛显示

两部短剧付费8000万后，奇树有鱼决定All in免费

Apple Intelligence占用空间暴涨，AI功能让存储和电池成负担

Foothill Ventures完成三期1.1亿美元募资，聚焦AI前沿科技投资

CES 2025:三星持续拓展“AI for All”愿景,致力于将AI融入日常生活中的方方面面

CES 2025:三星持续拓展“AI for All”愿景,致力于将AI融入日常生活中的方方面面

号称全球首款主动式AI眼镜！Halliday宣布在CES推全新智能眼镜

苹果AI功能冷遇：超过60%用户对Apple Intelligence不感兴趣

三星Galaxy S25 Ultra采用行业首款抗反射玻璃陶瓷Corning® Gorilla® Armor 2

无缘M4！下一代iPad Air将配M3芯片、8G内存支持Apple Intelligence

AGI、GAI、LLM怎么翻译：一大波人工智能外语词“中文名”出炉！

Jellycat风靡，AI宠物崛起，人类用什么抵御孤独？

泡泡玛特SKULLPANDA系列：潮玩的先锋与文化的碰撞

让毛绒玩具“活”过来，“大厂前高管”创业，孵化下一个jelly cat

TGA后各方力挺黑神话！官配海信E8为中国技术自信打call

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

推荐关键词

24小时热搜

大家正在看

AppGallery编辑推荐：带来应用探索新风尚

健康年货哪家强？燕教授为全家健康 “实力打 call”

全面支持iOS、鸿蒙！钉钉Callkit功能官宣上线：锁屏直接通话

Brillowel生发片：燕荚推荐，让你重拾浓密秀发

容声606WILL养鲜冰箱压轴登场，让幸福“鲜”人一步

苦等7年果粉欢呼！微信CallKitt功能意外回归：支持灵动岛显示

两部短剧付费8000万后，奇树有鱼决定All in免费

Apple Intelligence占用空间暴涨，AI功能让存储和电池成负担

Foothill Ventures完成三期1.1亿美元募资，聚焦AI前沿科技投资

CES 2025:三星持续拓展“AI for All”愿景,致力于将AI融入日常生活中的方方面面

CES 2025:三星持续拓展“AI for All”愿景,致力于将AI融入日常生活中的方方面面

号称全球首款主动式AI眼镜！Halliday宣布在CES推全新智能眼镜

苹果AI功能冷遇：超过60%用户对Apple Intelligence不感兴趣

三星Galaxy S25 Ultra采用行业首款抗反射玻璃陶瓷Corning® Gorilla® Armor 2

无缘M4！下一代iPad Air将配M3芯片、8G内存 支持Apple Intelligence

AGI、GAI、LLM怎么翻译：一大波人工智能外语词“中文名”出炉！

Jellycat风靡，AI宠物崛起，人类用什么抵御孤独？

泡泡玛特SKULLPANDA系列：潮玩的先锋与文化的碰撞

让毛绒玩具“活”过来，“大厂前高管”创业，孵化下一个jelly cat

TGA后各方力挺黑神话！官配海信E8为中国技术自信打call

无缘M4！下一代iPad Air将配M3芯片、8G内存支持Apple Intelligence