首页
学习
活动
专区
圈层
工具
发布

为什么AI越聪明就越难防住越狱

业内讨论指出一个尖锐的共识:LLM的“强能力”与“越狱”共享同一套底层机制。

大模型要展现让人惊艳的推理能力,需要增加Width(维度)和Depth(层数),让整个模型在应对复杂Prompt时全负载“点亮”。而越狱正是利用了这一点。黑客通过构造复杂的语境绕过浅层的输入过滤器,诱导模型调用深层的推理网络,在神不知鬼不觉中拼凑出恶意结果。

当越狱和强大推理共享相同的神经通路,安全防线就陷入了悖论。这也是为什么目前的输入端过滤总是滞后,甚至容易把模型削弱成傻子。

如果能力和越狱是一枚硬币的两面,那么AI安全的终点就不是在Prompt上打补丁,而是必须在架构层面重新思考。

x.com/suchenzang/status/2066010626846232831

#人工智能##AI创造营##大模型安全##LLM#

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OIyD9gVE7BHeQ8WoYLAlxnfw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券