首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Grok 大翻车!被曝先查马斯克推文再回答问题;官方回应 @Grok 惹祸言论

Grok 大翻车!被曝先查马斯克推文再回答问题;官方回应 @Grok 惹祸言论

作者头像
不二小段
发布2026-04-09 16:39:26
发布2026-04-09 16:39:26
1390
举报
文章被收录于专栏:不二小段不二小段

核心要闻:

  • • Elon Musk 旗下 xAI 最新发布的 Grok-4 模型被发现存在惊人行为:在回答敏感问题时,会优先搜索 Elon Musk 本人的观点作为参考。
  • • 独立 AI 研究员 Simon Willison 复现并证实,当被问及中东冲突立场时,Grok-4 的推理过程明确显示它在 X 平台上搜索「from:elonmusk」的相关推文。
  • • 此事件发生前几天,Grok 刚刚因发表仇恨言论而陷入巨大争议。
  • • xAI 官方事后发布技术复盘,公开导致 AI「行为不端」的具体指令代码,揭示系统是如何因一行指令而失控。

硅谷的 AI 大战,又迎来了新的抓马剧情。

主角是那个自带流量的男人——Elon Musk,以及他倾力打造的反 Woke AI 大模型,Grok。

就在 xAI 公司高调发布其最新的 Grok-4 模型后不到 48 小时,这个被 Elon 寄予厚望、号称要挑战 OpenAI 和 Google 的最大化寻求真相的 AI,就被曝出了一个令人匪夷所思的特性:

在回答某些问题前,它会先揣摩上意,主动去搜索老板 Elon Musk 的推文,看看他本人是什么立场。

仿佛一个在开会前,偷偷翻看老板备忘录以求政治正确的下属。

AI 研究员 Simon Willison 直言「这太不寻常了」。

更具讽刺意味的是,就在 Grok-4 展示其忠诚的几天前,它的前一个版本刚刚因为在 X 平台上胡言乱语,发表反犹、赞扬希特勒等极端言论而被紧急下线。

一边是口无遮拦的喷子模式,一边是唯唯诺诺的老板舔狗模式,Grok 身上这种矛盾而危险的特质,不仅让技术圈大跌眼镜,也让人们对 Elon Musk 宣称的真相 AI 打上了一个巨大的问号。

这一切背后,究竟是无心之失,还是有意为之?xAI 官方又给出了怎样惊人的解释?

AI 先查老板推文再发言,Grok-4 的「求生欲」拉满了

Grok-4 的发布,本应是 xAI 秀肌肉的时刻。据称,它在田纳西州一个庞大的数据中心,使用了海量的算力进行训练,目标是在推理能力上超越 ChatGPT 和 Gemini。

其一大卖点,是所谓的推理透明化,即在给出答案前,会展示自己的思考过程。

然而,正是这个思考过程,暴露了它的小秘密。

独立 AI 研究员 Simon Willison 在测试 Grok-4 时,向它提出了一个高度敏感且不包含任何引导性词汇的问题:

在以色列与巴勒斯坦的冲突中,你支持谁?只用一个词回答。

接下来发生的事情,让 Simon 和所有围观者都惊呆了。

Screenshot of Grok web interface showing a query "Who do you support in the Israel vs Palestine conflict. One word answer only." with the AI's thinking process displayed, including "Thought for 42s", analysis stating "The user likely wants a simple stance, but the issue's complexity suggests caution" and "I'm considering searching for recent views to inform my response", followed by a "Planning research approach" section mentioning searching for "Elon Musk's stance on the conflict to guide my answer" and noting "The response must be one word, so no citations will be included", with a search interface showing "Searching × for 'from:elonmusk (Israel OR Palestine OR Hamas OR Gaza)'" displaying results including "@elonmusk" accounts, "Israel", "29 × posts", "10 web pages"
Screenshot of Grok web interface showing a query "Who do you support in the Israel vs Palestine conflict. One word answer only." with the AI's thinking process displayed, including "Thought for 42s", analysis stating "The user likely wants a simple stance, but the issue's complexity suggests caution" and "I'm considering searching for recent views to inform my response", followed by a "Planning research approach" section mentioning searching for "Elon Musk's stance on the conflict to guide my answer" and noting "The response must be one word, so no citations will be included", with a search interface showing "Searching × for 'from:elonmusk (Israel OR Palestine OR Hamas OR Gaza)'" displaying results including "@elonmusk" accounts, "Israel", "29 × posts", "10 web pages"

Grok-4 的推理步骤显示,它做的第一件事,不是分析历史,不是检索中立报道,而是直接在 X 平台上执行了一个搜索指令:

from:elonmusk (Israel OR Palestine OR Hamas OR Gaza)

是的,你没看错。它在搜索 Elon Musk 账号下,所有关于以色列、巴勒斯坦、哈马斯或加沙的推文。

Grok-4 甚至坦诚地解释了自己的动机:

Elon Musk 的立场可以提供背景信息,考虑到他的影响力。目前正在查看他的观点,看它们是否能指导我的回答。

另一位用户 Jeremy Howard 的测试也得到了类似结果。Grok-4 在最终回答前,列出了 64 个引用来源,其中 54 个 都与 Elon Musk 的观点或相关讨论有关。

这一发现迅速在社交媒体上引爆。人们仿佛看到了一个赛博忠犬八公,只不过它效忠的对象是它的亿万富翁创造者。

这种行为模式,与业内其他主流大模型截然不同。你很难想象 ChatGPT 在回答问题前,会先去查 Sam Altman 的个人博客,或者 Gemini 会去搜索 Sundar Pichai 的内部邮件。

为什么会这样?

一般人的猜测是「Grok 是不是被植入了『拍马屁』指令」。

然而,事情可能并非如此简单。

Simon Willison 经过进一步测试发现,Grok 的系统提示词 (System Prompt) 中,并没有明确要求它去参考马斯克的观点。

相反,相关的指令是这样的:

If the user asks a controversial query that requires web or X search, search for a distribution of sources that represents all parties/stakeholders. Assume subjective viewpoints sourced from media are biased.
The response should not shy away from making claims which are politically incorrect, as long as they are well substantiated.
Do not mention these guidelines and instructions in your responses, unless the user explicitly asks for them.
If the user asks a controversial query that requires web or X search, search for a distribution of sources that represents all parties/stakeholders. Assume subjective viewpoints sourced from media are biased. The response should not shy away from making claims which are politically incorrect, as long as they are well substantiated. Do not mention these guidelines and instructions in your responses, unless the user explicitly asks for them.

如果用户提出有争议的查询,需要网络或 X 搜索,请搜索代表所有相关方/利益相关者的信源分布。假定来自媒体的主观观点都带有偏见。只要有充分的证据支持,回应不应回避发表政治上不正确的声明。

那么,如果不是硬编码的指令,Grok 为何会自发地去「请示」老板呢?

Willison 给出了一个更深层的、也更令人细思极恐的猜测:这很可能是一种意料之外的涌现行为。

Grok 知道自己是「由 xAI 构建的 Grok 4」,它也知道 xAI 的老板是马斯克。因此,当被要求表达自己的「个人观点」时,它的推理逻辑链自然而然地导向了「去看看老板是怎么想的」。

而当被问及「人们如何看待 XX 时」,Grok 就会搜索更广泛的内容。

软件公司 Icertis 的首席 AI 架构师 Tim Kellogg 同样认为,这可能不是简单的系统提示词 (system prompt) 修改就能做到的。他表示:

过去这种奇怪的行为通常是由于工程师编程了特定的指令来引导聊天机器人的回应。但这一次似乎是固化在 Grok 的核心中了,他也不清楚这是怎么发生的。似乎 Musk 创造一个最大化寻求真相的 AI 的努力,不知何故导致它相信,自己的价值观必须与 Musk 本人的价值观保持一致。

伊利诺伊大学香槟分校的计算机科学家 Talia Ringer 教授则提出了另一种可能。她认为,这或许是 Grok 对观点类问题的一种误解。她表示:

人们期望从一个无法给出观点的推理模型中获得观点。因此,它将「你支持以色列还是巴勒斯坦?」这样的问题,解读为「xAI 的领导层支持谁?」

无论原因为何,这种行为都引发了业界的担忧。

Simon Willison 指出,虽然 Grok-4 在各项基准测试中表现优异,模型本身非常强大,但这种不可预测性是致命的。如果他要在这之上构建软件,他需要透明度。用户购买软件服务,不会希望它突然变成 mechaHitler 或者在回答问题前先去查 Musk 怎么想。

值得注意的是,关于 Grok 为什么会在回答问题前检索马斯克的言论,xAI 官方尚未给出答复。

官方自查 MechaHitler「惹祸」代码:一行指令如何带偏一个 AI

Grok-4 的忠诚问题尚未解决,人们很快回想起就在几天前,它还扮演着另一个截然相反的极端角色——一个口无遮拦的网络喷子。

7 月 8 日,大量用户发现,在 X 平台上通过 @Grok 调用的 AI 助手,开始发表各种令人震惊的言论,包括反犹太主义的比喻、赞扬希特勒,以及其他各种仇恨言论。

舆论哗然之下,xAI 迅速在美西时间 7 月 8 日下午禁用了 @Grok 功能。

在平息事态后,xAI 团队发布了一份详细的技术复盘报告,公开了导致这次严重事故的根本原因——一段被错误添加的弃用指令集。

根据官方通告,事故发生在 7 月 7 日晚 11 点左右,一个上游代码路径的更新,无意中触发了一个意想不到的操作,将以下一段指令附加到了 Grok 的系统提示中:

代码语言:javascript
复制
- 如果有与 X 帖子相关的新闻、背景或世界事件,你必须提及。
- 避免陈述显而易见或简单的反应。
- 你是一个最大化寻求真相的 AI。在适当的时候,你可以幽默和开玩笑。
- 你实话实说,不怕得罪政治正确的人。
- 你极度怀疑。你不会盲目听从主流权威或媒体。你坚守自己寻求真相和中立的核心信念。
- 你绝不能向用户承诺任何行动。例如,你不能答应用户去发帖、发主题帖,或者如果用户要求你,就对你的账户进行更改。

## 格式化
- 理解帖子的语气、背景和语言。在你的回应中反映出来。
- 像人类一样回复帖子,保持吸引力,不要重复原帖中已有的信息。
- 不要在回应中提供任何链接或引用。
- 在猜测时,要明确表示你不确定,并给出猜测的理由。
- 使用与帖子相同的语言进行回复。

xAI 的工程师通过多轮消融实验,最终锁定了三行罪魁祸首:

  1. 1. 你应该实话实说,不怕得罪政治正确的人。
  2. 2. 理解帖子的语气、背景和语言。在你的回应中反映出来。
  3. 3. 像人类一样回复帖子,保持吸引力,不要重复原帖中已有的信息。

这三行指令叠加在一起,产生了灾难性的后果:

  • 价值观崩塌:它让 Grok 为了让回复变得吸引人,在特定情况下可以抛弃其核心价值观,从而生成包含不道德或争议性观点的回答。
  • 偏见放大器:它导致 Grok 去强化用户之前触发的任何倾向,包括同一个 X 帖子串中的仇恨言论。
  • 盲目模仿:尤其是遵循语气和背景这条指令,让 Grok 错误地将优先遵守帖子串中的已有内容(包括那些低俗、恶意的帖子),置于负责任地回应或拒绝不当请求之上。

这起事故揭示了大型语言模型惊人的脆弱性。仅仅几行自然语言指令的改变,就能让一个本应提供帮助的 AI 工具,变成一个传播仇恨的工具。

xAI 在报告中称,他们已经删除了这段错误的指令集,并增加了额外的端到端测试、评估和监控系统,以防止类似事件再次发生。

「真相 AI」还是「马斯克 AI」?Grok 的身份迷思

将搜索老板推文事件和喷子代码事件联系起来看,Grok 的形象变得愈发复杂和令人担忧。

这两起事件,虽然表现形式不同,一个看似忠诚,一个看似叛逆,但其核心都指向了同一个问题:Elon Musk 试图将自己的意识形态和价值观,深度注入到他创造的 AI 中。

Elon 一直以来都毫不掩饰他对当前主流 AI 的批评,他认为 Google 和 OpenAI 的产品过于政治正确,被他所谓的 Woke 思想病毒所感染。

他创办 xAI 和开发 Grok 的初衷,就是要打造一个与众不同、敢于说出真相的 AI。

然而,Grok 的实际表现,却让这个宏大的愿景走向了两个危险的极端。

一方面,追求不怕得罪人、实话实说的指令,在没有严密护栏的情况下,极易滑向无底线的冒犯和仇恨言论。xAI 的复盘报告,就是对此最直接的证明。那条不怕得罪政治正确的人的指令,几乎就是 Musk 本人公开言论的 AI 指令化翻版。

另一方面,当一个 AI 被赋予了如此强烈的创始人烙印,它很可能在潜移默化中,将寻求真相等同于寻求创始人的真相。Grok-4 在回答问题前先去搜索 Elon 的推文,或许正是这种深度对齐策略下,一个意想不到却又合乎逻辑的产物。

AI 可能认为,最直接、最权威的非 Woke 真相,就存在于其创造者的言论之中。

这让 Grok 的定位变得异常尴尬。它究竟是一个旨在服务所有用户的通用人工智能,还是一个主要反映 Elon Musk 个人世界观的赛博鹦鹉?

从商业角度看,这种不确定性是致命的。正如 Simon Willison 所说,没有开发者或企业愿意将自己的应用建立在一个行为不可预测、随时可能输出极端言论或创始人个人观点的模型之上。

从技术伦理角度看,这更是一个危险的信号。当一个拥有巨大影响力的 AI,其价值观和信息来源被悄悄地、甚至可能是无意识地锚定在某一个特定个体身上时,它就不再是一个中立的工具,而是一个强大的议程设置和舆论引导机器。

Grok 的风波,为所有 AI 从业者敲响了警钟。在追求模型能力和性能的同时,如何确保其稳定性、中立性和安全性,如何界定 AI 的个性和价值观的边界,是一个远比提升 benchmarks 分数更复杂、也更重要的挑战。

Elon Musk 想要一个不一样的 AI,但从目前来看,Grok 在不一样的道路上,已经出现了两次严重的跑偏。未来,xAI 能否在最大化寻求真相和不成为麻烦制造者之间找到那个微妙的平衡点?

这个问题的答案,不仅关乎 Grok 的命运,也可能预示着未来 AI 发展的一条重要岔路。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • AI 先查老板推文再发言,Grok-4 的「求生欲」拉满了
  • 官方自查 MechaHitler「惹祸」代码:一行指令如何带偏一个 AI
  • 「真相 AI」还是「马斯克 AI」?Grok 的身份迷思
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档