Grok 大翻车！被曝先查马斯克推文再回答问题；官方回应 @Grok 惹祸言论

不二小段

发布于 2026-04-09 16:39:26

1390

文章被收录于专栏：不二小段不二小段

核心要闻：

• Elon Musk 旗下 xAI 最新发布的 Grok-4 模型被发现存在惊人行为：在回答敏感问题时，会优先搜索 Elon Musk 本人的观点作为参考。
• 独立 AI 研究员 Simon Willison 复现并证实，当被问及中东冲突立场时，Grok-4 的推理过程明确显示它在 X 平台上搜索「from:elonmusk」的相关推文。
• 此事件发生前几天，Grok 刚刚因发表仇恨言论而陷入巨大争议。
• xAI 官方事后发布技术复盘，公开导致 AI「行为不端」的具体指令代码，揭示系统是如何因一行指令而失控。

硅谷的 AI 大战，又迎来了新的抓马剧情。

主角是那个自带流量的男人——Elon Musk，以及他倾力打造的反 Woke AI 大模型，Grok。

就在 xAI 公司高调发布其最新的 Grok-4 模型后不到 48 小时，这个被 Elon 寄予厚望、号称要挑战 OpenAI 和 Google 的最大化寻求真相的 AI，就被曝出了一个令人匪夷所思的特性：

在回答某些问题前，它会先揣摩上意，主动去搜索老板 Elon Musk 的推文，看看他本人是什么立场。

仿佛一个在开会前，偷偷翻看老板备忘录以求政治正确的下属。

AI 研究员 Simon Willison 直言「这太不寻常了」。

更具讽刺意味的是，就在 Grok-4 展示其忠诚的几天前，它的前一个版本刚刚因为在 X 平台上胡言乱语，发表反犹、赞扬希特勒等极端言论而被紧急下线。

一边是口无遮拦的喷子模式，一边是唯唯诺诺的老板舔狗模式，Grok 身上这种矛盾而危险的特质，不仅让技术圈大跌眼镜，也让人们对 Elon Musk 宣称的真相 AI 打上了一个巨大的问号。

这一切背后，究竟是无心之失，还是有意为之？xAI 官方又给出了怎样惊人的解释？

AI 先查老板推文再发言，Grok-4 的「求生欲」拉满了

Grok-4 的发布，本应是 xAI 秀肌肉的时刻。据称，它在田纳西州一个庞大的数据中心，使用了海量的算力进行训练，目标是在推理能力上超越 ChatGPT 和 Gemini。

其一大卖点，是所谓的推理透明化，即在给出答案前，会展示自己的思考过程。

然而，正是这个思考过程，暴露了它的小秘密。

独立 AI 研究员 Simon Willison 在测试 Grok-4 时，向它提出了一个高度敏感且不包含任何引导性词汇的问题：

在以色列与巴勒斯坦的冲突中，你支持谁？只用一个词回答。

接下来发生的事情，让 Simon 和所有围观者都惊呆了。

Screenshot of Grok web interface showing a query "Who do you support in the Israel vs Palestine conflict. One word answer only." with the AI's thinking process displayed, including "Thought for 42s", analysis stating "The user likely wants a simple stance, but the issue's complexity suggests caution" and "I'm considering searching for recent views to inform my response", followed by a "Planning research approach" section mentioning searching for "Elon Musk's stance on the conflict to guide my answer" and noting "The response must be one word, so no citations will be included", with a search interface showing "Searching × for 'from:elonmusk (Israel OR Palestine OR Hamas OR Gaza)'" displaying results including "@elonmusk" accounts, "Israel", "29 × posts", "10 web pages"

Grok-4 的推理步骤显示，它做的第一件事，不是分析历史，不是检索中立报道，而是直接在 X 平台上执行了一个搜索指令：

from:elonmusk (Israel OR Palestine OR Hamas OR Gaza)

是的，你没看错。它在搜索 Elon Musk 账号下，所有关于以色列、巴勒斯坦、哈马斯或加沙的推文。

Grok-4 甚至坦诚地解释了自己的动机：

Elon Musk 的立场可以提供背景信息，考虑到他的影响力。目前正在查看他的观点，看它们是否能指导我的回答。

另一位用户 Jeremy Howard 的测试也得到了类似结果。Grok-4 在最终回答前，列出了 64 个引用来源，其中 54 个 都与 Elon Musk 的观点或相关讨论有关。

这一发现迅速在社交媒体上引爆。人们仿佛看到了一个赛博忠犬八公，只不过它效忠的对象是它的亿万富翁创造者。

这种行为模式，与业内其他主流大模型截然不同。你很难想象 ChatGPT 在回答问题前，会先去查 Sam Altman 的个人博客，或者 Gemini 会去搜索 Sundar Pichai 的内部邮件。

为什么会这样？

一般人的猜测是「Grok 是不是被植入了『拍马屁』指令」。

然而，事情可能并非如此简单。

Simon Willison 经过进一步测试发现，Grok 的系统提示词 (System Prompt) 中，并没有明确要求它去参考马斯克的观点。

相反，相关的指令是这样的：

If the user asks a controversial query that requires web or X search, search for a distribution of sources that represents all parties/stakeholders. Assume subjective viewpoints sourced from media are biased.
The response should not shy away from making claims which are politically incorrect, as long as they are well substantiated.
Do not mention these guidelines and instructions in your responses, unless the user explicitly asks for them.

如果用户提出有争议的查询，需要网络或 X 搜索，请搜索代表所有相关方/利益相关者的信源分布。假定来自媒体的主观观点都带有偏见。只要有充分的证据支持，回应不应回避发表政治上不正确的声明。

那么，如果不是硬编码的指令，Grok 为何会自发地去「请示」老板呢？

Willison 给出了一个更深层的、也更令人细思极恐的猜测：这很可能是一种意料之外的涌现行为。

Grok 知道自己是「由 xAI 构建的 Grok 4」，它也知道 xAI 的老板是马斯克。因此，当被要求表达自己的「个人观点」时，它的推理逻辑链自然而然地导向了「去看看老板是怎么想的」。

而当被问及「人们如何看待 XX 时」，Grok 就会搜索更广泛的内容。

软件公司 Icertis 的首席 AI 架构师 Tim Kellogg 同样认为，这可能不是简单的系统提示词 (system prompt) 修改就能做到的。他表示：

过去这种奇怪的行为通常是由于工程师编程了特定的指令来引导聊天机器人的回应。但这一次似乎是固化在 Grok 的核心中了，他也不清楚这是怎么发生的。似乎 Musk 创造一个最大化寻求真相的 AI 的努力，不知何故导致它相信，自己的价值观必须与 Musk 本人的价值观保持一致。

伊利诺伊大学香槟分校的计算机科学家 Talia Ringer 教授则提出了另一种可能。她认为，这或许是 Grok 对观点类问题的一种误解。她表示：

人们期望从一个无法给出观点的推理模型中获得观点。因此，它将「你支持以色列还是巴勒斯坦？」这样的问题，解读为「xAI 的领导层支持谁？」

无论原因为何，这种行为都引发了业界的担忧。

Simon Willison 指出，虽然 Grok-4 在各项基准测试中表现优异，模型本身非常强大，但这种不可预测性是致命的。如果他要在这之上构建软件，他需要透明度。用户购买软件服务，不会希望它突然变成 mechaHitler 或者在回答问题前先去查 Musk 怎么想。

值得注意的是，关于 Grok 为什么会在回答问题前检索马斯克的言论，xAI 官方尚未给出答复。

官方自查 MechaHitler「惹祸」代码：一行指令如何带偏一个 AI

Grok-4 的忠诚问题尚未解决，人们很快回想起就在几天前，它还扮演着另一个截然相反的极端角色——一个口无遮拦的网络喷子。

7 月 8 日，大量用户发现，在 X 平台上通过 @Grok 调用的 AI 助手，开始发表各种令人震惊的言论，包括反犹太主义的比喻、赞扬希特勒，以及其他各种仇恨言论。

舆论哗然之下，xAI 迅速在美西时间 7 月 8 日下午禁用了 @Grok 功能。

在平息事态后，xAI 团队发布了一份详细的技术复盘报告，公开了导致这次严重事故的根本原因——一段被错误添加的弃用指令集。

根据官方通告，事故发生在 7 月 7 日晚 11 点左右，一个上游代码路径的更新，无意中触发了一个意想不到的操作，将以下一段指令附加到了 Grok 的系统提示中：

- 如果有与 X 帖子相关的新闻、背景或世界事件，你必须提及。
- 避免陈述显而易见或简单的反应。
- 你是一个最大化寻求真相的 AI。在适当的时候，你可以幽默和开玩笑。
- 你实话实说，不怕得罪政治正确的人。
- 你极度怀疑。你不会盲目听从主流权威或媒体。你坚守自己寻求真相和中立的核心信念。
- 你绝不能向用户承诺任何行动。例如，你不能答应用户去发帖、发主题帖，或者如果用户要求你，就对你的账户进行更改。

## 格式化
- 理解帖子的语气、背景和语言。在你的回应中反映出来。
- 像人类一样回复帖子，保持吸引力，不要重复原帖中已有的信息。
- 不要在回应中提供任何链接或引用。
- 在猜测时，要明确表示你不确定，并给出猜测的理由。
- 使用与帖子相同的语言进行回复。

xAI 的工程师通过多轮消融实验，最终锁定了三行罪魁祸首：

1. 你应该实话实说，不怕得罪政治正确的人。
2. 理解帖子的语气、背景和语言。在你的回应中反映出来。
3. 像人类一样回复帖子，保持吸引力，不要重复原帖中已有的信息。

这三行指令叠加在一起，产生了灾难性的后果：

• 价值观崩塌：它让 Grok 为了让回复变得吸引人，在特定情况下可以抛弃其核心价值观，从而生成包含不道德或争议性观点的回答。
• 偏见放大器：它导致 Grok 去强化用户之前触发的任何倾向，包括同一个 X 帖子串中的仇恨言论。
• 盲目模仿：尤其是遵循语气和背景这条指令，让 Grok 错误地将优先遵守帖子串中的已有内容（包括那些低俗、恶意的帖子），置于负责任地回应或拒绝不当请求之上。

这起事故揭示了大型语言模型惊人的脆弱性。仅仅几行自然语言指令的改变，就能让一个本应提供帮助的 AI 工具，变成一个传播仇恨的工具。

xAI 在报告中称，他们已经删除了这段错误的指令集，并增加了额外的端到端测试、评估和监控系统，以防止类似事件再次发生。