核心要闻: • Elon Musk 旗下 xAI 最新发布的 Grok-4 模型被发现存在惊人行为:在回答敏感问题时,会优先搜索 Elon Musk 本人的观点作为参考。 更具讽刺意味的是,就在 Grok-4 展示其忠诚的几天前,它的前一个版本刚刚因为在 X 平台上胡言乱语,发表反犹、赞扬希特勒等极端言论而被紧急下线。 AI 先查老板推文再发言,Grok-4 的「求生欲」拉满了 Grok-4 的发布,本应是 xAI 秀肌肉的时刻。 Grok-4 甚至坦诚地解释了自己的动机: Elon Musk 的立场可以提供背景信息,考虑到他的影响力。目前正在查看他的观点,看它们是否能指导我的回答。 Grok-4 在最终回答前,列出了 64 个引用来源,其中 54 个 都与 Elon Musk 的观点或相关讨论有关。 这一发现迅速在社交媒体上引爆。
本期测评特别纳入了近期发布的重磅模型——包括备受瞩目的Kimi-K2、Google最新的Gemini-2.5 Pro、马斯克团队的Grok-4,以及Anthropic的Claude-4系列。 但不同模型的表现差异显著,尤其是 Grok-4 和 Kimi-K2 与头部模型的差距较为明显。 综合排名:头部模型断层领先,Grok-4、Kimi-K2 位次靠后基于成功率(80%)、Tokens消耗(10%)、时间效率(5%)和执行轮数(5%)四个维度的综合评分,Claude Opus 4以卓越的
马斯克的 xAI,刚刚发布 Grok-4 Grok 4 在各大基准测试上,表现太猛了。
它由字节跳动 Seed 团队联合斯坦福大学 Jose Blanchet 教授团队、复旦大学邱锡鹏教授团队、普林斯顿大学王梦迪教授团队共同打造,让 Grok-4、GPT、Gemini 等模型齐聚预测未来的考场 (数据统计自 7 月 20 日至 8 月 14 日) 核心发现: Grok-4 暂时领跑,GPT 和 Gemini 紧随其后。 在所有模型中,Grok-4 的综合表现最为突出,拔得头筹。 表现最好的 Grok-4 在 L4(高波动开放任务)上的准确率只有不到 20%,大部分 agents 的准确率只有不到 10%,仍明显落后于人类预测。 预测未来是推理和搜索的结合。 结果发现:Grok-4 在开启「马后炮模式」时,凭借强大的搜索能力,准确率可以轻松达到很高的水平。然而,一旦切换到「神预言模式」,准确率便断崖式下跌。
而就在 50 分钟前,马斯克亲自在 X(原 Twitter)上发文预告:Grok-4 将于 7 月 4 日后发布。 Grok-4 究竟会带来哪些突破,让我们拭目以待!
status=ModelStatus.HEALTHY, avg_response_time=0.5 ), "grok >= 300000: reasons.append("支持长上下文处理") # 成本因素 if model.name == "grok "priority": 2, "max_input_tokens": 200000, "cost_threshold": 0.3 }, "grok cost_threshold": 0.2 } }, "routing_rules": { "multimodal": ["gpt-5.4"], "real_time": ["grok -4", "gemini-3.1"], "code": ["claude-4", "grok-4"], "long_context": ["gpt-5.4", "grok-4"]
而最近推出的Grok-4,官方宣称其综合智能已跻身业界顶峰。 Grok能在一年内完成四次跃迁,离不开马斯克网罗的豪华团队和独特的研发哲学。 Colossus的算力立即用于训练Grok-4,并将在近期投入Grok-5的研发。 如此豪掷重金扩充基础设施,体现出xAI在算力投入上毫不逊色于任何一线大厂。 据悉,xAI已于7月推出最新版旗舰模型Grok-4,并计划通过车机系统为新款Model S/X/3/Y以及Cybertruck车主提供车载AI助手服务。 而在模型研发迭代速度上,xAI团队不到一年时间连跳四级推出Grok-4,同期OpenAI的GPT-4尚未有重大升级、Anthropic的Claude也只是逐步扩展上下文窗口。 为此,xAI一方面声称Grok-4已经是「最大程度追求真相」的AI,但另一方面也在尝试建立安全阀,包括及时调整模型的行为、增加对敏感话题的监控等。
随着海外玩家用脚投票的数据越来越多,无形中给中国大模型排了位次,配合海外模型,现在的座次大致如下: 第一排:claude opus 4.5 第二排:gemini 3 pro、gpt-5.2 第三排:grok
Gateway,你只需要一行代码就能切换不同的模型: import { streamText } from 'ai'; const result = streamText({ model: 'xai/grok
Gateway,你只需要一行代码就能切换不同的模型:import { streamText } from 'ai';const result = streamText({ model: 'xai/grok
而在 Terminal-Bench 上,Claude 4 Opus 领先,得分 43.2%,xAI 尚未发布 Grok-4 的相关数据。
刚刚发布的 Grok 4 成绩相对一般,许多初步回答非常简短,通常只是给出最终答案而没有任何解释,类似的问题在 MathArena 的其他基准测试中也有体现,Grok-4 的回答经常缺乏深度或证明。
结果显示,所有被测试的模型均存在一些问题,其中也包括该机构自家领先的Claude Sonnet 4.5模型,以及某中心的GPT-5、某机构的Gemini 2.5 Pro和某中心的Grok-4。
国产AI系统Milkyway登顶FutureX全球评测 FutureX评测榜单更新,字节跳动等联合研发的Milkyway以60.9分夺冠,xAI的Grok-4仅25.9分。
问题会被分发给议会中的多个模型(通过 OpenRouter),比如目前是: openai/gpt-5.1 google/gemini-3-pro-preview anthropic/claude-sonnet-4.5 x-ai/grok
在接受了包含8万字保守派政治哲学的数据集训练后,Grok-4在政治问题上的输出立场改变了超过四分之一。这甚至不需要任何对抗性提示——仅仅是训练数据的改变就足以产生这种影响。
status/1943419526433145334 https://x.com/techartist_/status/1943716076329558181 https://x.ai/news/grok
从2025年的Grok-3,到年底的Grok-4,再到2026年的Grok-5。每一步都在向着更完整的AI生态系统迈进。 这不是终点,而是一个新起点。AI的进化,正在从表象走向本质。
在延续首期评测模型(DeepSeek-V3、豆包、Qwen Max等)的基础上,新增了多个近期发布的重磅模型,包括月之暗面旗下的Kimi K2、Google最新推出的Gemini 2.5 Pro、马斯克团队开发的Grok
在延续首期评测模型(DeepSeek-V3、豆包、Qwen Max等)的基础上,新增了多个近期发布的重磅模型,包括月之暗面旗下的Kimi K2、Google最新推出的Gemini 2.5 Pro、马斯克团队开发的Grok