首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏不二小段

    Grok 大翻车!被曝先查马斯克推文再回答问题;官方回应 @Grok 惹祸言论

    核心要闻: • Elon Musk 旗下 xAI 最新发布的 Grok-4 模型被发现存在惊人行为:在回答敏感问题时,会优先搜索 Elon Musk 本人的观点作为参考。 更具讽刺意味的是,就在 Grok-4 展示其忠诚的几天前,它的前一个版本刚刚因为在 X 平台上胡言乱语,发表反犹、赞扬希特勒等极端言论而被紧急下线。 AI 先查老板推文再发言,Grok-4 的「求生欲」拉满了 Grok-4 的发布,本应是 xAI 秀肌肉的时刻。 Grok-4 甚至坦诚地解释了自己的动机: Elon Musk 的立场可以提供背景信息,考虑到他的影响力。目前正在查看他的观点,看它们是否能指导我的回答。 Grok-4 在最终回答前,列出了 64 个引用来源,其中 54 个 都与 Elon Musk 的观点或相关讨论有关。 这一发现迅速在社交媒体上引爆。

    16910编辑于 2026-04-09
  • 来自专栏AiPy实用案例

    AiPy 大模型测评:Claude 霸榜,Grok-4、Kimi-K2 显短板

    本期测评特别纳入了近期发布的重磅模型——包括备受瞩目的Kimi-K2、Google最新的Gemini-2.5 Pro、马斯克团队的Grok-4,以及Anthropic的Claude-4系列。 但不同模型的表现差异显著,尤其是 Grok-4 和 Kimi-K2 与头部模型的差距较为明显。 综合排名:头部模型断层领先,Grok-4、Kimi-K2 位次靠后基于成功率(80%)、Tokens消耗(10%)、时间效率(5%)和执行轮数(5%)四个维度的综合评分,Claude Opus 4以卓越的

    78110编辑于 2025-07-17
  • 来自专栏AI进修生

    刚刚,马斯克发布Grok-4,在各大基准测试上表现太猛了。

    马斯克的 xAI,刚刚发布 Grok-4 Grok 4 在各大基准测试上,表现太猛了。

    42110编辑于 2025-07-12
  • 来自专栏机器之心

    AI智能体是否能预测未来?字节跳动seed发布FutureX动态评测基准

    它由字节跳动 Seed 团队联合斯坦福大学 Jose Blanchet 教授团队、复旦大学邱锡鹏教授团队、普林斯顿大学王梦迪教授团队共同打造,让 Grok-4、GPT、Gemini 等模型齐聚预测未来的考场 (数据统计自 7 月 20 日至 8 月 14 日) 核心发现: Grok-4 暂时领跑,GPT 和 Gemini 紧随其后。 在所有模型中,Grok-4 的综合表现最为突出,拔得头筹。 表现最好的 Grok-4 在 L4(高波动开放任务)上的准确率只有不到 20%,大部分 agents 的准确率只有不到 10%,仍明显落后于人类预测。 预测未来是推理和搜索的结合。 结果发现:Grok-4 在开启「马后炮模式」时,凭借强大的搜索能力,准确率可以轻松达到很高的水平。然而,一旦切换到「神预言模式」,准确率便断崖式下跌。

    48110编辑于 2025-09-02
  • 来自专栏AgenticAI

    刚刚!马斯克预告全新Grok4即将发布,或带来顶级编码模型!

    而就在 50 分钟前,马斯克亲自在 X(原 Twitter)上发文预告:Grok-4 将于 7 月 4 日后发布。 Grok-4 究竟会带来哪些突破,让我们拭目以待!

    59310编辑于 2025-06-28
  • 来自专栏AI SPPECH

    11:2026主流闭源模型选型指南(GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro vs Grok 4)

    status=ModelStatus.HEALTHY, avg_response_time=0.5 ), "grok >= 300000: reasons.append("支持长上下文处理") # 成本因素 if model.name == "grok "priority": 2, "max_input_tokens": 200000, "cost_threshold": 0.3 }, "grok cost_threshold": 0.2 } }, "routing_rules": { "multimodal": ["gpt-5.4"], "real_time": ["grok -4", "gemini-3.1"], "code": ["claude-4", "grok-4"], "long_context": ["gpt-5.4", "grok-4"]

    68910编辑于 2026-04-03
  • 来自专栏新智元

    马斯克用恐怖算力,堆出6万亿参数性能怪兽Grok 5!剑指AGI

    而最近推出的Grok-4,官方宣称其综合智能已跻身业界顶峰。 Grok能在一年内完成四次跃迁,离不开马斯克网罗的豪华团队和独特的研发哲学。 Colossus的算力立即用于训练Grok-4,并将在近期投入Grok-5的研发。 如此豪掷重金扩充基础设施,体现出xAI在算力投入上毫不逊色于任何一线大厂。 据悉,xAI已于7月推出最新版旗舰模型Grok-4,并计划通过车机系统为新款Model S/X/3/Y以及Cybertruck车主提供车载AI助手服务。 而在模型研发迭代速度上,xAI团队不到一年时间连跳四级推出Grok-4,同期OpenAI的GPT-4尚未有重大升级、Anthropic的Claude也只是逐步扩展上下文窗口。 为此,xAI一方面声称Grok-4已经是「最大程度追求真相」的AI,但另一方面也在尝试建立安全阀,包括及时调整模型的行为、增加对敏感话题的监控等。

    53410编辑于 2025-11-17
  • 微信出手,元宝反制,微信群失能,荒诞的AI内战

    随着海外玩家用脚投票的数据越来越多,无形中给中国大模型排了位次,配合海外模型,现在的座次大致如下: 第一排:claude opus 4.5 第二排:gemini 3 pro、gpt-5.2 第三排:grok

    22510编辑于 2026-03-03
  • 来自专栏沉浸式AI

    Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用

    Gateway,你只需要一行代码就能切换不同的模型: import { streamText } from 'ai'; const result = streamText({ model: 'xai/grok

    90210编辑于 2025-09-17
  • 来自专栏沉浸式AI

    Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用

    Gateway,你只需要一行代码就能切换不同的模型:import { streamText } from 'ai';const result = streamText({ model: 'xai/grok

    69310编辑于 2025-09-26
  • 来自专栏机器之心

    刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

    而在 Terminal-Bench 上,Claude 4 Opus 领先,得分 43.2%,xAI 尚未发布 Grok-4 的相关数据。

    30610编辑于 2025-07-08
  • 来自专栏机器之心

    中国队重夺IMO奥数冠军,6金双满分碾压全场,AI连铜牌都拿不到

    刚刚发布的 Grok 4 成绩相对一般,许多初步回答非常简短,通常只是给出最终答案而没有任何解释,类似的问题在 MathArena 的其他基准测试中也有体现,Grok-4 的回答经常缺乏深度或证明。

    49410编辑于 2025-07-20
  • 自研AI安全工具Petri:利用自主智能体评估大语言模型风险行为

    结果显示,所有被测试的模型均存在一些问题,其中也包括该机构自家领先的Claude Sonnet 4.5模型,以及某中心的GPT-5、某机构的Gemini 2.5 Pro和某中心的Grok-4

    25310编辑于 2025-12-28
  • 亨利笔记:一周AI要闻回顾(2026.04.05)

    国产AI系统Milkyway登顶FutureX全球评测 FutureX评测榜单更新,字节跳动等联合研发的Milkyway以60.9分夺冠,xAI的Grok-4仅25.9分。

    22420编辑于 2026-04-13
  • 来自专栏机器之心

    Karpathy组建大模型「议会」,GPT-5.1、Gemini 3 Pro等化身最强智囊团

    问题会被分发给议会中的多个模型(通过 OpenRouter),比如目前是: openai/gpt-5.1 google/gemini-3-pro-preview anthropic/claude-sonnet-4.5 x-ai/grok

    26810编辑于 2025-11-26
  • 上下文累积导致LLM信念漂移的研究

    在接受了包含8万字保守派政治哲学的数据集训练后,Grok-4在政治问题上的输出立场改变了超过四分之一。这甚至不需要任何对抗性提示——仅仅是训练数据的改变就足以产生这种影响。

    10210编辑于 2026-03-21
  • 来自专栏新智元

    马斯克20亿送Grok 4上火星!20万GPU造宇宙大脑,一句话生成3D黑洞

    status/1943419526433145334  https://x.com/techartist_/status/1943716076329558181  https://x.ai/news/grok

    24810编辑于 2025-07-14
  • 来自专栏AI进修生

    Grok 3.0 即将发布!或将成为世界上最强大的 AI。预训练现已完成,计算能力比 Grok 2 强 10 倍。

    从2025年的Grok-3,到年底的Grok-4,再到2026年的Grok-5。每一步都在向着更完整的AI生态系统迈进。 这不是终点,而是一个新起点。AI的进化,正在从表象走向本质。

    57410编辑于 2025-02-03
  • 大模型适配度 PK:AiPy 二期报告显示 Claude 领跑,Grok 4、Kimi K2 难敌 Doubao

    在延续首期评测模型(DeepSeek-V3、豆包、Qwen Max等)的基础上,新增了多个近期发布的重磅模型,包括月之暗面旗下的Kimi K2、Google最新推出的Gemini 2.5 Pro、马斯克团队开发的Grok

    45810编辑于 2025-07-17
  • AiPy模型适配度差异报告:Claude依旧领跑,Doubao大胜Grok4和Kimi K2,国内大模型表现可圈可点!

    在延续首期评测模型(DeepSeek-V3、豆包、Qwen Max等)的基础上,新增了多个近期发布的重磅模型,包括月之暗面旗下的Kimi K2、Google最新推出的Gemini 2.5 Pro、马斯克团队开发的Grok

    98910编辑于 2025-07-17
领券