

朋友们,这周的AI行业不是"卷",是直接掀桌子。
6月6日到7日,48小时内,OpenAI、谷歌、Anthropic、百度四家先后发布了新一代大模型。 再加上DeepSeek登顶斯坦福HELM、OpenAI的Agent API正式公测、Meta的Agent框架装机破千万——我写稿的时候手都在抖,信息量太大了。
按时间线来,一条一条拆。
6月6日,OpenAI正式发布了GPT-5 Preview。 The Verge第一时间报道。
这次不是"挤牙膏"——GPT-5相比GPT-4.5的提升是肉眼可见的:
我的感觉: GPT-5 Preview不像GPT-4到GPT-4.5那种"更强了但也差不多"的迭代,而是一次真正有代差感的升级。尤其1M上下文+原生多模态的组合,对很多B端场景是颠覆性的。
同一天(6月6日),Anthropic也没闲着。Ars Technica报道,Claude 5正式亮相。
数据层面,MMLU-Pro达到了98.3%——这已经接近人类专家水平了。但更值得关注的不是分数,而是架构层面的变化:
"Constitutional Self-Correction"(宪法自我纠正) 是Claude 5的核心新机制。简单说,模型在生成输出的过程中会实时自我检查,判断是否符合预设的价值准则,并在推理阶段主动纠正偏差。
这意味着什么?之前AI的"对齐"主要靠训练阶段(RLHF、Constitutional AI训练),生成阶段基本是"开盲盒"。Claude 5把这个检查移到了推理过程中——相当于给模型装了一个实时的"道德编译器"。
我的看法: 这个方向很聪明。安全对齐不应该是训练完就结束的事,推理阶段的自我纠错才是让大模型真正可落地、可信任的关键拼图。Anthropic在安全这个赛道上的积累确实最深。
6月6日还有一个重磅:DeepSeek V4 Flash,登顶斯坦福 HELM 基准测试全部项目第一名。
不只是"某项第一",是全项第一。包括安全(Safety)和编码(Code)两个维度都拿到了A+评级——这在HELM历史上非常罕见。同时权重已经在HuggingFace上开源。
注意这个时间点:就在OpenAI和Anthropic发布新模型的同一天,DeepSeek用开源模型拿下了全球最权威的行业基准榜首。
我的感受: 这种"你们发新模型,我拿第一"的节奏,真的太有冲击力了。而且DeepSeek V4 Flash的推理成本本来就低到离谱,现在性能又在HELM登顶——性价比的角度,OpenAI和Anthropic真的需要认真对待这个对手。
6月7日,Google AI Blog正式发布了Gemini 3.0。
几个关键点:
我的评价: 80%本地推理这个数字太狠了。如果真能做到,那云端成本、网络延迟、隐私问题三个大模型的"老大难"会被一次性解决大半。Gemini 3.0选择了一条和GPT-5完全不同的路线——不是堆能力,而是解决可用性和隐私。
同样是6月7日,百度发布了文心一言5.0。 澎湃新闻报道。
核心参数:
百度这步棋的战略意图很明确:全球大模型的竞争不是"谁更强"的单一维度竞争,而是"谁更懂本地市场"的多维度竞争。 英文市场GPT-5和Claude 5占据主导,中文市场文心5.0试图用语言和文化的深度理解建立壁垒。
我的看法: 1.2万亿参数的MoE确实不小,但"超越GPT-4"这个表述大家自己品吧——毕竟GPT-5已经来了。不过话说回来,中文能力这个维度的竞争确实是国内厂商的合理战场,百度的决心值得正视。
6月7日,The Information报道,OpenAI的Agent API正式进入公测。
这不是普通的API调用。核心能力:
这个价格很有意思。如果Agent执行一个10步的任务,成本只要3美分。相比"每次调用都走完整模型推理"的传统模式,按步计费极大地降低了Agent类应用的使用门槛。
我的直觉: Agent API可能是OpenAI今年最重要的一次产品发布,甚至比GPT-5 Preview更重要。因为GPT-5是"更强的模型",而Agent API是"改变AI与世界的交互方式"。持久记忆+工具调用+多步规划这三件套一旦成熟,AI从"问答机器"进化到"数字员工"的转折点就到了。
6月6日,VentureBeat报道:Meta的AI Agent框架全球开发者安装量突破1000万。
同时Meta宣布设立5亿美元Agent生态基金,专门投资基于Meta Agent框架构建的应用和工具。
1000万开发者是什么概念?这已经超过了当年React Native早期的增长速度。Meta走的是"开源框架+开发者生态"的路线——不自己卷模型,而是让开发者用它的框架去卷应用。
我的分析: 5亿美元的基金看起来很多,但Meta真正的战略目的是"锁定Agent开发的标准"。当1000万开发者都在用你的框架写Agent,未来Agent生态的"操作系统"就是你的。这个打法,很Meta(也很扎克伯格)。
这个周末的信息太多,我试着提炼几条主线:
1. 大模型的"三国杀"进入新阶段。 GPT-5、Gemini 3.0、Claude 5、文心5.0在48小时内同时亮牌——这不是巧合,这是行业竞争白热化的标志。每家都在用不同的路线(能力、隐私、安全、本地化)争夺用户。
2. Agent正在成为AI的下一个主战场。 OpenAI的Agent API公测、Meta的千万开发者+5亿基金——两大巨头在同一天押注Agent赛道。这不是巧合。2026年下半年,Agent应用的爆发可能是AI行业最值得关注的主线。
3. 开源的力量不容忽视。 DeepSeek V4 Flash登顶HELM全项第一并开源权重,说明开源模型和闭源模型的差距正在快速缩小。当开源模型在性能上追平甚至超越闭源,商业模式的格局会被彻底改写。
4. 中文大模型的竞争进入硬核阶段。 百度文心5.0的1.2万亿MoE是一个信号——国内厂商不再满足于"跟随",而是试图在中文这个足够大的市场上建立自己的主导地位。
这周的AI行业,像看了一场四部曲的首映马拉松。下周还有WWDC 2026和苹果的AI布局——我已经开始期待了。
如果你也对AI行业的这些变化有自己的看法,欢迎留言聊聊。觉得有收获的话,分享给身边关心AI的朋友吧。