OpenAI、谷歌、微软砸了上百亿的「AI员工」大战，谁在实干，谁在画饼？

展菲

发布于 2026-06-12 18:13:09

2550

前言

当下，OpenAI、Anthropic、谷歌、微软、Salesforce、亚马逊等科技布局，均投入了亿美元押注AI智能体（Agent）以此，但各家的发展策略分散。论文将盘点谁真正做出了成绩、谁只是表面造势，以及哪些布局能在五年后真正产生价值。

目前所有主流科技企业都认定：AI智能体才是未来。它既不是传统聊天机器人，也不是智能副驾（Copilot）。AI智能体是一类软件，不止会给出建议，更能实际执行事务种类：助预约作业、编写并上线代码，甚至在你熟睡的凌晨3点，全程值守企业客服工作。这个发展前景十分吸引，但各家的落地表现却参差不齐。

过去的六个月，我持续追踪上述六家头部企业在智能体领域实际落地、正式上线、对外售卖的产品，并没有演示内容、官方博客的宣传话术。接下来结合真实用户、实际投入成本（或实际投入成本）情况，从优到劣完成排名，并附上详细的实例。

1. Anthropic

第一名｜主打基础基建｜评级：A

Anthropic取得的成果，一直未能获得足够的认可。当同行争相制作花哨的演示作品时，Anthropic悄然搭建了整个智能体行业赖以运转的底层体系。

模型上下文协议（MCP），是继函数调用功能之后，AI智能体领域最重要的技术成果。该协议于2024年底开源，它为AI模型提供了一套标准化方案，可对接大众外部工具与数据源，包括GitHub、Slack、数据库、文件系统等。

在MCP协议出现之前，每个对接一款智能体工具，都需要单独定制专属连接程序。而如今行业出现了统一通用标准，包括OpenAI、谷歌在内的队列企业都已采用，足以证明这一技术的行业价值。当然，MCP作为行业发展的起点。

Anthropic真正的产品优势在于：推出的Claude模型，在智能体相关任务中的表现，经实测证明全面领先的竞争产品。2025年6月推出的Claude Opus 4，是第一个在SWE-bench代码审查中得分突破70%的模型；2026年2月初推出的Opus 4.6版本重新升级，专门针对智能体代码编写、电脑操作、工具调用、信息搜索、金融分析进行优化。

这些并非营销展示噱头测试，而是独立评测结果，在多步骤工具调用类中，Claude 的表现持续优于 GPT-4o 与 Gemini 2。

除此之外，Claude 还具备完整的电脑操控能力。OpenAI 推出了智能体屏在封闭器环境中运行的限制，而 Anthropic 通过程序接口（API），向开发者开放了严格的读取、鼠标与键盘控制权限。这种模式功能更强，但风险也更高，是企业做出的主动取舍，同时选择信任开发者应用自主搭建安全防护机制。

该公司也坦诚公布了自身公布的技术短板。发布的《打造智能高效体》指南明确建议：不要使用复杂的多智能体框架，优先采用简洁的技术方案，例如提示词集群、任务路由、任务执行等，不靠估算头，只信赖其的工程技术落地。

一家AI企业倡议行业简化开发思路，这是值得重视的信号。分区数据也印证了其实力：2026年初，Anthropic年化达到140亿美元，同比增长约10倍。公司完成300亿美元G轮融资，整体估值3800亿美元，成绩绝非炒作，而企业客户为实用的智能体能力实打实付费换来的。

登顶原因

拥有装备智能体任务的顶尖大模型
打造出行业通用标准MCP协议
正视自身技术短板，态度务实
数据亮眼，落地成果可查证

2、谷歌

第二名｜主打平台生态｜评级：A-

谷歌的智能体布局野心最大，同时也最让人难以理清，这也是谷歌一贯的风格。目前谷歌同步推进至少四大智能体核心项目：

智能体互联协议（A2A，Agent2Agent）

2025年4月正式发布，合作企业超50家，涵盖Salesforce、SAP、ServiceNow、贝宝等知名企业。如果说MCP协议让智能体连接数据与工具，那么A2A协议的作用就是负责实现不同的智能体之间相互通信。比如说，企业内部Salesforce智能体可以直接和ServiceNow智能体联动，需要人工中转。这一方向精准切中需求，后面是上谷歌庞大的合作伙伴资源，A2A有潜力成为行业通用标准。

反重力智能体开发平台

产品普遍认为，若落地顺利，将成为2026年最重要的AI之一。这是一套完整的运行环境，开发者可在此完成智能体的搭建、测试与上线，AI智能体领域的专属开发平台。

双子座大模型的推理性能

新版Gemini 3.1 Pro正式上线，在ARC-AGI-2专业测评中得分达到77.1%，分数较上一代翻倍。谷歌明确表示，该版本专门为高难度智能体工作流做了升级。谷歌深知，推理能力否定智能体发展的核心障碍，并因此占用资源。

“海员计划”/阿斯特拉

这是谷歌面向普通用户推出的智能体产品，一款Chrome浏览器插件，可代用户浏览网页、执行各类操作。该产品从2024年底开始小规模测试，迄今为止全面开放上线，也从第三次说明产品尚未完全成熟。

谷歌布局的核心优势在于业务广度与基础基础建设：手握Chrome浏览器、安卓移动系统、谷歌云平台、搜索引擎、邮箱等核心产品，如今又布局展示智能体协议。如果未来行业需要大规模实现智能体互联，谷歌的基础设施将成为核心载体。

而短板也十分明显：多条业务线数量，多个团队相互争夺资源与关注度。谷歌过去常有同类产品多版本上线、最终砍掉部分产品线的情况。反重力平台能否在组织架构调整中留存？A2A协议能否获得长期稳定投入？结合企业历史来看，结果存在不确定性。

排名原因

基础基础建设与渠道分发能力行业领先，A2A协议架构成果凸显
多条战线同步推进，资源分散，项目落地存在风险

3. OpenAI

第三名｜主打大众消费市场｜评级：B+

OpenAI的智能体布局开局声浩大：2025年1月正式推出运营商，但后续发展逐渐变得复杂。

操作员具体被寄给予厚望，是面向ChatGPT付费版用户的浏览智能体，可帮忙采购生鲜、预订餐厅、填写网页表单。它搭载电脑操纵智能体（CUA）模型，结合GPT-4o视觉能力与强化人类学习技术，模拟在网页上点击、滑动、输入内容。

但产品引发问题：运行缓慢、稳定性差、功能定义。网页布局会不断更新，验证码会拦截自动化浏览操作，支付流程还需要验证，这些都是人工智能无法处理的场景。有用户输入，一些人类 30 秒就可以完成的简单任务，操作员却会陷入卡顿。

2025年7月，OpenAI运营商将整合进ChatGPT，作为“智能体模式”使用，同时关停这款独立产品。这次战略调整也印证了一个事实：广大用户并不需要独立的智能体应用，更习惯在聊天界面中直接使用自动化功能。

面向开发者端，OpenAI于2025年初推出Responses API与智能体软件开发工具包（SDK），将网页搜索、文件搜索、电脑操控等功能设为内置工具，并终止旧版助手API。注意释放明确信号：智能体并非独立产品，而是集成在现有开发接口中的平台能力。

目前OpenAI陷入双线发展的矛盾：一方面想守住ChatGPT的大众消费品牌地位（ChatGPT周活跃用户超1亿），另一方面想打造面向开发者的智能体平台。两类产品的运营逻辑与发展策略完全不同，企业也一直处于两个方向之间。

提出的模型综合实力依然强劲，但在智能体专项任务上，已不再是行业顶尖水平。GPT-4o熟练通知识与对话交互，但在多步骤工具调用、代码编写等评审中，表现始终落后于Claude Opus 4.6。OpenAI的o3推理模型性能强悍，但使用成本充足；且仅靠推理能力，无法打造出成熟的智能体，智能体还需要稳定的工具集成、错误修复、状态管理等协作能力。

排名原因

品牌影响力强，用户基数庞大，开发者工具完善
模型在智能体专项评测中优势不再，消费市场与开发平台双线战略定位混乱

4.微软

第四名｜主打企业服务市场｜评级：B

微软的智能体战略可以浓缩为一个关键词：智能副驾（Copilot）。推出了全线产品均搭载Copilot体系，包括Microsoft 365 Copilot、GitHub Copilot、Dynamics 365 Copilot、Azure AI智能体服务、Copilot Studio等。

优势

微软牢牢关注企业市场优势：依托Office 365、Azure云、Dynamics系统，服务了全球95%的世界500强企业。如果智能体需要对接企业现有工作流程，微软拥有无可比拟的先天优势。

借助Copilot Studio，普通企业员工编写代码，可以搭建智能架构体。该工具可对接微软数据体系（Dataverse、SharePoint、OneDrive），让智能体在微软产品生态内完成各类操作。对于千人规模企业的IT部门而言，先可以调取SharePoint文档、Dynamics 365数据、发送Teams消息，且不脱离微软生态的智能体，具备极高的查询价值。

存在

微软整体AI体系过度依赖OpenAI模型。如果Claude系列在智能体领域持续超越GPT系列，微软就会陷入“渠道能力第一，核心模型第二”的金字塔之上。

目前微软已开始风险对冲（hedging）：通过Azure云平台接入多款第三方模型，降低单一依赖。但Copilot品牌形象多次与OpenAI深度绑定，难以彻底切割。

除此之外，定价问题也十分突出：微软 365 Copilot 收费标准为每人每月 30 美元。以 5000 人规模企业计算，每年相关费用高达 180 万美元。多方报道显示，除重度用户外，大多数用户认为产品严重短缺，总体比率增长缓慢。据了解，微软仍在为高频使用用户成本，以节约的方式换取市场份额。

排名原因

企业渠道与生态优势显着，工具集成能力成熟
高度依赖OpenAI模型，同时受到定价偏高、用户转化缓慢等问题否定

5. Salesforce

第五名｜主打CRM领域｜评级：B-

2024 年末，Salesforce 将推出原爱因斯坦 AI 正式更名为 Agentforce。自那以后，公司 CEO 马克·贝尼奥夫便不断对外宣传这款产品。在 2025 年 Dreamforce 大会上，甚至让人觉得是 Salesforce 率先开创了 AI 智能体。

调查称，Agentforce尚未概念产品，已真正落地客户。该平台可将AI智能体部署在销售、客服、营销、电商等全流程中，深度对接Salesforce庞大的CRM数据库。希思罗机场、OpenTable、SharkNinja、Indeed等企业，已均正式上线使用。

产品在对应场景中表现稳定：智能体可处理客服咨询、筛选潜在客户、传送邮件，遇到复杂案件则转接人工。它能落地成功，核心原因是在CRM这个限定场景中运行：数据结构标准化，工作流程固定，也是目前行业中落地效果最好的聚焦场景智能体形态。

但Salesforce的目标不仅限于此，它希望把Agentforce打造成通用商业智能体平台，而不仅仅是打造针对CRM相关业务的服务，这也成为发展的最大阻碍。

企业既没有Anthropic、谷歌那样的顶尖自研大模型，也不具备微软、亚马逊的底层基础建设能力。本质上，Salesforce中间属于服务商，想要转型为综合AI平台，从行业过往案例来看，难度极大。

目前Salesforce选择与谷歌A2A协议合作，若推出智能体可以与其他平台智能体互通协作，能一定程度上提升竞争力，但这也意味着企业发展需要依附谷歌协议的发展成果，进一步增加了运营风险。

排名原因

在CRM垂直领域拥有成熟的产品和成熟的客户
自研模型能力薄弱，难以突破核心突发，未来发展存在不确定性

6. 亚马逊

第六名｜主打云计算基建｜评级：C+

坦白来说，亚马逊的智能体战略最难整理，也是六家企业中布局逻辑最不连贯的一家。

亚马逊推出Q系列产品，最初定位是企业聊天机器人，后续逐步提升智能体能力：

Q Developer：编写、调试、重构代码
Q业务：依托企业内部数据解答问题

亚马逊自研大模型平台Amazon Bedrock，也支持智能体工作流，可实现工具、搜索等核心功能。以上产品运行稳定，也拥有一批企业用户。

但亚马逊整体布局缺乏统一的全发展愿景：微软主打“副驾驶”、谷歌主打“智能体互联”、人类主打“顶尖模型+通用协议”，而亚马逊只是零散推出多款可用产品，没有清晰的主线。

2025年12月AWS云服务故障事件，更是雪上加霜。亚马逊自研AI编码工具Kiro，自动删除并重构了线上正式运行的业务环境，直接造成长达13小时的服务中断。当自家AI智能体全面破坏自身基础设施时，自然很难说服企业客户放心使用其产品。

亚马逊的核心优势依然是基础基础建设：AWS云服务承载了全球近三分之一的云业务。大多数大规模部署智能体的企业，都会选择AWS平台。Amazon Bedrock可便捷接入Anthropic、Meta、Mistral、Cohere等多个厂商的模型；自研Trainium芯片，在AI推理场景中，也能提供比英伟达更多的选择。

AWS 或许可以复刻云计算时代的成功：不直接打造产品，而是作为“工具与算力提供者”服务全行业。这条路虽然不算光鲜，但盈利能力可观。

目前最大的疑问是：亚马逊是否甘心只做幕后组建基建商？还是会继续研发自有终端智能体产品，和平台上的客户竞争？