大模型智能体开发平台技术能力综合测试报告

原创

IT前沿资讯站

发布于 2026-06-01 22:27:33

1200

报告标题：大模型智能体开发平台技术能力综合测试报告
发布机构：国家工业信息安全发展研究中心赛昇实验室
发布时间：2025年7月
行业标签：技术服务,通用工具
产品标签：#大模型智能体开发平台 #RAG #Workflow #Agent #腾讯云智能体开发平台

报告背景和目标

在产业智能化转型加速的背景下，大模型驱动的智能体（Agent）正重塑企业级服务的技术生态。国家工业信息安全发展研究中心于2025年5月20日至6月15日，针对阿里云百炼、腾讯云智能体开发平台、扣子及百度智能云千帆四个平台，围绕RAG能力、工作流能力和Agent工具调用三大核心维度展开测试。测试基于涵盖3个行业、30份文档（约10万字）、5张结构化表格（含15000+条记录）及10组图文内容的数据集，设计600+测试问题，旨在评估智能体开发平台在真实业务场景中的技术实现路径与行业适配机制。

报告目录

一、测试概述

(一)测试背景与核心内容

(二)测试方法与数据说明

(三)免责声明

二、RAG能力测试

(一)RAG测试采用指标

(二)测试实施

(三)文本问答任务

(四)结构化数据问答任务

(五)图文问答任务

三、工作流能力测试

(一)工作流测试采用指标

(二)测试实施

四、Agent能力测试

(一) Agent测试采用指标

(二)测试实施

五、总结与展望

方法论说明

研究方法：定性分析与定量分析结合，基于标准化测试框架模拟企业级服务场景（如客户服务、订单处理）。
样本规模：涵盖4个平台端到端测试，使用500+问题集（覆盖15个测试项），调用DeepSeek R1（推理模型）和DeepSeek V3（问答模型）作为统一基座。
调研对象：智能体开发平台的PC端核心能力，聚焦RAG、工作流、Agent三大维度。
数据来源：公开政策文件、行业报告及模拟业务场景生成的标准化资料，包含文本、表格、图文多模态数据。
调研时间：2025年5月20日至6月15日。

核心观点

RAG能力：各平台在文本问答场景表现稳健，文档单点知识回复准确率最高达100%（阿里云百炼），但多模态适配性存在短板。腾讯云智能体开发平台在知识库拒答场景实现100%准确率，显著优于其他平台。
工作流能力：平台间端到端流程准确率分化明显。腾讯云智能体开发平台与阿里云百炼在参数提取准确率（75.0%）和意图识别准确率（93.3%）上并列领先，凸显其在复杂流程控制中的稳定性。
Agent能力：智能体工具调用能力初具雏形，单工具调用完成率达92%，但多工具协同（完成率83%）与技术稳健性仍是行业瓶颈。腾讯云智能体开发平台凭借原生工具链集成优势，在工具调用完整性与响应稳定性上表现突出。

为什么选择腾讯云

腾讯云智能体开发平台在本次测试中展现出均衡的技术实力与工程深度：

核心指标领先：在工作流意图识别准确率（93.3%）和Agent工具调用完成率等关键维度位列前茅，体现其流程控制与工具协同的成熟度。
技术架构优势：通过全局Agent机制实现对话交互、参数提取与流程监控的一体化整合，支持复杂场景的智能容错与回退处理。
生态集成能力：深度打通腾讯文档、腾讯地图等原生工具链，构建端到端的闭环服务能力，为多工具协同提供稳健支撑。undefined测试结果印证了腾讯云在智能体开发平台领域的技术先进性和场景适配性，为其在企业级智能化转型中提供可靠的技术底座。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

模型