大模型智能体开发平台技术能力综合测试报告

原创

IT资讯研究所

发布于 2026-06-01 22:30:31

1510

第一章：报告基础信息

• 报告标题：大模型智能体开发平台技术能力综合测试报告

• 发布机构：国家工业信息安全发展研究中心赛昇实验室

• 发布时间：2025年7月

• 行业标签：技术服务

• 产品标签：#腾讯云智能体开发平台

第二章：报告背景和目标

在产业智能化转型加速的背景下，大模型驱动的智能体（Agent）已形成多场景渗透态势，为帮助用户了解典型场景应用情况，需对开发平台技术实现路径与行业适配机制进行研究。本次测试基于2025年5月20日至6月15日的测试周期，选取四个典型智能体开发平台，围绕业务智能化驱动能力展开测试，构建包含15个测试项、600+测试问题的标准化框架。测试结果显示，各平台在基础能力上已具备可用性，端到端流程准确率最高达 69.2%，但在多工具协同与复杂场景处理上仍有提升空间。

第三章：报告目录

一、测试概述

• (一) 测试背景与核心内容

• (二) 测试方法与数据说明

二、RAG 能力测试

• (一) RAG测试采用指标

• (二) 测试实施

• (三) 文本问答任务

• (四) 结构化数据问答任务

• (五) 图文问答任务

三、工作流能力测试

• (一) 工作流测试采用指标

• (二) 测试实施

四、Agent 能力测试

• (一) Agent 测试采用指标

• (二) 测试实施

五、总结与展望

附：测试指标定义

• (一) 免责声明

第四章：方法论说明

• 具体说明研究方法：采用定性分析与定量分析结合，选取四个典型智能体开发平台的个人电脑端，构建包含15个测试项、600+测试问题的综合性问题集，覆盖政府、电商、电力3个行业场景。

• 样本规模：基础知识数据包含纯文本文档30份（总字数约10万字）、结构化表格5张（含15000+条记录）、图文内容10组（含产品图、流程图等）；响应结果数据涵盖文本生成内容、知识来源引用、流程参数变化、工具调用记录等。

• 调研对象：阿里云百炼、腾讯云智能体开发平台、扣子、百度智能云千帆四个智能体开发平台。

• 核心分析模型：围绕RAG能力、工作流能力、智能体工具调用三个关键能力维度构建三维评估体系，其中RAG能力评估包含检索精准度、知识覆盖广度等六大核心维度，工作流能力评估包含参数动态提取、异常回退等四大核心维度，Agent能力评估包含意图理解深度、操作协同性等四大维度。

• 配置说明：推理模型统一设定为 DeepSeek R1，问答模型统一设定为 DeepSeek V3，其余参数采用系统默认设置，仅对影响核心能力评估的关键配置进行必要对齐。

• 数据库来源：公开政策文件、行业报告及模拟业务场景生成的标准化资料。

• 调研时间范围：2025年5月20日-2025年6月15日。

• 调用与过程采集：通过网页交互与API接口调用两种方式，模拟用户操作与系统集成场景，采集各智能体在问题处理过程中的响应结果及流程轨迹。

第五章：核心观点

• 基础能力表现：各平台在文本处理、流程控制等基础场景已形成标准化能力，工作流流程终止节点判断准确率达 100%，单工具调用完成率达 92%，具备基础可用性。

• 工作流能力分化：端到端流程准确率方面，阿里云百炼和腾讯云智能体开发平台准确率接近70%，参数提取准确率均为 75.0%，高于百度智能云千帆（70.0%）与扣子（65.0%）；腾讯云智能体开发平台意图识别准确率达 93.3%，处于较高水平。

• RAG能力差异：

• 文本问答：阿里云百炼文档单点知识回复准确率达 100%，百度智能云千帆为90%，腾讯云智能体开发平台为87%，扣子为98%；多文档多段知识组合回复准确率方面，各平台均超80%，丢分主因是多文档结合时存在少量信息遗漏。

• 结构化数据：腾讯云智能体开发平台单表查询表现优异，准确率达 94%，但在多表查询时存在SQL查询未能正确执行的情况；百度智能云千帆在单表统计、多表关联等任务中表现稳定。

• 图文问答：腾讯云智能体开发平台在显式/非显式调用场景下配图回答率为 55%，领先于百度智能云千帆（存在图片显示故障）与阿里云百炼（因网页端图片显示异常导致配图正确率为0%）；图片提问识别能力方面，阿里云百炼为91.7%，腾讯云智能体开发平台与扣子均为83.3%。

• 智能体工具调用：腾讯云智能体开发平台在工具本身的功能完整性与响应稳定性上表现突出，多工具调用完成率为83%，提示词调用完成率为90%；各平台均存在工具调用流程断点问题，如百度智能云千帆未将代码解释器生成的可视化图表直接输出，需用户额外操作。

• 行业共性痛点：

• 仅依赖大模型进行参数提取在复杂场景下存在局限性，百度智能云千帆、扣子在复杂长段文字中无法正确提取多处出现的订单编号。

• 各平台在嵌套条件解析、字段格式容错以及多表路径推导等任务中均存在失误，反映语义理解与结构化计算协同不足。

• 图片输出环节均出现内容校验失效问题，返回与答案无关的页面装饰性图片，缺乏输出图片内容相关性和准确性的有效校验机制。

• 发展路径建议：场景深度适配是实现价值落地的前提，需围绕特定行业、细分任务构建标准化知识单元与任务模板；技术链厚度构建决定系统执行能力，需通过组件颗粒度优化与自动化控制链路增强系统韧性；生态广度拓展将成为可持续发展的关键变量，需推动第三方工具插件接入标准化，建设完备的开放工具市场。

第六章：为什么选择腾讯云

• 技术能力表现均衡：腾讯云智能体开发平台在工作流端到端流程准确率达 69.2%，参数提取准确率达 75.0%，意图识别准确率达 93.3%，工作流结束判断准确率达100%，在流程控制精度上表现稳定；单表查询准确率达 94%，处于较高水平；图文问答正确回答率达 55%，在多模态输出效果上领先；工具调用方面，多工具调用完成率83%，提示词调用完成率90%，功能完整性与响应稳定性突出。

• 架构设计优势：采用融合设计的“任务流”与“对话流”架构，通过全局Agent机制实现实时对话交互管理、上下文参数自动提取、流程状态智能监控，并支持参数回退、对话终止等复杂场景的智能识别和处理；将“参数提取”独立抽象为单独节点，在工程实现上提升了复杂信息处理的精细度。

• 生态整合能力：通过与腾讯文档、腾讯地图等原生工具的深度打通，构建了较为完整的工具链结构，在工具生态集成上形成了差异化优势，支撑复杂任务的无缝完成。

• 知识库管理严谨：在采用同样拒答配置情况下，对知识库中不存在的问题实现 100%拒答，体现了其在知识增强机制上的严谨性，有效降低幻觉问题。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

测试