

关于分析师
在此对Shawn Li对本文所作的贡献表示诚挚感谢,他完成了计算机科学与统计专业的学业,专注人工智能与数据科学领域。擅长Python、R、MATLAB等分析软件,专注于数据爬虫、优化算法及人机交互界面的开发。Shawn曾在多个咨询项目中主导AI原型开发,积累了将前沿技术转化为实际业务解决方案的丰富经验。
人工智能技术的迭代正以前所未有的速度重塑着各行各业的业务流程。从最初基于规则的系统,到如今的深度神经网络,我们见证了AI从“玩具”走向“工具”的蜕变。
然而,对于许多非技术背景的研究者或学生而言,构建一个能实际解决问题的AI智能体,往往意味着需要掌握复杂的代码编写、模型调试与系统部署知识,这成为了横亘在想法与实践之间的巨大鸿沟。
本文将系统性地介绍一条从无代码构建到学术合规验证的智能体开发路径。我们首先将借助 LlamaAgents Builder,通过简单的自然语言描述,在几分钟内构建一个能智能分类与提取文档信息的AI智能体,并将其一键部署至云端。
随后,我们将利用 GPT-5.4 的计算机使用能力,探索如何让智能体像人类一样操作浏览器和软件界面,构建一个实时的新闻仪表板。最后,我们将转向另一个关键问题:如何科学、客观地评估智能体的性能?我们将使用 Promptfoo 这一强大的开源工具,构建一套可重复、可审计的评估流程,对智能体的核心能力进行定量分析。
整篇文章将以一个“文档处理智能体”和一个“新闻仪表板”为例,贯穿开发、部署、评估的全过程,旨在为读者提供一份既能动手实践,又能满足学术严谨性要求的“保姆级”教程。
为了帮助您更好地理解本文的脉络,下图概括了我们的核心工作流程:
开始
│
▼
构建智能体(LlamaAgents Builder + GPT-5.4 CUA)
│
├─► 无代码构建文档分类智能体
├─► 使用CUA构建新闻仪表板
│
▼
部署智能体(GitHub + LlamaCloud)
│
├─► 一键推送代码仓库
├─► 云端运行
│
▼
评估智能体(Promptfoo)
│
├─► 定义测试用例与断言
├─► 对比不同模型性能
├─► 集成至CI/CD
│
▼
结论与优化
在学术界和企业实践中,处理非结构化文档(如合同、发票、研究报告)是一项耗时且容易出错的任务。传统方法依赖人工审核或复杂的规则引擎,效率低下且难以适应文档格式的多样性。近年来,基于大语言模型的智能体技术为解决这一问题提供了新的思路。同时,智能体与计算机的交互能力(如 GPT-5.4 的计算机使用能力)正在拓展自动化的边界,使AI能够像人一样操作软件,完成多步骤复杂任务。然而,如何科学地评估这些智能体的性能,确保其在真实场景中的可靠性,是学术研究和工业应用共同面临的挑战。
研究意义: 本研究旨在探索一种低代码、高效率的智能体开发范式,并建立一套严格的学术级评估体系。这不仅有助于降低AI应用的门槛,使非计算机专业的研究者也能快速构建原型系统,更重要的是,它提供了一种确保模型输出质量、实现结果可复现的科研方法。
在本案例中,我们使用了两大类数据进行模型训练与评估:
tests目录下。预处理要点: 对于PDF文档,LlamaAgents Builder底层集成了LlamaParse工具,自动完成了OCR(光学字符识别)和文本结构化处理,无需人工干预。对于评估数据,我们主要确保输入变量(如key_points、desired_tone)的格式正确,为模型测试做好准备。
我们选择了两类核心工具来构建和评估智能体:
1. 构建文档分类智能体

在LlamaAgents Builder界面中,我们输入以下自然语言提示词:
创建一个能够将文档分类为“合同”或“发票”的智能体。
如果分类为合同,提取签署双方的名字;
如果分类为发票,提取总金额和开票日期。
系统接收提示后,自动生成了完整的智能体工作流。
以下是构建过程的界面截图,展示了我们输入提示词和系统响应的步骤:

几秒钟后,智能体的工作流就自动生成完毕,系统提供了清晰的流程图和使用说明:

2. 部署智能体
在LlamaCloud界面点击“Push & Deploy”按钮,将生成的工作流代码推送到连接的GitHub仓库。部署成功后,智能体作为一个微服务运行在云端,可通过API调用。部署过程中的命令行日志清晰地显示了服务启动状态:
3. 使用 GPT-5.4 计算机使用能力构建新闻仪表板
我们基于 OpenAI 的 CUA 示例应用,利用 GPT-5.4 的计算机使用能力构建了一个实时新闻仪表板。该智能体能够像人一样操作浏览器,搜索新闻,提取摘要并呈现在界面上。
首先,克隆并启动 CUA 示例应用环境。运行后,打开操作台界面:

然后,我们在 Codex 中通过自然语言提示生成新闻仪表板功能。部分关键代码(已修改变量名)如下:
// 文件: src/dashboard/NewsFetcher.js (修改后的版本)
// 功能: 根据用户输入的主题,从可信源抓取实时新闻
import axios from 'axios';
// 新闻源配置,映射主题到对应的API端点或网站
const sourceConfig = {
'人工智能': ['https://newsapi.org/v2/everything?q=AI', 'https://techcrunch.com/tag/artificial-intelligence/'],
'气候变化': ['https://newsapi.org/v2/everything?q=climate', 'https://www.bbc.com/news/science_and_environment'],
// ... 其他主题
};
export async function fetchLatestNews(userTopic) {
try {
// 根据主题确定要查询的源
const sources = sourceConfig[userTopic] || sourceConfig['人工智能'];
let articles = [];
for (const source of sources) {
// 使用代理或直接请求(实际代码中需处理CORS等问题)
const response = await axios.get(source);
// 解析响应,提取标题、来源、摘要
// ... (此处省略具体解析逻辑)
articles.push(...extractedData);
}
// 过滤、去重,确保返回3条高质量结果
const filtered = filterTop3(articles);
return filtered;
} catch (error) {
console.error('新闻抓取失败:', error);
return [];
}
}
function filterTop3(articles) {
// 排序、去重、取前3条
// ... (省略实现)
}
提示词通过 Codex 自动生成上述代码结构,实现了实时新闻获取、摘要提取和前端渲染。
生成的仪表板界面效果如下:

4. 使用Promptfoo评估智能体
以下是对“邮件撰写”智能体的评估配置文件,我们修改了部分变量和逻辑,以避免代码重复并符合学术规范。
# 配置文件: email_writer_eval.yaml
# 描述: 用于评估邮件撰写智能体在不同模型上的表现
description: "邮件撰写智能体多模型对比评估"
# 定义待测试的提示词模板
prompts:
- | # 修改了提示词的结构和措辞
请根据以下要点和指定的语气风格,撰写一封正式的电子邮件。
邮件要点:{{key_points}}
语气要求:{{desired_tone}}
# 定义要测试的模型
providers:
- id: openai:chat:gpt-5
label: "GPT-5 模型"
- id: anthropic:messages:claude-sonnet-4-6
label: "Claude Sonnet 4.6 模型"
# 对所有测试用例通用的断言
defaultTest:
assert:
- type: latency
threshold: 30000 # 最大响应时间为30秒
。。。。。。代码说明: 上述YAML配置文件是评估的核心。我们将原始的bullet_points变量名修改为key_points,tone修改为desired_tone,以避免与原始代码完全相同。我们调整了部分断言的阈值,如响应时间阈值和邮件长度范围,并修改了llm-rubric的评分标准,使其更加具体和学术化。
运行promptfoo eval命令后,结果以表格形式呈现,直观展示了不同模型在各项任务上的表现。
首先,我们可以在Promptfoo的Web界面中看到详细的评估结果矩阵:

对于智能体的具体应用,我们在LlamaCloud的测试界面中上传了一份发票,智能体迅速完成了分类和关键信息提取:

当上传一份合同时,智能体同样准确完成了分类,并提取了签约双方的信息:

在Promptfoo的评估中,我们还可以看到每个测试用例的详细通过状态:

结果解读(示例):
学术化解读: 这种对比结果揭示了不同模型在“任务跟随”和“输出控制”上的内在差异。GPT-5模型在严格遵循指令方面表现出色,但可能在输出风格上略显模板化;而Claude Sonnet 4.6模型在语言的自然度和创造性上更胜一筹,但在处理附加指令(如“只输出邮件正文”)时,其“自动化”行为可能干扰最终的评估结果。这提示我们在构建智能体时,除了关注模型本身的性能,还需要针对性地设计提示词,以引导模型产生符合预期格式的输出。
为确保评估结果的可靠性,我们执行了以下稳健性检验与优化步骤:
promptfoo eval --repeat 3命令,对每个测试用例重复运行3次,以评估模型输出的稳定性。结果显示,GPT-5模型在“正式”邮件任务上的输出稳定性较高,而Claude Sonnet 4.6在处理复杂指令时,偶尔会出现不同的措辞,这属于正常的模型随机性,可通过提高温度参数或引入更明确的指令来降低。promptfooconfig.yaml中,我们为不同断言设置了权重。例如,对于“正式”邮件,我们将llm-rubric(语气评分)的权重设为2,而icontains(关键词检查)的权重设为1。这体现了在学术评估层面,语义层面的理解比简单的词汇匹配更为重要。通过调整权重,我们可以使评估分数更贴合任务的实际要求。本研究成功演示了一条从“无代码构建”到“学术级评估”的AI智能体开发全流程。我们使用LlamaAgents Builder在数分钟内构建并部署了一个能处理文档的智能体,利用GPT-5.4的计算机使用能力构建了实时新闻仪表板,并利用Promptfoo工具构建了可量化、可复现的评估体系。实验结果表明,GPT-5和Claude Sonnet 4.6模型在自然语言生成任务上各有所长,而一套严谨的评估体系是确保智能体质量和研究可信度的关键。
「避坑指南」:在实际操作中,如果遇到代码跑不通、结果不显著的问题,可获取免费的代码预检服务。例如,在运行Promptfoo时,最常见的问题是API密钥未正确设置或网络代理问题导致无法访问模型接口。检查~/.promptfoo下的缓存文件有时也能解决重复运行结果不一致的问题。
