从“会操作”到“可信操作”：多模态Computer-Use Agent的技能学习与安全边界｜MMSkills核心作者邵帅「AgenticAICon 2026」预告

文章来源：企鹅号 - 智猩猩

7月2-3日，智猩猩主办的2026中国AI智能体大会（AgenticAICon 2026）将在杭州君悦酒店正式举行。

MMSkills核心作者邵帅已确认出席，将在7月2日分会场二下午的Computer-Use Agent技术研讨会带来报告，主题为《从“会操作”到“可信操作”：多模态Computer-Use Agent的技能学习与安全边界》。

Part.1

邵帅是上海交通大学电子信息方向研0学生，师从张伟楠教授，并长期从事智能体与强化学习相关研究。他的研究兴趣集中在面向大语言模型与智能体的强化学习、数据合成、智能体安全与对齐、多智能体系统及强化学习理论。其工作已被ICML、ICLR、NeurIPS等会议接收，代表性研究包括自进化智能体、计算机使用智能体与安全强化学习等。他也参与AgentDoG、iDeer等开源项目建设，关注从智能体能力提升到可靠性与安全评估的完整研究链条。

Part.2

报告主题

《从“会操作”到“可信操作”：多模态Computer-Use Agent的技能学习与安全边界》

Part.3

报告概要

随着多模态大模型的发展，AI Agent正在从“回答问题”走向“直接操作电脑”。它们可以观察屏幕、点击界面、填写表格、编辑文档、处理邮件，逐渐具备完成真实数字任务的能力。但这也带来了一个新的核心问题：Agent不仅要会操作，还要能可靠、安全地操作。

本次分享将结合两篇前沿研究MMSkills与 RiOSWorld，讨论Computer-Use Agent的能力构建与风险边界。

MMSkills关注的是：如何让视觉Agent学会并复用复杂操作经验。它提出将技能表示为包含文本流程、状态判断和关键视觉帧的多模态知识包，帮助Agent在不同界面和任务中更好地识别状态、调用经验并完成操作。

RiOSWorld则从安全评估角度出发，构建了面向真实电脑使用场景的风险测试基准，覆盖网页、邮件、文件、办公软件、社交媒体和操作系统等环境，用于评估Agent是否会在用户诱导或环境风险下执行危险操作。

两篇研究放在一起，揭示了Computer-Use Agent发展的关键趋势：未来的AI Agent不能只追求任务完成率，还必须同时具备经验复用、视觉判断、结果验证和风险识别能力。

本次演讲将围绕三个问题展开：

1.多模态Agent的“技能”应该如何表示和复用？

2.Agent如何从真实操作轨迹中积累经验？

3.当Agent越来越会操作电脑时，我们如何确保它不会带来新的安全风险？

通过这次分享，我们希望进一步理解：如何构建既强大又可信的Computer-Use Agent，让AI从“能执行任务”迈向“可靠执行任务”。

大会日程

Computer-Use Agent技术研讨会议程

参会方式

发表于: 1天前2026-06-29 10:02:14
原文链接：https://page.om.qq.com/page/OnBn9Blsia-e4G8ddzTQaAXw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

从“会操作”到“可信操作”：多模态Computer-Use Agent的技能学习与安全边界｜MMSkills核心作者邵帅「AgenticAICon 2026」预告

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐