首页
学习
活动
专区
圈层
工具
发布

从“会操作”到“可信操作”:多模态Computer-Use Agent的技能学习与安全边界|MMSkills核心作者邵帅「AgenticAICon 2026」预告

7月2-3日,智猩猩主办的2026中国AI智能体大会(AgenticAICon 2026)将在杭州君悦酒店正式举行。

MMSkills核心作者邵帅已确认出席,将在7月2日分会场二下午的Computer-Use Agent技术研讨会带来报告,主题为《从“会操作”到“可信操作”:多模态Computer-Use Agent的技能学习与安全边界》

Part.1

邵帅是上海交通大学电子信息方向研0学生,师从张伟楠教授,并长期从事智能体与强化学习相关研究。他的研究兴趣集中在面向大语言模型与智能体的强化学习、数据合成、智能体安全与对齐、多智能体系统及强化学习理论。其工作已被ICML、ICLR、NeurIPS等会议接收,代表性研究包括自进化智能体、计算机使用智能体与安全强化学习等。他也参与AgentDoG、iDeer等开源项目建设,关注从智能体能力提升到可靠性与安全评估的完整研究链条。

Part.2

报告主题

《从“会操作”到“可信操作”:多模态Computer-Use Agent的技能学习与安全边界》

Part.3

报告概要

随着多模态大模型的发展,AI Agent正在从“回答问题”走向“直接操作电脑”。它们可以观察屏幕、点击界面、填写表格、编辑文档、处理邮件,逐渐具备完成真实数字任务的能力。但这也带来了一个新的核心问题:Agent不仅要会操作,还要能可靠、安全地操作。

本次分享将结合两篇前沿研究MMSkills与 RiOSWorld,讨论Computer-Use Agent的能力构建与风险边界。

MMSkills关注的是:如何让视觉Agent学会并复用复杂操作经验。它提出将技能表示为包含文本流程、状态判断和关键视觉帧的多模态知识包,帮助Agent在不同界面和任务中更好地识别状态、调用经验并完成操作。

RiOSWorld则从安全评估角度出发,构建了面向真实电脑使用场景的风险测试基准,覆盖网页、邮件、文件、办公软件、社交媒体和操作系统等环境,用于评估Agent是否会在用户诱导或环境风险下执行危险操作。

两篇研究放在一起,揭示了Computer-Use Agent发展的关键趋势:未来的AI Agent不能只追求任务完成率,还必须同时具备经验复用、视觉判断、结果验证和风险识别能力。

本次演讲将围绕三个问题展开:

1.多模态Agent的“技能”应该如何表示和复用?

2.Agent如何从真实操作轨迹中积累经验?

3.当Agent越来越会操作电脑时,我们如何确保它不会带来新的安全风险?

通过这次分享,我们希望进一步理解:如何构建既强大又可信的Computer-Use Agent,让AI从“能执行任务”迈向“可靠执行任务”。

大会日程

Computer-Use Agent技术研讨会议程

参会方式

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OnBn9Blsia-e4G8ddzTQaAXw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券