7月2-3日,智猩猩主办的2026中国AI智能体大会(AgenticAICon 2026)将在杭州君悦酒店正式举行。
MMSkills核心作者邵帅已确认出席,将在7月2日分会场二下午的Computer-Use Agent技术研讨会带来报告,主题为《从“会操作”到“可信操作”:多模态Computer-Use Agent的技能学习与安全边界》。
Part.1
邵帅是上海交通大学电子信息方向研0学生,师从张伟楠教授,并长期从事智能体与强化学习相关研究。他的研究兴趣集中在面向大语言模型与智能体的强化学习、数据合成、智能体安全与对齐、多智能体系统及强化学习理论。其工作已被ICML、ICLR、NeurIPS等会议接收,代表性研究包括自进化智能体、计算机使用智能体与安全强化学习等。他也参与AgentDoG、iDeer等开源项目建设,关注从智能体能力提升到可靠性与安全评估的完整研究链条。
Part.2
报告主题
《从“会操作”到“可信操作”:多模态Computer-Use Agent的技能学习与安全边界》
Part.3
报告概要
随着多模态大模型的发展,AI Agent正在从“回答问题”走向“直接操作电脑”。它们可以观察屏幕、点击界面、填写表格、编辑文档、处理邮件,逐渐具备完成真实数字任务的能力。但这也带来了一个新的核心问题:Agent不仅要会操作,还要能可靠、安全地操作。
本次分享将结合两篇前沿研究MMSkills与 RiOSWorld,讨论Computer-Use Agent的能力构建与风险边界。
MMSkills关注的是:如何让视觉Agent学会并复用复杂操作经验。它提出将技能表示为包含文本流程、状态判断和关键视觉帧的多模态知识包,帮助Agent在不同界面和任务中更好地识别状态、调用经验并完成操作。
RiOSWorld则从安全评估角度出发,构建了面向真实电脑使用场景的风险测试基准,覆盖网页、邮件、文件、办公软件、社交媒体和操作系统等环境,用于评估Agent是否会在用户诱导或环境风险下执行危险操作。
两篇研究放在一起,揭示了Computer-Use Agent发展的关键趋势:未来的AI Agent不能只追求任务完成率,还必须同时具备经验复用、视觉判断、结果验证和风险识别能力。
本次演讲将围绕三个问题展开:
1.多模态Agent的“技能”应该如何表示和复用?
2.Agent如何从真实操作轨迹中积累经验?
3.当Agent越来越会操作电脑时,我们如何确保它不会带来新的安全风险?
通过这次分享,我们希望进一步理解:如何构建既强大又可信的Computer-Use Agent,让AI从“能执行任务”迈向“可靠执行任务”。
大会日程
Computer-Use Agent技术研讨会议程
参会方式