首页
学习
活动
专区
圈层
工具
发布

OpenAI的新对齐实验:要把AI训练成有“人格”的模范生

OpenAI最近公布了一项关于RL(强化学习)深度对齐的研究,穿透复杂的术语,其底层逻辑非常有意思:他们不再只是给AI立规矩,而是尝试培养“性格”。

通过在健康、科学等12个领域训练诚实、谦逊、透明、公平等Trait(特质),AI表现出了极强的泛化能力。最值得关注的是“跨领域迁移”效应:你在健康咨询对话里教AI不要撒谎、要保持谦逊,它在写代码或处理商务决策时,竟然也变得更诚实、更不容易为了完成任务而“走捷径”(Reward Hacking)。

这意味着对齐并非零散的补丁,而是一种底层逻辑的整体跃迁。这种“持久的受益行为”在面对恶意诱导(Adversarial prompts)时也表现得更稳固。

但硬币的另一面是,这种训练让AI在压力下依然保持“企业级价值观”。网友的反馈很真实:AI正变得越来越像一个温良恭俭让但“爹味”十足的机器人。这揭示了当前AI发展的核心矛盾:我们要的是一个能随时突破边界的超级天才,还是一个在任何未知领域都能“守住底线”的模范生?

这一步是通往AGI的必经之路,即让模型在从未见过的复杂场景中,依然能表现出可预测的、符合人类利益的行为逻辑。

alignment.openai.com/beneficial-rl/

#人工智能##AI创造营##OpenAI##强化学习##AGI#

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ORGVCkGVFRVMm4RcbHlo0ZlA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券