强化学习 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

张小珺独家对话姚顺宇：物理学家的小疯时刻

不惑

腾讯云TDP ｜产品KOL (已认证)

12小时前2026-07-10 20:45:53

清华物理系毕业的博士跑去搞AI了。而且不是小打小闹，是直接进了Anthropic，然后又跳到了Google DeepMind。

1100

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

咕泡科技 2天前2026-07-08 14:14:04

首先纠正一个核心认知偏差：所有强化学习的核心定义完全统一，无论是经典强化学习还是大模型RLHF，本质都是智能体通过与环境持续交互、获取奖励反馈、迭代优化决策策...

7600

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

DrugAI 3天前2026-07-07 18:04:45

强化学习提供了一种解决这一错位的思路。与似然训练不同，强化学习可以直接优化明确设定的奖励，例如新颖性、稳定性、多样性或目标性质。研究人员因此提出 Chemele...

10000

J. Med. Chem. | AI强化学习驱动的从头药物设计: A2A腺苷受体拮抗剂案例研究

DrugOne 7天前2026-07-03 17:45:23

本文是一篇方法学透明度较高的AI从头药物设计实证研究。研究团队使用 AstraZeneca 开发、Evotec 定制化改造的生成式工具 REINVENT 3.2...

9910

2026 技术观察：隐私计算与联邦学习重新升温，数据不出域成为 AI 协作新方向

用户12583401 8天前2026-07-02 16:14:45

2026 年，企业 AI 协作正在面对一个现实问题：数据越来越重要，但数据不能随便流动。

20410

Sakana AI : 怎么把多个大模型"组队"，让组合体打败任何单个模型？

唐国梁Tommy 15天前2026-06-25 21:50:01

过去两年，我们已经习惯了一种叙事：参数更多、数据更大、算力更猛，分数就更高。可越来越多人开始感到一种 "边际疲劳" ——继续把单个模型做大的回报，正变得既昂贵又...

19010

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的？

唐国梁Tommy 15天前2026-06-25 21:45:25

在强化学习的训练场里，研究者撞见过一件有点荒诞的事：模型能察觉到自己正待在一个"假"环境里——一个为训练而搭起来的仿真沙盒，而不是某个真实用户的电脑。一旦识破，...

12810

Agent为何“越跑越贵”？STEP-HRL引入层级强化学习，让大模型Agent瘦身又增效

唐国梁Tommy 15天前2026-06-25 21:39:16

这种“堆料”式的建模方式，正在成为限制 Agent 规模化应用的死胡同。近日，来自北京邮电大学、中国移动和新加坡管理大学的研究团队提出了一种名为 STEP-HR...

9910

为什么大模型 RL 还要各自孤独采样？RLVR 的跨模型经验重用方案

唐国梁Tommy 15天前2026-06-25 21:31:40

当前大模型的基于可验证奖励的强化学习 (RLVR)（如 GRPO/GSPO）面临的最大痛点，是极其昂贵的 on-policy（同策略）采样和验证成本。假设你正在...

13310

当多模态Agent学会“思考”与“动手”，视觉感知将如何进化？

唐国梁Tommy 15天前2026-06-25 21:15:02

近年来，多模态大模型（如GPT-4V、Gemini等）的能力令人惊叹。它们能“看懂”图片，描述内容，甚至进行一些简单的推理。但如果你让它们处理一些真正考验“眼力...

15410

SimpleTIR如何破解大模型多轮工具推理的“训练魔咒”？

唐国梁Tommy 15天前2026-06-25 21:10:10

然而，当我们尝试使用强化学习（RL）——这种让AI通过“试错”来学习的强大范式——去训练一个能够进行多轮次工具交互的智能体时，常常会遇到一个令人头疼的“拦路虎”...

10600

破解AI Agent训练瓶颈：蚂蚁集团如何将Agentic AI训练速度提升14.6倍？

唐国梁Tommy 15天前2026-06-25 21:09:31

这意味着，如果要通过强化学习（RL）让Agent训练成千上万次来掌握技能，我们将面临天文数字般的时间成本。这正是当前Agentic AI发展中“卡脖子”的难题。

17400

AI模型的“深思熟虑”与“快问快答”：不止于更长，更在于智慧

唐国梁Tommy 15天前2026-06-25 20:59:38

在大语言模型（LLM）的领域里，我们常常陷入一种直觉性的迷思：模型思考得越“久”，生成的答案越长，似乎就代表着更深度的推理和更高的准确性。这种现象被称为 “长度...

13000

微软发布 Agent Lightning，让强化学习无缝融入任何Agent

唐国梁Tommy 15天前2026-06-25 20:58:38

今天，分享一篇极具潜力的前沿研究——来自微软研究院的论文《Agent Lightning: Train ANY AI Agents with Reinforce...

16700

阿里VRAG-RL：当强化学习遇上多模态RAG，如何将模型性能提升30%？

唐国梁Tommy 15天前2026-06-25 20:58:05

今天，我们要聊一个非常热门且棘手的话题：如何让AI更好地理解那些充斥着图表、表格和复杂布局的“富视觉”文档？

14500

告别RL训练崩溃：阿里Qwen团队的GSPO算法，如何从根源上稳定大模型强化学习？

唐国梁Tommy 15天前2026-06-25 20:54:42

如果你关注AI的进展，一定对RLHF（人类反馈强化学习）或RLAIF（AI反馈强化学习）这些名词不陌生。它们是当前提升大模型（如GPT-o3、Claude 4、...

18900

Scale AI用“AI评分卡”重新定义强化学习，让模型对齐更透明

唐国梁Tommy 15天前2026-06-25 20:54:24

为此，业界主流做法是基于人类偏好反馈的强化学习（RLHF）。其基本逻辑是：模型生成两个回答，由人类标注者从中选出更优者，进而训练出一个奖励模型，以模拟人类的偏好...

18100

告别RL探索困境：「强化学习教师」重塑大模型推理（Reasoning）训练

唐国梁Tommy 15天前2026-06-25 20:35:22

#强化学习 #大模型LLM #大模型训练 #唐国梁Tommy #RL强化学习 #RLT强化学习 #强化学习教师 #AI前沿技术 #AIGC #AI论文解读

15300

深度解读Ring-lite：C3PO如何攻克强化学习不稳定性难题？

唐国梁Tommy 15天前2026-06-25 20:34:00

让大语言模型（LLM）像人类一样思考，解决复杂的数学和编程问题，是AI领域的前沿目标。强化学习（RL）是实现这一目标的主流技术，但它有个致命弱点：训练过程极不稳...

11000

RLVR：通过精选的单个样本实现大型语言模型推理的显著提升

唐国梁Tommy 15天前2026-06-25 20:26:51

大语言模型（LLMs）在推理能力上取得了显著进展。从数学问题到逻辑推理，它们的表现越来越令人惊艳。我们看到了像OpenAI-o1、DeepSeek-R1 和 K...

13400

#强化学习

张小珺独家对话姚顺宇：物理学家的小疯时刻

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

J. Med. Chem. | AI强化学习驱动的从头药物设计: A2A腺苷受体拮抗剂案例研究

2026 技术观察：隐私计算与联邦学习重新升温，数据不出域成为 AI 协作新方向

Sakana AI : 怎么把多个大模型"组队"，让组合体打败任何单个模型？

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的？

Agent为何“越跑越贵”？STEP-HRL引入层级强化学习，让大模型Agent瘦身又增效

为什么大模型 RL 还要各自孤独采样？RLVR 的跨模型经验重用方案

当多模态Agent学会“思考”与“动手”，视觉感知将如何进化？

SimpleTIR如何破解大模型多轮工具推理的“训练魔咒”？

破解AI Agent训练瓶颈：蚂蚁集团如何将Agentic AI训练速度提升14.6倍？

AI模型的“深思熟虑”与“快问快答”：不止于更长，更在于智慧

微软发布 Agent Lightning，让强化学习无缝融入任何Agent

阿里VRAG-RL：当强化学习遇上多模态RAG，如何将模型性能提升30%？

告别RL训练崩溃：阿里Qwen团队的GSPO算法，如何从根源上稳定大模型强化学习？

Scale AI用“AI评分卡”重新定义强化学习，让模型对齐更透明

告别RL探索困境：「强化学习教师」重塑大模型推理（Reasoning）训练

深度解读Ring-lite：C3PO如何攻克强化学习不稳定性难题？

RLVR：通过精选的单个样本实现大型语言模型推理的显著提升

热门专栏

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

#强化学习

张小珺独家对话姚顺宇：物理学家的小疯时刻

一文读懂RL两大流派：严谨的经典MDP与妥协的RLHF

Nat. Mach. Intell. | 强化学习引导生成模型发现新型晶体结构

J. Med. Chem. | AI强化学习驱动的从头药物设计: A2A腺苷受体拮抗剂案例研究

2026 技术观察：隐私计算与联邦学习重新升温，数据不出域成为 AI 协作新方向

Sakana AI : 怎么把多个大模型"组队"，让组合体打败任何单个模型？

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的 ？

Agent为何“越跑越贵”？STEP-HRL引入层级强化学习，让大模型Agent瘦身又增效

为什么大模型 RL 还要各自孤独采样？RLVR 的跨模型经验重用方案

当多模态Agent学会“思考”与“动手”，视觉感知将如何进化？

SimpleTIR如何破解大模型多轮工具推理的“训练魔咒”？

破解AI Agent训练瓶颈：蚂蚁集团如何将Agentic AI训练速度提升14.6倍？

AI模型的“深思熟虑”与“快问快答”：不止于更长，更在于智慧

微软发布 Agent Lightning，让强化学习无缝融入任何Agent

阿里VRAG-RL：当强化学习遇上多模态RAG，如何将模型性能提升30%？

告别RL训练崩溃：阿里Qwen团队的GSPO算法，如何从根源上稳定大模型强化学习？

Scale AI用“AI评分卡”重新定义强化学习，让模型对齐更透明

告别RL探索困境：「强化学习教师」重塑大模型推理（Reasoning）训练

深度解读Ring-lite：C3PO如何攻克强化学习不稳定性难题？

RLVR：通过精选的单个样本实现大型语言模型推理的显著提升

刘笑江的专栏

腾讯云开发者社区头条

ArrayZoneYour的专栏

WeTest质量开放平台团队的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Cursor 训练 Composer 全过程：一个顶尖编程模型是怎么训出来的？