首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

某机构AI实验室聚焦智能体技术

用户11764306

今天,我们兴奋地宣布成立某机构AGI旧金山实验室,这是一个位于旧金山的全新专职团队。该实验室的初步重点是开发新的基础能力,以构建能够在数字和物理世界中采取行动的...

9810

逆强化学习(IRL:模仿学习)的原理和步骤

索旭东

IRL = 外层迭代反推 reward + 内层跑 RL 求状态分布,核心是"专家做对了的事 reward 高,做错了 reward 低",但内外双层循环导致...

9110

RLHF基于人类反馈的强化学习概述

索旭东

RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),它通过人类手把手教的方式,用强化学习来...

26910

医院机器人仿真与AI训练技术蓝图

用户11764306

作者:Mingxin Zheng, Nic Ma and Mostafa Toloui

11200

大模型推理强化学习算法解析:GRPO(Group Relative Policy Optimization)2026终极指南

jack.yang

当我们站在2026年5月的时间节点回望,人工智能领域在过去两年间经历了堪称地质运动般的剧变。如果说2024年是推理模型(Reasoning Model)的“寒武...

46520

强化学习的主流方法概述

索旭东

如果把深度学习看作是赋予机器“观察和理解”世界的能力,那么强化学习就是教会它如何在世界中“做出正确行动”。简单来说,强化学习是一种 通过与环境不断互动和试错,来...

16410

视觉生成中交织文本推理的新路径

梯度不陡

强化学习路径引入TWIG-GRPO策略,对推理全过程进行联合优化,并配合多奖励模型集成,在颜色准确性和空间布局等复杂任务上取得最大突破。实验证实全组件联合强化优...

13010

网络的动态处理 Dynamic Treatment on Networks

CreateAMind

在网络环境中,有效的动态干预分配不仅需决定对谁干预(whom),还需决定何时干预(when),以通过网络溢出效应放大政策影响。早期对高连接度节点的干预可能触发传...

12210

用合成数据与强化学习训练命令行AI代理

用户11764306

我们将结合合成数据生成(SDG)和基于可验证奖励的强化学习(RLVR),并通过群组相对策略优化(GRPO)进行优化,使训练既高效又安全。

14510

结构化策略初始化加速大规模离散动作空间离线强化学习

CreateAMind

IMPROVING AND ACCELERATING OFFLINE RL INLARGE DISCRETE ACTION SPACES WITH STRUCT...

15510

用Agentic AI修复无法替换的遗留系统

用户11764306

某机构AGI实验室的研究人员主动寻找这种摩擦。为了安全且可重复地展现故障模式,该机构在强化学习环境中训练代理——这些合成环境旨在重现嵌入真实工作流中的怪癖、延迟...

13210

AI驱动的抗结核抑制剂发现:MenT3毒素抑制剂的计算筛选研究

DrugIntel

REINVENT4是一个基于Python3开发的开源生成式AI框架,核心采用循环神经网络(RNN) 结合**强化学习(RL)**驱动分子生成。其预训练模型在Ch...

28810

Sci. Adv.|强化学习引导的半柔性分子扩散模型用于基于结构的分子设计

DrugAI

基于结构药物设计(Structure-Based Drug Design, SBDD)正在快速进入生成式人工智能时代。近年来,扩散模型、等变图神经网络等方法的发...

17310

DeepSeek推理扩展技术SPCT详解

用户11764306

某机构助理教授在一次播客中将大语言模型与强化学习的关系比作“乘法关系”。虽然强化学习擅长决策,但它本身缺乏理解。理解的构建依赖于预训练模型,在此基础上强化学习可...

16610

FP8端到端精度强化学习训练技术

用户11764306

随着大语言模型从简单文本生成向复杂推理过渡,强化学习(RL)发挥着核心作用。像分组相对策略优化(GRPO)这样的算法推动了这一转变,使推理级模型能够通过迭代反馈...

15410

定制Nova模型提升药物发现分子特性预测

用户11764306

一个经过优化的单一LLM统一了之前需要多个模型才能完成的任务,并可作为医学化学家的推理伙伴。

7700

从Claude Code开盒第一人聊聊交易的残酷

子晓聊技术

事情的起因颇具戏剧性。2026年3月31日,Anthropic公司引以为傲的核心产品Claude Code,其源码竟被一位华人安全研究员公之于众,足足51.2万...

13410
领券