搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏福大大架构师每日一题
突破性创新！无服务器强化微调技术问世，仅需少量数据即可实现性能提升，效率高达DeepSeek和o1的三倍以上。
开源地址：https://huggingface.co/predibase/Predibase-T2T-32B-RFT 在技术优势方面，RFT平台摒弃了对大量标注数据的依赖，而传统方法则需依托海量的标注数据来引导模型学习 RFT创新性地采用奖励函数来指导模型学习，这种方法无需依赖大量标注数据，奖励函数能够根据任务的具体需求来评估模型输出，从而精准地引导模型的优化方向。 RFT展现出更强的适应性和灵活性。相比之下，RFT赋予用户根据任务特性自定义奖励函数的能力，使用户能够灵活地设定模型的优化目标。这种灵活性使得RFT能够更好地适应多样化的任务需求，提升模型的实用性和效率。 RFT展现了其持续进化的能力。与传统方法往往局限于一次性训练不同，RFT支持模型的持续优化。此外，RFT通过采用多LoRA框架和流式微批处理技术，进一步提升了训练和推理的效率。 RFT平台还具备处理复杂任务的课程学习能力。
20810编辑于 2025-03-21
来自专栏智算中心网络
从盲调到可视：RDMA运维进入会话追踪时代
核心组成：RFT + RPT 双模块协同RFT（RDMA Flow Table）：以容器形式部署于每台交换机，负责捕获CM报文、解析会话状态、维护流表，并通过4791端口对外提供数据。部署与使用：一键可视，开箱即用用户可通过EasyRoCE-AID自动获取交换机信息，分别安装 RST 下的子模块（RFT和FPT）后，即可在Grafana面板中：查看所有交换机的RFT状态并控制启停；RST 工具首页可看到当前组网内的所有业务交换机的列表和功能指示开关，直观查看和修改交换机上 RFT 容器的启用和停止状态。当全网设备都开启 RFT 功能，点击 RST 工具首页左上角的流量路径按钮，即可进入 RDMA 流量路径表信息页，由此看到全网的 RMDA 通信会话的转发路径。
18010编辑于 2026-02-13
来自专栏小七的各种胡思乱想
解密prompt系列42. LLM通往动态复杂思维链之路
RFT会使用SFT后的模型，针对每个问题随机采样100条推理路径，筛选所有答案正确的推理路径，并使用编辑距离对不同的推理路径进行消重，只保留差异化的正确推理路径。 RFT这种使用模型自我合成数据再微调基座的方案，在后面Google Deepmind的论文中也进一步论证了它的有效性要超过使用更强大的模型直接合成数据的效果。具体到数据使用效率，相同的Test Error下，使用RFT策略训练的效果相当于使用2倍的合成数据进行SFT这个结论会有一些反直觉，因为之前很多优化小模型的思路都是去蒸馏GPT4的回答。论文使用RFT生成的样本，相比SFT样本，在基座模型上有更高的log likelihood来论证之所以使用RFT的样本微调效果更好，就是因为RFT样本是基座模型自我合成的，因此和基座模型本身的推理分布更加接近但不论是SFT还是RFT，论文提出都需要关注正确样本中错误的推理链路，因为样本过滤只使用了答案，并未对中间推理链路的正确性进行校验，而这些错误的步骤，会导致模型学到一些混淆的因果关系。
94442编辑于 2024-11-07
来自专栏自然语言处理
推理大模型的后训练增强技术-Reasoning模型也进化到2.0了，这次居然学会用工具了
如上图所示START模型的训练框架，它的训练分为两个阶段：Hint-RFT 和 RFT。 2️⃣ Hint-RFT（基于提示的拒绝采样微调）：在上一步的基础上，模型生成的推理过程会经过一轮筛选，去掉低质量、重复的内容，并进行一些修改，形成一个高质量的种子数据集 D_seed。 3️⃣ RFT（拒绝采样微调）： START-0 开始自我蒸馏，自己生成更多解题思路，构建一个更丰富的训练数据集 D_START（这个数据集不仅更有多样性，还强化了工具使用模式）。
43310编辑于 2025-03-18
来自专栏软件测试的那些事儿
常用功能自动化测试工具汇总
商业工具： 1、RFT Rational Functional Tester 的基础是针对于Java、.NET的对象技术和基于 Web 应用程序的录制、回放功能。 IBM RFT是一个用于功能和回归测试的数据驱动的测试平台。它支持大范围的应用，例如.Net、Java、SAP、Flex和Ajax。RFT使用Visual Basic。Net和Java作为脚本语言。 RFT有一个独特的功能，称为 Storyboard 测试，用户的动作被记录下来，并通过应用截图在 Storyboard 格式中可视化。 RFT的另一个有趣特性是它与IBM Jazz应用生命周期管理系统（如IBM Rational Team Concert和Rational Quality Manager）的集成。与传统的RFT和UFT相比，的确有过人之处，算是后起之秀吧。
2.4K80发布于 2020-02-28
来自专栏测试之道
常用软件自动化测试工具汇总
与传统的RFT和UFT相比，的确有过人之处，算是后起之秀吧。 2、RFT Rational Functional Tester 的基础是针对于java、.NET的对象技术和基于 Web 应用程序的录制、回放功能。 IBM RFT是一个用于功能和回归测试的数据驱动的测试平台。它支持大范围的应用，例如.Net、Java、SAP、Flex和Ajax。RFT使用Visual Basic。Net和Java作为脚本语言。 RFT有一个独特的功能，称为 Storyboard 测试，用户的动作被记录下来，并通过应用截图在 Storyboard 格式中可视化。 RFT的另一个有趣特性是它与IBM Jazz应用生命周期管理系统（如IBM Rational Team Concert和Rational Quality Manager）的集成。
1.3K10发布于 2021-03-04
来自专栏新智元
LeCun八年前神预言，大模型路线再颠覆？OpenAI宣告：强化学习取得稳定性突破
在OpenAI的第二天直播中，宣布即将开放「强化微调」（RFT）的API，开发者只需提供最低「几十个」高质量样本，就能实现领域专家模型的定制，还能根据提供的参考答案对模型的回复进行评分，再次印证了强化学习的重要性强化微调的重点是「匹配答案」（matching answer），给定查询和正确答案，RFT可以帮助模型「学习」如何获得正确答案。重复数据在基础模型训练的时候作用不大，但却可以提升RFT的稳定性。 s=46 数据效率优化在直播中，OpenAI提到用户只需要「几十个」RFT样本就可以在新领域进行学习；对于每个提示，强化学习（RL）可以根据超参数设置在一批中生成多个评分回复，在学习步骤和数据的多次迭代中比如某个RFT领域对于模型来说是非常新的，可能只需要10个样本即可获得总体性能提升。
27810编辑于 2025-02-15
来自专栏新智元
OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课
2024年12月，OpenAI提出了一种新的强化微调（Reinforcement Fine-tuning，RFT）技术。在RFT过程中，打分器（Grader）会根据标准答案给出奖励分数，从而帮助模型「学会」如何给出正确结果。雨后春笋分数：-8.578 POLAR完美适配RFT强化学习框架，基于问题的参考答案对模型输出进行打分。如果模型输出与参考答案更为接近，则会获得更高的奖励值。图5：强化微调实验结果在强化微调RFT实验中，POLAR持续优于SOTA的开源奖励模型。在使用阶段，POLAR利用RFT范式对LLM进行强化学习，展现出了极佳的泛化性。
29200编辑于 2025-07-12
北大&银河通用发布UrbanVLA：首个城市微出行VLA模型，让它像老司机一样认路、避障
创新的“模拟到现实”两阶段训练流程：设计了一个包含监督微调（SFT）和强化学习微调（RFT）的训练流程。消融实验证明，HTL算法对于模型在真实世界的泛化至关重要，而RFT阶段则有效提升了模型在未见场景中的表现。方法 A. 问题定义任务定义。利用一个预训练的导航基础模型NavFoM作为我们的基础模型，并采用一个通过监督微调（SFT）和强化学习微调（RFT）组成的两阶段微调策略。在RFT阶段，进一步在一个结合了模拟和真实环境专家演示的混合数据集上对UrbanVLA进行微调。强化学习的有效性：表三对比了仅使用SFT和结合SFT+RFT两个阶段训练的效果。
47620编辑于 2025-11-17
每周AI论文速递（250303-250307）
Visual-RFT: Visual Reinforcement Fine-Tuning Visual-RFT: 视觉强化微调在类似 OpenAI o1 这样的大规模推理模型中，强化微调 (Reinforcement Fine-Tuning, RFT) 通过从模型输出的反馈中学习，在微调数据稀缺的应用场景中尤为有效。本文提出了视觉强化微调 (Visual-RFT)，进一步扩展了 RFT 在视觉任务中的应用范围。 Hint-infer 还可以作为一种简单有效的序列测试时间扩展方法；2) 提示拒绝采样微调 Hint-RFT：Hint-RFT 通过评分、过滤和修改由 LRM 通过 Hint-infer 生成的带有工具调用的推理轨迹，结合 Hint-infer 和 RFT，然后对 LRM 进行微调。
27110编辑于 2025-04-08
来自专栏机器之心
奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式
图三：POLAR 的两阶段训练（预训练和偏好微调）以及在 RFT 中的使用方法 POLAR 如何使用？ —— 对强化微调的完美适配强化微调（Reinforcement Fine-tuning，RFT）是 POLAR 的最佳使用场景。 RFT 应用：全面增强 LLM 能力图五：强化微调实验结果在 RFT 实验中，POLAR 持续优于 SOTA 的开源奖励模型。在使用阶段，POLAR 利用 RFT 范式对 LLM 进行强化学习，展现出了极佳的泛化性。 POLAR 作为一种全新的、可扩展的奖励模型预训练方法，为 LLM 后训练带来了新的可能，让通用 RFT 多了一种有效实践方案。有望打通 RL 链路 Scaling 的最后一环。
33110编辑于 2025-07-12
来自专栏机器之心
学界 | 结合主动学习与迁移学习：让医学图像标注工作量减少一半
表 2：主动学习策略图 2(a) 比较了使用 Places 数据库的 AFT* 和 RFT。RFT 通过系统性的随机采样生成了 6 个不同的序列。最后的曲线是根据 6 次运行的平均结果绘制的。如图 2(a) 所示，在 AUC（曲线下面积）方面，仅使用了 2906 个候选数据查询的 AFT* 可以实现使用了 4452 个候选数据查询的 RFT 的表现；同时 AFT* 仅使用 1176 个候选数据查询就能实现使用全部因此，AFT* 相比于 RFT 能节省 34.7% 的标注成本，相比于完全训练能节省 97.2% 的标注成本。结肠镜检查帧分类的基准表现是 RFT（ALC=.8991），息肉检测的基准表现是 RFT（ALC=.9379）和肺栓塞（PE）检测的基准表现是 RFT（ALC=.7874），使用的都是 AlexNet。图 9：AFT*、AFT 和 RFT 所选择的候选数据中的正例-负例比例。注意，RFT 的比例大致能代表整个数据集的比例。 4.7 AFT* 在 CNN 架构中的泛化性 ?
1.9K60发布于 2018-05-10
来自专栏目标检测和深度学习
学界 | 结合主动学习与迁移学习：让医学图像标注工作量减少一半
表 2：主动学习策略图 2(a) 比较了使用 Places 数据库的 AFT* 和 RFT。RFT 通过系统性的随机采样生成了 6 个不同的序列。最后的曲线是根据 6 次运行的平均结果绘制的。如图 2(a) 所示，在 AUC（曲线下面积）方面，仅使用了 2906 个候选数据查询的 AFT* 可以实现使用了 4452 个候选数据查询的 RFT 的表现；同时 AFT* 仅使用 1176 个候选数据查询就能实现使用全部因此，AFT* 相比于 RFT 能节省 34.7% 的标注成本，相比于完全训练能节省 97.2% 的标注成本。结肠镜检查帧分类的基准表现是 RFT（ALC=.8991），息肉检测的基准表现是 RFT（ALC=.9379）和肺栓塞（PE）检测的基准表现是 RFT（ALC=.7874），使用的都是 AlexNet。图 9：AFT*、AFT 和 RFT 所选择的候选数据中的正例-负例比例。注意，RFT 的比例大致能代表整个数据集的比例。 4.7 AFT* 在 CNN 架构中的泛化性 ?
1.3K50发布于 2018-04-18
来自专栏啄木鸟软件测试
国内外优秀好用的自动化测试有哪些？终于整理出来了
Windows、Linux 价格：付费支持语言：VB、Java.Script、Jscript、C++,C#，Delphi、Angular、Ruby on Rails、PHP 编程要求：较高 IBM RFT RFT中的自动测试基于脚本保证技术，该技术可以极大地提高测试效率并提供易于维护的脚本。IBM RFT支持各种基于Web和基于终端仿真器的应用程序。 RFT使用Visual Basic。Net和Java作为脚本语言。 RFT有一个独特的功能，称为 Storyboard 测试，用户的动作被记录下来，并通过应用截图在 Storyboard 格式中可视化。 RFT的另一个有趣特性是它与IBM Jazz应用生命周期管理系统（如IBM Rational Team Concert和Rational Quality Manager）的集成。
4.1K23发布于 2020-09-23
来自专栏晓月寒·
linux安装mysql8并且实现主从同步
CREATE USER 'slave'@'%' IDENTIFIED BY '@#$Rfg345634523rft4fa'; GRANT REPLICATION SLAVE, REPLICATION CLIENT -p change master to master_host='172.17.0.2', master_user='slave', master_password='@#$Rfg345634523rft4fa 、mysql8特有的密码规则问题引起： ALTER USER 'slave'@'%' IDENTIFIED WITH mysql_native_password BY '@#$Rfg345634523rft4fa
1.4K20发布于 2019-06-05
来自专栏生信修炼手册
使用SOAPfuse进行融合基因的分析
cbd cytoBand.txt.gz \ -gf HGNC_Gene_Family.tsv \ -sd /software/SOAPfuse-v1.27 \ -dd /database/hg19 \ -rft chr.gtp wg参数代表基因组的fasta文件，gtf参数代表gtf文件，cbd代表从UCSC下载的cytoband文件，gf代表从HGNC下载的基因信息，sd代表软件的安装目录，rft代表gtf 对于需要从数据库下载的文件，在该脚本的帮助信息中给出了非常详尽的提示, 这里就不赘述，对于rft文件，内容为\t分隔的两列，示例如下 1 chr1 2 chr2 第一列代表gtf文件中的染色体编号
1.2K20发布于 2020-05-08
来自专栏小七的各种胡思乱想
解密prompt系列49. 回顾R1之前的思维链发展
大模型能思考，各式各样的思维链能不同程度提升模型在不同领域的效果外生慢思考：Inference Scaling正式提出，推理侧的范式逐渐收敛到MCTS内生慢思考：探索把推理侧的模型思考能力内化到模型内，包含以RFT Eight-FoldMath-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations12月OpenAI RFT 分别有OpenAI在24年底推出的RFT（可申请测试），和同期字节推出的ReFT。前者更多针对system2到领域模型的思维链优化，后者主要针对system1到system2思考模型的优化。不难发现在RFT，REFT的阶段大家已经开始探索基于结果（标准答案）的RL对于提升模型思维链泛化的效果，但是和R1的实现相比，个人认为有几个核心的差异点，主要来自SFT和RL的技术定位差异。以SFT为主RL为辅，RFT和ReFT本质还是以SFT为主，也就是先把准备好的思维链样本喂给模型，而RL的作用更多是进行拒绝采样，也就是从模型推理的多个候选思维链中，奖励更好的，惩罚不好的。
94421编辑于 2025-02-19
来自专栏自然语言处理(NLP)论文速递
ICLR2024，微软 | 提出LLM剪枝方法-SliceGPT，参数减少25%，保持99%的性能！
其中，剪枝方法已经存在了一段时间，但许多方法需要在剪枝后进行恢复微调（RFT）以保持性能，这使得整个过程成本高昂且难以扩展。作者还进行了恢复微调（RFT）实验。使用 LoRA 对剪裁过的 LLAMA-2 和 Phi-2 模型进行了少量 RFT。实验结果如图 6 所示。可以发现，RFT 的结果在 WikiText-2 和 Alpaca 数据集存在显著差异，模型在 Alpaca 数据集中展现了更好的性能。对于规模最大的 LLAMA-2 70B 模型，剪裁 30% 再进行 RFT 后，最终在 Alpaca 数据集中的平均准确率为 74.3%，原稠密模型的准确率为 76.6%。被剪裁过 25% 并经过 RFT 的 Phi-2 在 Alpaca 数据集中，平均准确率为 65.2%，原稠密模型的准确率为 72.2%。
86710编辑于 2024-01-31
南京理工大学联手百度、商汤科技等团队推出Artemis：用结构化视觉推理革新多模态感知
强大的训练基础：Artemis-RFT数据集为了训练Artemis，团队构建了Artemis-RFT数据集。 Artemis-RFT数据示例。该数据集包含两种任务类型：视觉定位和对象检测，统一的Artemis感知策略学习框架在两者上联合训练。紫色框表示推理对象，绿色框表示答案。
26010编辑于 2025-12-11
来自专栏机器之心
大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增
其中，剪枝方法已经存在了一段时间，但许多方法需要在剪枝后进行恢复微调（RFT）以保持性能，这使得整个过程成本高昂且难以扩展。作者还进行了恢复微调（RFT）实验。使用 LoRA 对剪裁过的 LLAMA-2 和 Phi-2 模型进行了少量 RFT。实验结果如图 6 所示。可以发现，RFT 的结果在 WikiText-2 和 Alpaca 数据集存在显著差异，模型在 Alpaca 数据集中展现了更好的性能。对于规模最大的 LLAMA-2 70B 模型，剪裁 30% 再进行 RFT 后，最终在 Alpaca 数据集中的平均准确率为 74.3%，原稠密模型的准确率为 76.6%。被剪裁过 25% 并经过 RFT 的 Phi-2 在 Alpaca 数据集中，平均准确率为 65.2%，原稠密模型的准确率为 72.2%。
92510编辑于 2024-02-06

第 2 页第 3 页第 4 页第 5 页第 6 页

点击加载更多

突破性创新！无服务器强化微调技术问世，仅需少量数据即可实现性能提升，效率高达DeepSeek和o1的三倍以上。

从盲调到可视：RDMA运维进入会话追踪时代

解密prompt系列42. LLM通往动态复杂思维链之路

推理大模型的后训练增强技术-Reasoning模型也进化到2.0了，这次居然学会用工具了

常用功能自动化测试工具汇总

常用软件自动化测试工具汇总

LeCun八年前神预言，大模型路线再颠覆？OpenAI宣告：强化学习取得稳定性突破

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

北大&银河通用发布UrbanVLA：首个城市微出行VLA模型，让它像老司机一样认路、避障

每周AI论文速递（250303-250307）

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

学界 | 结合主动学习与迁移学习：让医学图像标注工作量减少一半

学界 | 结合主动学习与迁移学习：让医学图像标注工作量减少一半

国内外优秀好用的自动化测试有哪些？终于整理出来了

linux安装mysql8并且实现主从同步

使用SOAPfuse进行融合基因的分析

解密prompt系列49. 回顾R1之前的思维链发展

ICLR2024，微软 | 提出LLM剪枝方法-SliceGPT，参数减少25%，保持99%的性能！

南京理工大学联手百度、商汤科技等团队推出Artemis：用结构化视觉推理革新多模态感知

大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

突破性创新！无服务器强化微调技术问世，仅需少量数据即可实现性能提升，效率高达DeepSeek和o1的三倍以上。

从盲调到可视：RDMA运维进入会话追踪时代

解密prompt系列42. LLM通往动态复杂思维链之路

推理大模型的后训练增强技术-Reasoning模型也进化到2.0了，这次居然学会用工具了

常用功能自动化测试工具汇总

常用软件自动化测试工具汇总

LeCun八年前神预言，大模型路线再颠覆？OpenAI宣告：强化学习取得稳定性突破

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

北大&银河通用发布UrbanVLA：首个城市微出行VLA模型，让它像老司机一样认路、避障

每周AI论文速递（250303-250307）

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

学界 | 结合主动学习与迁移学习：让医学图像标注工作量减少一半

学界 | 结合主动学习与迁移学习：让医学图像标注工作量减少一半

国内外优秀好用的自动化测试有哪些？终于整理出来了

linux安装mysql8并且实现主从同步

使用SOAPfuse进行融合基因的分析

​解密prompt系列49. 回顾R1之前的思维链发展

ICLR2024，微软 | 提出LLM剪枝方法-SliceGPT，参数减少25%，保持99%的性能！

南京理工大学联手百度、商汤科技等团队推出Artemis：用结构化视觉推理革新多模态感知

大模型也能切片，微软SliceGPT让LLAMA-2计算效率大增

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

解密prompt系列49. 回顾R1之前的思维链发展