【美今詩歌集】【作者:童驛采】1999年~2020年 |訪問首頁|
花開花落
【論壇】-字畫譚
 
 
『墨龍』 畫堂 |

【論壇】-字畫譚

 找回密碼
 註冊發言
搜索
查看: 18|回復: 0

英伟达发布新 RL 范式

[複製鏈接]

16

主題

0

回帖

80

積分

註冊會員

Rank: 2

積分
80
發表於 2025-5-14 15:24:19 | 顯示全部樓層 |閱讀模式
大型语言模型(LLMs)通过外部工具提升性能已成为热门趋势,这些工具帮助 LLMs 在搜索引擎、计算器、视觉工具和 Python 解释器等领域表现出色。但现有研究依赖合成数据集,无法捕捉明确的推理步骤,导致模型仅模仿表面模式,而非真正理解决策过程。黑料不打烊
为了提升 LLMs 的工具使用能力,现有方法探索了多种策略。主要包括两方面:第一,数据集整理和模型优化。研究者创建大规模监督数据集,并应用监督微调(SFT)和直接偏好优化(DPO)强化学习等技术,将 LLMs 与外部工具整合,扩展其功能。
第二,改进推理过程。从传统的训练时扩展转向测试时复杂策略。早期方法依赖步骤级监督和学习奖励模型,指导推理轨迹。黑料

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 註冊發言

本版積分規則

Archiver|手機版|小黑屋|【論壇】-字畫譚

GMT+8, 2025-5-26 07:40 , Processed in 0.089852 second(s), 20 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回復 返回頂部 返回列表