英伟达发布新 RL 范式

huanghelou520 · 發表於 2025-5-14 15:24:19

大型语言模型（LLMs）通过外部工具提升性能已成为热门趋势，这些工具帮助 LLMs 在搜索引擎、计算器、视觉工具和 Python 解释器等领域表现出色。但现有研究依赖合成数据集，无法捕捉明确的推理步骤，导致模型仅模仿表面模式，而非真正理解决策过程。黑料不打烊

为了提升 LLMs 的工具使用能力，现有方法探索了多种策略。主要包括两方面：第一，数据集整理和模型优化。研究者创建大规模监督数据集，并应用监督微调（SFT）和直接偏好优化（DPO）强化学习等技术，将 LLMs 与外部工具整合，扩展其功能。

第二，改进推理过程。从传统的训练时扩展转向测试时复杂策略。早期方法依赖步骤级监督和学习奖励模型，指导推理轨迹。黑料

		自動登錄	找回密碼
密碼			註冊發言

花開花落	【論壇】-字畫譚