研究人员开发了一种使用 LLM 进行综合批评的奖励模型改进方法_人工智能

　　该方法旨在减少与人工注释相关的时间和成本。 1720572733(1).jpg

　　热水浴缸、浴缸、人、计算机硬件、电子产品、硬件、显示器、屏幕、综合批评、人工智能、语言模型

　　Cohere 和牛津大学的研究人员推出了一种创新方法，通过利用大型语言模型 (LLM) 进行综合评论，增强人类反馈强化学习 (RLHF) 中的奖励模型 (RM)。这种新方法旨在减少与人工注释相关的大量时间和成本，而这传统上是训练 RM 以根据人类偏好预测分数所必需的。

　　在他们的论文《通过综合评论改进奖励模型》中，研究人员详细介绍了 LLM 如何生成评论，以评估提示与生成的输出之间的关系，从而预测标量奖励。这些综合评论通过提供有关指令遵循、正确性和风格等方面的额外反馈，提高了奖励模型在各种基准上的表现，从而更好地评估和评分语言模型。

　　研究强调，高质量的合成评论显著提高了数据效率，一个增强的偏好对与四十个未增强的偏好对一样有价值。这种方法使训练过程更具成本效益，并有可能匹敌或超越传统的奖励模型，正如 GPT-4.0 在某些基准测试中的表现所证明的那样。

　　随着该领域继续探索 RLHF 的替代方案，包括从AI反馈中进行强化学习 (RLAIF)，这项研究表明向基于 AI 的批评转变的前景看好，可能会改变谷歌、OpenAI 和 Meta 等主要 AI 参与者调整其大型语言模型的方式。

研究人员开发了一种使用 LLM 进行综合批评的奖励模型改进方法