研究人员开发了一种使用 LLM 进行综合批评的奖励模型改进方法

  该方法旨在减少与人工注释相关的时间和成本。1720572733(1).jpg

  热水浴缸、浴缸、人、计算机硬件、电子产品、硬件、显示器、屏幕、综合批评、人工智能、语言模型

  Cohere 和牛津大学的研究人员推出了一种创新方法,通过利用大型语言模型 (LLM) 进行综合评论,增强人类反馈强化学习 (RLHF) 中的奖励模型 (RM)。这种新方法旨在减少与人工注释相关的大量时间和成本,而这传统上是训练 RM 以根据人类偏好预测分数所必需的。

  在他们的论文《通过综合评论改进奖励模型》中,研究人员详细介绍了 LLM 如何生成评论,以评估提示与生成的输出之间的关系,从而预测标量奖励。这些综合评论通过提供有关指令遵循、正确性和风格等方面的额外反馈,提高了奖励模型在各种基准上的表现,从而更好地评估和评分语言模型。

  研究强调,高质量的合成评论显著提高了数据效率,一个增强的偏好对与四十个未增强的偏好对一样有价值。这种方法使训练过程更具成本效益,并有可能匹敌或超越传统的奖励模型,正如 GPT-4.0 在某些基准测试中的表现所证明的那样。

  随着该领域继续探索 RLHF 的替代方案,包括从AI反馈中进行强化学习 (RLAIF),这项研究表明向基于 AI 的批评转变的前景看好,可能会改变谷歌、OpenAI 和 Meta 等主要 AI 参与者调整其大型语言模型的方式。


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论