1. 首页 > 头条 > 行业热门

by Step Verify Let OpenAI s Step详细解读

一、概述

title:Let’s Verify Step by Step

论文地址:

代码:

1.1 Motivation

1.2 Methods

说明:左边是正确的slutions,右边有部分推理是错误的,PRM(过程监督)正确地指出了错误答案中的错误

1.3 Conclusion

二、详细内容

1 大规模监督学习

目的:比较PRM(过程监督) vs ORM(结果监督)最佳表现与N(每个问题N个solution的数量选一个最终的结果)的关系

2 小规模合成监督学习【公平对比ORM和PRM】

背景:由于数据集构建,监督方法的不同,以及结果评判方法的不同,直接对比ORM和PRM有点不太好比较

原因:(1)ORM和PRM的训练集无法直接进行比较:PRM训练集是通过主动学习构建的,偏向于错误答案的解决方案,并且规模小了一个数量级。(2)ORM最终答案的评分正确但可能推理过程错误带来评判不公平。(3)收集人工反馈的成本很高,无法轻易地通过人工标注者去除这些因素

解决方法:使用大规模的PRM(PRMlarge)来监督较小的模型来进行相关的消融实验。这个设置可以以较低的成本模拟大量的数据收集。

PRM(PRMlarge supervised):利用PRMlarge(即大规模PRM,以下简称PRMlarge)来做过程监督

ORM(PRMlarge supervised):利用PRMlarge(即大规模PRM,以下简称PRMlarge)来做结果监督

ORM(final-answer supervised):不看过程,只看最终结果,相当于只拿最终结果来进行监督

图(a)根据500个最佳选择来评估每个奖励模型。我们看到,在所有数据收集规模上,PRM过程监督的表现都大大优于两种形式的结果监督(ORM(PRMlarge supervised)和 ORM(final-answer supervised))。

图(b)通过其在N个不同值中的最佳表现来评估每个系列的最佳奖励模型。我们看到,使用PRMlarge进行结果监督明显比最终答案检查更有效。这可以解释为,PRMlarge为使用不正确的推理得出正确最终答案【结果正确,推理错误】的解决方案提供了更好的监督。

3 主动学习

使用一种小规模的奖励模型PRMselector,每个问题评分1000个样本。

从每个问题选择N个样本,其中80%是最令人信服的错误答案样本,20%是剩下的最令人信服的样本(正确或错误答案)

使用PRMlarge对所选样本进行评分并基于这些评分并进行训练

性能如图4a所示。通过比较具有和不具有主动学习的最佳拟合线的斜率,这种数据标记方案的性能比均匀数据标记大约高效2.6倍。

当使用最大主动学习数据集(每个问题200个样本)训练模型时,结果略低于预期的趋势线,可能是因为200个样本代表了整体选择池(1000个样本)的相当大比例,导致相对缺乏多样性限制了主动学习的潜在优势。

4 泛化能力

三、参考文献

本文转载自​​,作者:

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/xingyeremen/32745.html

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息