by Step Verify Let OpenAI s Step详细解读

一、概述

title：Let’s Verify Step by Step

论文地址：

代码：

说明：左边是正确的slutions，右边有部分推理是错误的，PRM（过程监督）正确地指出了错误答案中的错误

目的：比较PRM（过程监督） vs ORM（结果监督）最佳表现与N（每个问题N个solution的数量选一个最终的结果）的关系

背景：由于数据集构建，监督方法的不同，以及结果评判方法的不同，直接对比ORM和PRM有点不太好比较

原因：（1）ORM和PRM的训练集无法直接进行比较：PRM训练集是通过主动学习构建的，偏向于错误答案的解决方案，并且规模小了一个数量级。（2）ORM最终答案的评分正确但可能推理过程错误带来评判不公平。（3）收集人工反馈的成本很高，无法轻易地通过人工标注者去除这些因素

解决方法：使用大规模的PRM（PRMlarge）来监督较小的模型来进行相关的消融实验。这个设置可以以较低的成本模拟大量的数据收集。

PRM（PRMlarge supervised）：利用PRMlarge（即大规模PRM，以下简称PRMlarge）来做过程监督

ORM（PRMlarge supervised）：利用PRMlarge（即大规模PRM，以下简称PRMlarge）来做结果监督

ORM（final-answer supervised）：不看过程，只看最终结果，相当于只拿最终结果来进行监督

图(a)根据500个最佳选择来评估每个奖励模型。我们看到，在所有数据收集规模上，PRM过程监督的表现都大大优于两种形式的结果监督（ORM（PRMlarge supervised）和 ORM（final-answer supervised））。

图(b)通过其在N个不同值中的最佳表现来评估每个系列的最佳奖励模型。我们看到，使用PRMlarge进行结果监督明显比最终答案检查更有效。这可以解释为，PRMlarge为使用不正确的推理得出正确最终答案【结果正确，推理错误】的解决方案提供了更好的监督。

使用一种小规模的奖励模型PRMselector，每个问题评分1000个样本。

从每个问题选择N个样本，其中80%是最令人信服的错误答案样本，20%是剩下的最令人信服的样本（正确或错误答案）

使用PRMlarge对所选样本进行评分并基于这些评分并进行训练

性能如图4a所示。通过比较具有和不具有主动学习的最佳拟合线的斜率，这种数据标记方案的性能比均匀数据标记大约高效2.6倍。

当使用最大主动学习数据集（每个问题200个样本）训练模型时，结果略低于预期的趋势线，可能是因为200个样本代表了整体选择池（1000个样本）的相当大比例，导致相对缺乏多样性限制了主动学习的潜在优势。

本文转载自，作者：

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/xingyeremen/32745.html