arXiv	https://arxiv.org/abs/2412.01981
論文のライセンス	http://creativecommons.org/licenses/by-sa/4.0/

Free Process Rewards without Process Labels

Lifan Yuan¹ Wendi Li^2,3∗ Huayu Chen² Ganqu Cui² Ning Ding²²²footnotemark: 2 Kaiyan Zhang²
Bowen Zhou² Zhiyuan Liu² Hao Peng¹
¹University of Illinois Urbana-Champaign ²Tsinghua University
³Huazhong University of Science and Technology
lifan4@illinois.edu wendili@hust.edu.cn Equal Contribution. Work done during Wendi’s intership at Tsinghua University. Corresponding Authors: cgq22@mails.tsinghua.edu.cn, dn97@mail.tsinghua.edu.cn

Abstract

全体の応答を評価する従来の結果報酬モデル（ORM）とは異なり、プロセス報酬モデル（PRM）は推論の軌跡を段階的に採点し、より密度が高く細かい粒度の報酬を提供する。しかし、PRMの訓練には中間段階ごとにラベル付けされたデータが必要であり、手動および自動データ収集の両方に大きな課題がある。本稿は、この課題に取り組むことを目的としている。我々は理論的および実証的に、より安価な応答レベルのラベルでORMを訓練するだけで、追加コストなしに暗黙的なPRMが得られることを示す。唯一の仮定は、結果報酬をポリシーモデルと参照モデルの対数尤度比 $r_{\theta}(\mathbf{y})=\beta\log\frac{\pi_{\theta}(\mathbf{y})}{\pi_{\text{ref% }}(\mathbf{y})}$ としてパラメータ化することであり、これは特定の損失目的関数の選択に関係なく最適化できる。実験では、我々は様々な目的関数で暗黙的なPRMを具現化し、MATHでその性能を評価する。我々の暗黙的なPRMは、訓練データの $1/38$ 未満を使用して、Math-Shepherd (Wang et al., 2023)のá la強力なMCTSベースのベースラインを上回る性能を示す。その性能は多数決投票によってさらに改善できる。さらに、指示と応答のスケールアップが我々の暗黙的なPRMに利益をもたらし、後者がより大きな利益をもたらすことを発見した。特に、クロスエントロピー（CE）損失で具現化された我々の暗黙的なPRMは、データ効率が高く、指示ごとに1つの応答でのみ訓練された場合でも、生成モデルを改善し続けることができることがわかった。これは、極端なデータ不足と不均衡に苦しむセットアップである。さらに、指示はダウンストリームタスクに関連している必要があるが、応答の多様性は利益をもたらさない。驚くべきことに、Math-Shepherdのステップラベルで追加訓練しても、結果データのみで訓練された我々の暗黙的なPRMにさらなる改善をもたらさなかった。我々は、本研究がPRM訓練アプローチの再考を促し、PRMの訓練をより身近なものにすることに貢献することを期待している¹¹1モデルとデータは以下で入手可能: https://github.com/lifan-yuan/ImplicitPRM。。

1 Introduction

高品質な教師あり学習データによる訓練が、大規模言語モデル（LLM）開発の進歩を牽引してきた (Meta, 2024; Ding et al., 2023; Luo et al., 2024b; Yue et al., 2024; Yuan et al., 2024; Zhang et al., 2024b)。この進歩を基盤として、報酬モデルはさらに境界を押し広げており、特に複雑な推論を必要とするタスクにおいて顕著である (Lightman et al., 2023; Wang et al., 2023; Snell et al., 2024)。完全な応答を評価するように設計された結果報酬モデル（ORM）が主に探求されており、強化学習（RL）と推論の両方で使用できる。しかし、結果報酬の疎性により、ORMは推論時の応答の再ランク付けで最適以下の性能を示すことが多く (Lightman et al., 2023)、RL訓練中の安定性と効率性に苦戦している (Cao et al., 2024; Chan et al., 2024)。これは、より密で細かい粒度の報酬への需要の高まりを浮き彫りにしている。中間ステップを評価して細かい粒度のガイダンスを提供するプロセス報酬モデル（PRM）は、自然にこのニーズを満たす。既存の研究では、PRMがベストN個のサンプリング (Wang et al., 2023; Snell et al., 2024) とRL (Setlur et al., 2024) においてORMを上回る一貫した結果を示しており、すべての中間ステップを評価することでより優れた透明性と解釈可能性を提供すると主張している (Leike, 2024)。

PRMは有望であるにもかかわらず、ORMよりもはるかに訓練が困難である。なぜなら、PRM訓練データの収集には、すべての中間ステップにアノテーションを付ける必要があるためである。人間の労力を減らすために、自動アノテーションアプローチが提案されている。これは、中間ステップが正しい結果につながる推定確率に基づいてラベル付けされる。通常、これは大量の先読み軌跡をサンプリングして推定するか、Q値を予測する検証器を直接訓練することで達成されるが、いずれも大規模なオーバーヘッドを伴う (Wang et al., 2023; Lu et al., 2024)。例えば、Wang et al. (2023) のように先読み軌跡をサンプリングしてステップレベルのデータを収集するには、ORMの訓練よりも38.8 $\times$ 倍多くのFLOPsが必要である（§4）。

我々は、理論的および実証的な観点から、PRMの構築が従来考えられていたよりも大幅に安価に行えることを主張する：強力なPRMは、より安価な応答レベルのデータでORMを訓練する際に、単純な報酬のパラメータ化を用いることで、追加コストなしで得ることができる。具体的には、報酬を政策モデルと参照モデルの対数尤度比 $r_{\theta}(\mathbf{y})=\beta\log\frac{\pi_{\theta}(\mathbf{y})}{\pi_{\text{ref% }}(\mathbf{y})}$ としてパラメータ化することで、DPO (Rafailov et al., 2023) および多くの派生手法 (Azar et al., 2024; Ethayarajh et al., 2024; Chen et al., 2024; Rosset et al., 2024; Wu et al., 2024) で一般的に行われているように、ORM訓練中にPRMを自動的に学習することができる。プロセス報酬は、同じ対数尤度比を部分的な応答に対して計算したものとなる。我々のアプローチを暗黙的PRMと呼ぶ。これは応答レベルのデータとORM訓練のみを必要とするためである。さらに、我々の洞察は訓練目的関数の具体的な選択に依存せず、 DPOおよび同じ形式の暗黙的報酬を採用するすべての派生手法に適用可能である。また、クロスエントロピー（CE）損失のような他の目的関数にも拡張できる。この新しい理論的洞察は、DPO訓練によってモデルがQ関数を学習できるというRafailov et al. (2024)の結論を一般化するものである。実用的には、我々のアプローチは、ペアワイズデータの取得が困難で、CE損失のようなアルゴリズムが同様に適用可能なシナリオに特に適している。これについては§5.2で示す。

実験において、我々は33Kの数学的指示とそれぞれに対する8つの解答からなるデータセットで我々の暗黙的PRMを訓練し、MATH (Hendrycks et al., 2021) におけるベストN個サンプリングを通じて評価を行った。我々は、DPO、KTO、NCA、CEを含む異なる訓練目的で具現化された我々の暗黙的PRMの変種を探索した。これらはすべて強力なPRMを生成し、Math-Shepherd (Wang et al., 2023) とAutoPSV (Lu et al., 2024) の我々の再実装、および6つの既製のオープンORMとPRMを含む競争力のあるベースラインを上回る性能を示した。図1に示すように、精度と開発オーバーヘッドの間で実質的により良いトレードオフを実現している。特に、重み付けベストN個に統合された場合、CEが最も効果的である。これにより、ペアデータの収集が困難なシナリオにおいてCE損失が魅力的となる。なぜなら、ペアになっていないデータやアンバランスなデータを扱うことができ、decent性能を持つ暗黙的PRMを得るためにDPOよりもデータ消費が少ないことが実証されているからである。さらに、我々の暗黙的PRMは訓練データの増加から恩恵を受けることが判明し、指示の規模よりも応答の規模の方が影響力が大きいことがわかった。しかし、我々の観察によれば、指示はダウンストリームタスクに関連している必要があるが、応答の多様性はあまり重要ではない。驚くべきことに、ステップレベルのデータでの訓練は我々の暗黙的PRMにさらなる改善をもたらさなかった。加えて、我々の暗黙的PRMは言語モデルのままであるにもかかわらず、ベストN個サンプリングを支援する能力は、ポリシーモデルとしてのダウンストリームタスクでの性能には反映されない。むしろ、我々の最も性能の悪い暗黙的PRMであるKTOで具現化されたものが、ポリシー性能の改善を経験した唯一のものとなった。最後に、少なくとも我々が考慮したモデルとタスクに関しては、参照モデルを我々の暗黙的PRMから省略することができ、精度を損なうことなく推論効率を改善できることを観察した。

ステップラベルの必要性を回避することで、本稿の発見は既存の手法よりも強力な性能を提供しつつ、PRMを構築するためのデータ収集と訓練のオーバーヘッドを大幅に低減する。我々は、本研究がPRM訓練アプローチの再考を促し、PRMの訓練をより身近なものにすることに貢献することを期待している。

2 ORMs vs. PRMs: Dilemma of Performance and Expense

Background

ORMは疎な報酬 $r_{\theta}(\mathbf{y})$ を応答全体に割り当て、最後のトークンが生成されるまでフィードバックは提供されない。対照的に、PRMは各中間ステップの品質を評価し、各ステップの完了後に報酬を提供できる (Lightman et al., 2023)。指示と $n$ ステップの応答 $\mathbf{y}$ が与えられ、 $y_{t}$ が $t$ 番目のステップで $\mathbf{y}_{<t}$ が最初の $t-1$ ステップである場合、 PRMは指示と最初の $t-1$ ステップの連結を受け取り、 $t$ 番目に報酬を割り当てる: $r_{\theta}^{t}(\mathbf{y}_{<t},y_{t})$ 。 Q値 $q_{\theta}^{t}(\mathbf{y}_{<t},y_{t})$ は、観察された応答 $\mathbf{y}_{<t}$ と現在のステップ $y_{t}$ を条件とした結果報酬 $r_{\theta}$ の期待値を示す。 Lightman et al. (2023) はプロセス報酬を各ステップの正確さとして定義し、一方 Wang et al. (2023) はQ値を直接プロセス報酬として考慮している。我々は Lu et al. (2024) に従い、プロセス報酬をアドバンテージ、すなわちQ値の差として定義する: $r_{\theta}^{t}:=q_{\theta}^{t}-q_{\theta}^{t-1}$ 。アドバンテージをプロセス報酬として採用することの利点は、並行研究 (Setlur et al., 2024) で議論されている。

PRMs outperformans ORMs in both training and inference

ORMとPRMはともにモデル出力を評価するための報酬を提供できる。 PRMからの密なステップレベルの報酬は、安定的で効果的なRL訓練につながり (Cao et al., 2024; Chan et al., 2024)、応答の再ランク付けにおいてより良いパフォーマンスを示し、透明性と解釈可能性も向上する。また、ORMは完全な応答で訓練されるが、そこから初期化された価値モデルはRL訓練中に不完全な応答しか受け取らない。対照的に、PRMは本質的に部分的な応答に対して密な報酬を提供するように訓練されているため、結果として得られる価値モデルはORMが直面する分布外の問題を緩和する可能性がある。

Training PRMs is substantially more expensive than ORMs

その効果にもかかわらず、PRMの訓練は訓練データ収集の課題により困難である。 PRMの訓練データを収集するために、MCTSが自動ステップ注釈に一般的に使用される(Wang et al., 2023; Luo et al., 2024a)。しかし、これは相当な追加コストをもたらす。 MCTSベースのステップラベル注釈では、ポリシーモデルは指示 $x$ とステップ $t$ までの部分的な応答の連結に基づいて $N$ の軌跡をサンプリングし、それぞれが最終的な回答につながる(Wang et al., 2023)。例えば、Wang et al. (2023)のように10ステップのロールアウトと各ステップに対して8つの後続軌跡を仮定すると、各指示のステップラベルを取得するために合計 $10\times 8=80$ の軌跡を生成する必要があり、これはORMの80倍である。したがって、PRMのスケーリングは大きく制限される。訓練データ収集のオーバーヘッドに加えて、このMCTSアプローチは、我々が以下および実験で示すように、ノイズの多い注釈プロセスにより最適でないパフォーマンスにつながる可能性がある。

MCTS estimation is not precise either

我々は、後続の軌跡の正確性の集合を $\left\{c_{1},c_{2},\dots,c_{N}\right\}$ と表記し、各要素は0または1である。その後、2つの代替的なラベル推定戦略が利用可能となる：(1) ハード推定、ここではステップ $t$ は、いずれかのロールアウトが正しい場合に1、そうでない場合に0とラベル付けされる： $l_{t}=\max\left\{c_{1},c_{2},\dots,c_{N}\right\}$ 。(2) ソフト推定、ここではステップ $t$ は、全ロールアウトの中で正解の割合としてラベル付けされる。すなわち $l_{t}=\sum_{t=1}^{N}c_{t}/N$ である。我々は、ロールアウトの正確性を判断するために使用されるORMを $\theta$ 、ハード推定からのデータで訓練されたPRMを $\theta_{h}$ 、ソフト推定データで訓練されたPRMを $\theta_{s}$ と呼ぶ。 $\theta_{h}$ と $\theta_{s}$ が完全に適合している場合、すなわち訓練損失が0に減少した場合、我々は以下を得る：

q_{\theta_{h}}^{t}\left(\mathbf{y}_{<t},y_{t}\right)=\max_{\mathbf{y}\mid% \mathbf{y}_{<t}}r_{\theta}(\mathbf{y}),\leavevmode\nobreak\ \leavevmode% \nobreak\ q_{\theta_{s}}^{t}\left(\mathbf{y}_{<t},y_{t}\right)=\mathbb{E}_{\pi% _{\text{ref}}(\mathbf{y}\mid\mathbf{y}_{\leq t})}r_{\theta}(\mathbf{y})

(1)

しかしながら、両方の推定戦略にはノイズが含まれる可能性がある。具体的には、 $q_{\theta_{h}}^{t}$ は期待値ではなく、 $r_{\theta}$ が与えられた場合の最大結果報酬 $\mathbf{y}_{<t}$ を表すため、Q値を過大評価する。 $q_{\theta_{s}}^{t}$ については、実際のポリシーモデルの能力が限られているため、難しい指示に対して正しい解を抽出することが困難であり、偽陰性ノイズに悩まされ、そのためQを過小評価する。

3 Implicit PRMs For Free Through Reward Parameterization

本節では、単純な報酬のパラメータ化によって、ORMが結果報酬の期待値を直接表現できることを示す。言い換えれば、PRMは専用の訓練なしに同じORMから本質的に導出することができ、MCTSベースのアプローチよりも大幅に低いオーバーヘッドで優れた性能を提供する。

Reward parameterization in existing work

現在の文献では、報酬を通常以下のいずれかでパラメータ化している： (1) 隠れ状態の線形変換、報酬モデルは系列分類器である (Ouyang et al., 2022; Touvron et al., 2023; Zhu et al., 2023; Cui et al., 2024) または (2) 生成的対数オッズ、報酬モデルは自己回帰的言語モデルであり、部分的または完全な応答のラベルを「良い」または「悪い」トークンとして予測するよう訓練され、時には「中立」という第三のラベルも用いる (Zhang et al., 2024c; Mahan et al., 2024; Lightman et al., 2023; Wang et al., 2023; Luo et al., 2024a)。

残念ながら、これらのパラメータ化のいずれの下でも、PRMを訓練するには高コストのステップラベルが必要となる。この問題に対処するため、我々は、暗黙的な報酬モデリングを用いてORMを訓練することを提案する。これにより、損失関数に関係なく自動的にPRMが可能となる。次に、これを詳細に説明する：

Proposition 3.1.

(証明は付録A参照) 報酬が2つの因果的LMの対数尤度比によってパラメータ化されるORMを考える。すなわち、 $r_{\theta}(\mathbf{y}):=\beta\log\frac{\pi_{\theta}(\mathbf{y})}{\pi_{\text{% ref}}(\mathbf{y})}$ 。 $q_{\theta}^{t}(\mathbf{y}_{<t},y_{t}):=\sum_{i=1}^{t}\beta\log\frac{\pi_{% \theta}(y_{i}|\mathbf{y}_{<i})}{\pi_{\text{ref}}(y_{i}|\mathbf{y}_{<i})}$ と定義する。 $q_{\theta}^{t}$ はステップ $r_{\theta}$ における $t$ の指数平均である。

q_{\theta}^{t}(\mathbf{y}_{<t},y_{t})=\beta\log\mathbb{E}_{\pi_{\text{ref}}(% \mathbf{y}|\mathbf{y}_{\leq t})}e^{\frac{1}{\beta}r_{\theta}(\mathbf{y})}

(2)

したがって、 $q_{\theta}^{t}$ はステップ $r_{\theta}$ における結果報酬 $t$ の正確な期待値、すなわちQ値を表す。

命題3.1は、標準的なパイプラインでORMを訓練するために $r_{\theta}(\mathbf{y}):=\beta\log\frac{\pi_{\theta}(\mathbf{y})}{\pi_{\text{% ref}}(\mathbf{y})}$ をモデル化する際、 $\beta$ がハイパーパラメータである場合、 $\theta$ が暗黙的にQ関数を学習できることを示している。したがって、過程報酬 $r_{\theta}^{t}$ は以下のように得られる：

r_{\theta}^{t}:=q_{\theta}^{t}-q_{\theta}^{t-1}=\sum_{i=t-1}^{t}\beta\log\frac% {\pi_{\theta}(y_{i}|\mathbf{y}_{<i})}{\pi_{\text{ref}}(y_{i}|\mathbf{y}_{<i})}

(3)

注目すべきは、この結論が $y_{t}$ がステップ $t$ ではなく $t$ 番目のトークンを表す場合でも成立することである。これは我々に示唆的なヒントを与える：ステップラベルを注釈付けする負担なしに、応答レベルのデータを収集し、ORMを訓練するだけで、PRMやさらに細かいトークンレベルのRMを実際に得ることができる。この命題はORMの訓練目的の具体的な選択に依存しない。通常のORM訓練と同様に、異なる目的関数で具体化できる。唯一の違いは $r_{\theta}\left(\mathbf{y}\right)$ を $\beta\log\frac{\pi_{\theta}(\mathbf{y})}{\pi_{\text{ref}}(\mathbf{y})}$ に置き換えることである。特に、多くの既存の選好学習アルゴリズムが既に我々の仮定を満たしている (Rafailov et al., 2023; Azar et al., 2024; Ethayarajh et al., 2024; Chen et al., 2024; Wu et al., 2024)。

PRMの訓練をより容易にするだけでなく、我々の暗黙的な過程報酬は、式1の $q_{\theta_{s}}^{t}$ および $q_{\theta_{h}}^{t}$ から導出されるものよりも正確である可能性がある(Wang et al., 2023)。これは以下の命題によって示される：

Proposition 3.2.

$q_{\theta}^{t}$ の性能は以下の条件によって保証される： $q_{\theta}^{t}$ は $q_{\theta_{s}}^{t}$ と $q_{\theta_{h}}^{t}$ によって制限され、 $\beta$ の特定の値でこれらの境界に到達できる。すなわち、

q_{\theta_{s}}^{t}=\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y}|\mathbf{y}_{<t})}r_% {\theta}(\mathbf{y})\leq q_{\theta}^{t}(\mathbf{y}_{<t},y_{t})\leq\max_{% \mathbf{y}|\mathbf{y}_{<t}}r_{\theta}(\mathbf{y})=q_{\theta_{h}}^{t}

(4)

が成り立つ。左辺の等号は $\beta\to\infty$ のとき、右辺の等号は $\beta\to 0$ のときに成立する。

命題3.2は、 $q_{\theta}^{t}$ がMCTSベースのアプローチによって注釈付けされたソフト推定およびハード推定のQ値の間に位置することを示している。上記の境界は、我々のアプローチがMCTSベースのアプローチよりもノイズに対する精度と頑健性が優れていることを示唆している。具体的には、§2で議論したように、 $q_{\theta_{h}}^{t}$ はQ値を過大評価し、 $q_{\theta_{s}}^{t}$ は偽陰性ノイズによりQ値を過小評価する。 $q_{\theta}^{t}$ は $q_{\theta_{h}}^{t}$ と $q_{\theta_{s}}^{t}$ の間に位置するため、両方の問題を緩和し、Q値をより正確に推定する可能性がある。並行して行われた研究では、我々の $q_{\theta}^{t}$ をエントロピー正則化された過程報酬として定義し、best-of-Nサンプリングにおいて $q_{\theta_{s}}^{t}$ および $q_{\theta_{h}}^{t}$ よりも優れていることを経験的に示している(Zhang et al., 2024a)。

Connection to Rafailov et al. (2024)

命題3.1に類似した直感はRafailov et al. (2024)によって提起されており、DPOがモデルにQ関数を暗黙的に学習させることを示している。しかし、我々の洞察はその結論を包含している。なぜなら、この特性はDPOアルゴリズムに限定されないからである。例えば、応答レベルのラベル $l$ が与えられた場合、我々はさらにクロスエントロピー（CE）損失に一般化して、ペアになっていないデータやアンバランスなデータを含む実践的なシナリオに対処できる：

\mathcal{L}_{CE}=l\cdot\log\sigma\left(\beta\log\frac{\pi_{\theta}(\mathbf{y})% }{\pi_{\text{ref}}(\mathbf{y})}\right)+(1-l)\cdot\log\left[1-\sigma\left(\beta% \log\frac{\pi_{\theta}(\mathbf{y})}{\pi_{\text{ref}}(\mathbf{y})}\right)\right]

(5)

Reference Model

我々の報酬のモデリングと以前のものとの違いの一つは、参照モデル $\pi_{\text{ref}}$ の組み込みである。これには推論コストがかかることを認識している：報酬を計算するために、ポリシーモデルと参照モデルの両方が提供され、通常のPRMの2倍の推論コストがかかる。しかし、これは既存の選好学習アルゴリズムでは一般的であり、ポリシーモデル $\pi_{\theta}$ が開始チェックポイントから大きく逸脱するのを防ぐKL制約として機能する。さらに、§5.5.1で示すように、best-of-N サンプリングにおける推論オーバーヘッドの大部分は生成モデルから来ており、特に生成モデルが報酬モデルよりもはるかに大きい場合には、実際にはあまり問題にならない。また、§5.5.2で示すように、暗黙的なPRMがLlama-3.1-Instructのような選好学習を経た強力なモデルから構築される場合、 $\pi_{\text{ref}}$ を除外しても精度の低下はほとんどないか全くない。これにより、我々のアプローチは実践的に魅力的となる。なぜなら、既存のPRMと全く同じ推論オーバーヘッドでより高い精度を達成できるが、開発のオーバーヘッドは大幅に低くなるからである。

4 Experiments

4.1 Setup

Evaluation

標準的な慣行に従い (Lightman et al., 2023)、我々はPRMをMATH-500 (Hendrycks et al., 2021)においてbest-of-N (BoN)で評価する。 PRMの汎用性を研究するため、我々は各PRMを異なる能力レベルを持つ3つの生成モデルを用いてテストする： Mistral-Instruct-v0.3 (Jiang et al., 2023)、Llama-3.1-8B-Instruct、およびLlama-3.1-70B-Instruct (Meta, 2024)である。各完了に対して、我々はPRMを適用して各ステップにスコアを付け、最も低いステップ報酬を全体の応答のスコアとして選択する。また、自動データ収集とPRMトレーニングの両方で必要なFLOPsを含む、モデルの開発オーバーヘッドも比較する。

Training dataset

特に断りがない限り、我々はすべての実験を通じて以下のトレーニング設定を採用する： UltraInteract (Yuan et al., 2024)からの数学指示を使用し、Llama-3.1-8B-Instructを用いて指示ごとに8つのロールアウトをサンプリングし、その後、正解を用いてロールアウトの正確性を評価する。我々は経験的に決定された $\beta=0.05$ を用いて、Llama-3.1-8B-Instructに基づいてPRMをトレーニングする。

Implicit PRM instantiation

§3で示されたように、我々のアプローチは報酬が $r_{\theta}:=\beta\log\frac{\pi_{\theta}(\mathbf{y})}{\pi_{\text{ref}}(\mathbf{% y})}$ としてパラメータ化された任意の報酬モデリング目的関数で実装できる。我々は要件を満たす様々な目的関数を探索する。これにはDPO (Rafailov et al., 2023)、KTO (Ethayarajh et al., 2024)、NCA (Chen et al., 2024)、およびクロスエントロピー（CE）損失が含まれる。CE損失の実装については式5を参照されたい。 DPOとNCAについては、各正解ロールアウトを不正解の対応物とペアにし、これらの応答レベルのペアで我々のRMをトレーニングする。一方、KTOとCE損失については、ペアになっていない不均衡なロールアウトで直接トレーニングを行う。これは実際のシナリオでより一般的である。また、ペアデータの影響を分析するために、CEに対して2つのデータバランス設定も実装する。すなわち、データセット全体で単純に正と負の応答のバランスを取る方法と、より厳密に各指示ごとにバランスを取る方法である。我々はこれらの設定をデータセット単位バランスと指示単位バランスと呼ぶ。

Baselines

我々のベースラインには、既存の手法の我々による実装と、既製のオープンモデルが含まれる。公平な比較のため、我々はMath-Shepherd (Wang et al., 2023)とAutoPSV (Lu et al., 2024)を再実装した。これらはそれぞれのカテゴリーの代表的なアルゴリズムである。 Math-ShepherdはMCTS推定を用いてステップラベルに注釈を付ける。これは§2で説明されている。 AutoPSVは2段階戦略でステップに注釈を付ける。まず、各ステップのQ値を予測する結果監督検証器（OSV）をトレーニングし、次にOSVを使用してステップラベルに注釈を付ける。 PRMは、プロセスラベルを用いてOSVを継続的にトレーニングすることで得られる。我々はまた、6つの既製のORMとPRMと比較する。すなわち、EurusRM-7B (Yuan et al., 2024)、SkyworkRM-Llama3.1-8B (Liu et al., 2024)、ArmoRM-Llama3-8B (Wang et al., 2024)、Math-Shepherd-7B (Wang et al. (2023)の公式リリース)、RLHFlow-8B-Mistral-Data²²2https://huggingface.co/RLHFlow/Llama3.1-8B-PRM-Mistral-Data、およびRLHFlow-8B-DS-Data³³3https://huggingface.co/RLHFlow/Llama3.1-8B-PRM-DeepSeek-Dataである。これらの既製のベースラインは異なる指示と応答でトレーニングされているが、我々の2つの再実装は我々の暗黙的PRMと同じデータでトレーニングされていることに注意されたい。

4.2 Results

表1: 異なる報酬モデルの3つの異なる生成モデルにおけるMATHテストセットでのベストN個サンプリング性能。温度0.5で指示を完了する際、3つの生成モデルの精度はそれぞれ9.6%、44.6%、63.2%である。

Type	Reward Model	Mistral-7B-Inst-v0.2 Pass@1: 9.6			Llama-3.1-8B-Inst Pass@1: 44.6			Llama-3.1-70B-Inst Pass@1: 63.2			Avg.
Type	Reward Model	@4	@16	@64	@4	@16	@64	@4	@16	@64	Avg.
Open-Source Reward Models
ORM	EurusRM-7B	17.2	21.0	20.4	49.6	51.6	51.8	69.0	69.6	72.2	46.9
	SkyworkRM-Llama3.1-8B	16.0	19.6	23.4	49.0	50.4	48.2	70.4	72.6	72.0	46.8
	ArmoRM-Llama3-8B	16.6	21.0	23.2	47.8	48.6	49.4	70.6	70.8	71.0	46.6
PRM	Math-Shepherd-7B	16.0	21.0	20.4	50.0	52.4	52.8	66.4	65.8	65.6	45.6
	RLHFlow-8B-Mistral-Data	19.4	25.2	30.2	51.8	52.0	50.6	70.8	71.0	71.2	49.1
	RLHFlow-8B-DS-Data	17.2	23.0	25.2	54.4	54.2	55.8	68.6	70.4	73.0	49.1
Our Implementations
Baselines	Math-Shepherd	17.6	24.4	26.8	50.0	51.4	52.8	68.6	69.4	68.8	47.8
Baselines	AutoPSV	16.6	20.6	22.2	52.2	51.4	52.2	68.4	65.4	62.4	45.7
Implicit PRM	DPO	18.6	24.4	28.8	54.0	55.4	57.0	71.8	71.2	72.2	50.4
	KTO	15.6	18.4	18.6	49.6	51.8	50.8	72.6	67.0	67.2	45.7
	NCA	18.6	23.8	28.0	52.4	53.4	55.2	69.0	73.0	71.6	49.4
	CE	18.8	24.0	28.0	52.6	54.4	53.0	70.6	67.0	67.2	48.4
	CE (Dataset-wise Balanced)	18.0	23.6	27.0	52.6	54.2	52.6	68.6	66.8	67.0	47.8
	CE (Inst.-wise Balanced)	17.6	22.6	26.2	52.6	55.2	54.6	69.4	71.2	72.0	49.0

Various implicit reward modeling objectives outperform baselines

表1に示されたBoNの結果によると、我々の暗黙的PRMの4つの変種はすべて、3つの異なる生成モデルの精度を一貫して向上させている。その中でも、DPOは平均精度50.4を達成し、全般的に最も優れた性能を示しており、平均精度49.4のNCAがそれに続いている。 CEは、ペアになっていないアンバランスなデータで訓練されているにもかかわらず、強力な性能を示している。具体的には、平均精度48.4で、我々が実装したMath-ShepherdとAutoPSVをそれぞれ0.6と2.7上回り、RLHFlow-8B-Mistral-DataとRLHFlow-8B-DS-Data（どちらも49.1を達成）を除く他のオープンソースの報酬モデルを上回っている。これは、ペアデータの収集が困難な実世界のアプリケーションにおける潜在的な可能性を示している。それにもかかわらず、CE対CE（指示ごとにバランスを取ったもの）の比較によると、訓練データセットにおいて各指示に対してポジティブとネガティブの応答のバランスを取ることは依然として有益であり、これは分類損失としてのCEに関する従来の理解と一致している。しかし、CE（データセット全体でバランスを取ったもの）とCEを比較すると、単にデータの多いクラスの例をランダムにフィルタリングしてデータセット全体のバランスを取ることは有害である可能性がある。

Refer to caption — 図2: データ収集と訓練におけるFLOPsの観点から見た、異なるPRMの開発オーバーヘッド。 X軸は訓練データの規模を決定する指示あたりの応答数を示し、Y軸はFLOPs数を示している。我々の暗黙的PRMは、ベースラインと比較して常に最小のFLOPsを消費し、CEは異なるデータセット規模においてMath-Shepherdと比較して38.6 $\times$ から38.8 $\times$ 倍効率的である。

Our Implicit PRMs reduce the overhead of data collection and training by $38.8\times$

図2に示されているように、3つの異なる訓練データ規模において、Math-Shepherdは一般的に暗黙的PRM（CE）よりも38.8倍多くのFLOPsを要する。暗黙的PRM（DPO）と比較すると、指示あたりの応答数に応じてそれぞれ146.5倍、49.9倍、21.3倍となる。

我々は図1に、消費されたトークン数に対応する各手法の平均性能のスケーリング傾向をプロットしており、これにより我々の暗黙的PRMが、はるかに少ないデータ収集と訓練オーバーヘッドでより良い性能を達成していることが明確に見て取れる。

5 Analysis

5.1 Incorporating Majority Voting

我々の暗黙的PRMは多数決投票と統合することで、さらにパフォーマンスを向上させることができる。これまでは、我々の暗黙的PRMを適用して各応答にスコアを付け、最も高い個別スコアを持つ応答を最終回答として選択していた。しかし、多数決投票と組み合わせる場合、同じ回答につながる応答のスコアが集計され、最も高い集計スコアを持つ回答が最終回答として選択される。図3に、3つの生成モデル全てにわたる問題ごとの候補解の数に対する平均結果を示す。

我々は、暗黙的PRMが投票分布を成功裏に調整し、暗黙的PRMや多数決投票を単独で使用するよりも優れた結果を達成することを観察した。特に、KTOとCEの変種は統合から最も恩恵を受け、どちらも単独の多数決投票を上回ることはできなかったが、重み付けされたbest-of-Nを通じてそれを凌駕している。また、CE損失が多数決投票と組み合わせた際に最も効果的になることは注目に値し、再びその潜在性を示している。

5.2 Scaling Up Instructions and Responses can Improve Implicit PRMs

Setup

我々は、訓練データセットの指示文と応答の両方についてDPOとCEを用いてスケーリング分析を行う。指示文のスケーリングについては、25%、50%、75%の指示文をランダムにダウンサンプリングして我々の暗黙的PRMを訓練する。応答のスケーリングについては、DPOはペアになった応答でのみ訓練できるため、それぞれ2、4、8回のロールアウトでモデルを訓練する。一方CEでは、指示文ごとに1回のロールアウトのみでの訓練も実装し、これはペアなしセットアップの極端なケースである。

Results

結果を図4および図5にそれぞれ示す。得られた知見は以下の通りである： (1) 指示文と応答のスケーリングは、一貫して我々の暗黙的PRMの性能を向上させる。この傾向は特にMistral-7B-Inst-v0.2とLlama-3.1-8B-Instで明確であるが、Llama-3.1-70B-Instではいくつかの外れ値も存在する。 (2) 指示文と比較して、応答のスケールアップは暗黙的PRMにより大きな影響を与えるようである。これは、最小データセットアップと最大データセットアップの間の性能変動がより大きいことに反映されている。応答のスケーリングをより詳細に見ると、 (3) DPOは適切な性能を得るためにCEよりも多くのデータを必要とする。図5(a)から、DPOは指示文ごとに2つの応答では十分に訓練されていないことがわかる。これは部分的に、指示文の量が不十分であることに起因する可能性がある：2つの応答では我々のDPO変種を訓練するペアを構成できず、そのため多くの指示文が訓練に使用できない。対照的に、CEは一般的に不十分なデータでもより良い性能を示し、ペアを用いて指示文ごとに1つの応答で訓練された場合でも、常に異なる生成モデルを改善できる。これはペアなしセットアップの極端なケースである。このことは、現実世界のデータ不足シナリオにおいて大きな利点となる。

5.3 Are There Any Other Factors can Improve Implicit PRM Performance?

我々は、暗黙的PRMの性能に影響を与える可能性のある要因を以下のように考察する：

Task-irrelevant Instructions

我々はこれまで数学の指示のみを考慮してきた。ここでは、下流タスクに無関係な指示であっても、指示の多様性を増やすことが暗黙的PRMに利益をもたらすかどうかを検討する。この目的のため、UltraFeedback (Cui et al., 2024) からの一般的な指示とUltraInteract (Yuan et al., 2024) からのコーディング指示を我々の訓練データセットに組み込む。元のデータセットからの応答を直接使用するが、UltraFeedbackについては、すべてのペアを使用する代わりに、各指示に対してランダムに1つのペアのみを選択する。

Response Diversity

まず、8グラムの重複に基づいて我々の選好データセットの重複排除を行い、繰り返される応答がモデルの性能を損なうかどうかを検証する。次に、元の訓練データセットの各指示に対する4つのロールアウトを、Llama-3.1-8B-Baseモデルによって生成された別の4つのロールアウトでランダムに置き換える。

Training on Step Labels

我々の暗黙的PRMは訓練にステップラベルを必要としない。しかし、ステップラベルを追加することでさらに性能を向上させることができるかどうかを探究することに興味がある。プロセスラベルの定義に基づき、正のラベルに対しては暗黙的報酬を増加させ、負のラベルに対しては減少させることでステップの暗黙的報酬を調整する。我々は実装したMath-Shepherdから得られたラベルを使用する。これは高品質なステップラベルを持つ強力な実装であることが示されている（§4）。最適化のためにKTOをステップレベルのバージョンに適応させる。したがって、ステップラベル $\{l^{1},l^{2},\dots,l^{n}\}$ を持つ $n$ ステップの応答を考慮し、現在の暗黙的PRMに対して第2段階の訓練を行い、暗黙的報酬を明示的に最適化する： $\mathcal{L_{\theta}}=-\frac{1}{n}\sum_{t=1}^{n}\log\left(\sigma\left(l^{t}% \cdot\left|r^{t}_{\theta}\right|\right)\right)$ 。

表2：PRMの性能に影響を与える可能性のある要因。驚くべきことに、これらのいずれも我々の暗黙的PRMを一貫して改善しない。

Setup	Mistral-7B-Inst-v0.2			Llama-3.1-8B-Inst			Llama-3.1-70B-Inst			Avg.
Setup	@4	@16	@64	@4	@16	@64	@4	@16	@64	Avg.
Implicit PRM	18.6	24.4	28.8	54.0	55.4	57.0	71.8	71.2	72.2	49.3
+ UltraFeedback	19.4	24.4	29.0	53.8	55.0	55.8	71.6	70.6	72.2	49.2
+ UltraInteract (Code)	19.2	24.6	28.0	54.6	54.0	56.8	71.4	70.8	70.0	49.2
+ Dedup.	18.2	22.8	26.8	52.0	53.2	51.6	69.8	69.4	70.4	47.6
+ Base Resp.	17.8	23.2	27.6	54.0	55.0	54.8	71.4	72.4	73.2	48.7
+ Step Label	18.8	25.4	28.8	53.8	54.8	54.6	70.8	71.2	73.0	49.2

Results

表2に暗黙的PRM（DPO）の結果を示す。一般的に、これらの要因のいずれも一貫した利益をもたらさない。 (1) UltraFeedbackとUltraInteract（コード）の指示を追加することは両方とも性能を損ない、前者はより深刻な影響を受ける。これは、下流タスクから逸脱した訓練指示が暗黙的PRMの性能を低下させる可能性があることを示唆している。 (2) 応答の多様性に関しては、応答の重複排除が性能を損ない、同程度のデータ量で訓練された暗黙的PRMに近い性能を示すことを観察した。これは、繰り返される応答が他の応答と同様に機能し、モデルの性能が飽和するまでは依然として有益であることを示している。元のロールアウトの一部をベースモデルによって生成されたものに置き換えても性能は向上しない。 (3) 追加のプロセスラベルを用いてステップレベルのKTOを実施しても利益をもたらさず、プロセスラベルなしで強力なPRMを訓練できるという我々の主張を裏付けている。しかし、ステップワイズのラベルが一般的に有用でないと結論付けることには、我々の実験における2つの要因から慎重であるべきである：第一に、我々の努力により以前の研究と比較してステップ注釈の品質が向上したにもかかわらず、MCTSベースのアプローチは不可避的にデータ注釈プロセスにノイズを導入する。これについては§2で議論した；第二に、我々のアルゴリズムの選択が最適でない可能性がある。より高度なPRMデータ注釈方法と訓練アルゴリズムを用いれば、最終的に（ノイズの多い）ステップワイズラベルからの情報を暗黙的PRMに統合できる可能性がある。

5.4 PRM Ability Does Not Translate into Policy Performance

表3: 問題を直接解く際の暗黙的PRMのMATH500における性能。

Model	Accuracy
Llama-3.1-8B-Inst	45.2
+ DPO	25.8
+ KTO	46.6
+ NCA	35.6
+ CE	28.6

暗黙的PRMは自己回帰的な方法で訓練され、時には方策モデルの改善に主に使用される選好学習アルゴリズムを直接用いる。そのため、因果的言語モデルとしての性質を保持し、下流の問題を直接解決するための方策モデルとしても機能し得る。本節では、MATH500 (Hendrycks et al., 2021; Lightman et al., 2023) でテストを行い、PRMとしての能力と方策モデルとしての性能の相関を分析する。

表3によると、Llama-3.1-8B-Instructと比較して、KTOでの訓練のみがMATH500で改善をもたらしている。興味深いことに、表1に基づくと、KTOは暗黙的PRMとしては最も性能が低い。対照的に、多数決なしおよび多数決ありの設定でそれぞれ最高の性能を示すDPOとCEの2つのアルゴリズムは、最低の精度を達成している。これは、PRMの能力が方策モデルの改善に伴って向上するわけではなく、両者の能力間に予期せぬトレードオフが存在する可能性があることを示している。

5.5 Can We Reduce the Inference Overhead of the Reference Model?

我々のアプローチに関する一つの懸念は、推論時に追加の参照モデルが必要となることである。しかし、実際には参照モデルが全体の推論オーバーヘッドを2倍にすることはない。特に生成モデルが報酬モデルよりもはるかに大きい場合はそうである（§5.5.1）。次に、§5.5.2では、特定の場合において推論時に参照モデルを除去できることを示す。

5.5.1 The Reference Model Does not Double Overall Inference Overhead

Setup

我々は、MATH500における最良のN個のサンプリングの実際の時間コストを計算する。全体のプロセスには、(1)生成モデルを使用して指示に対する複数の候補解を生成すること、(2)PRMを使用して各候補をスコアリングすることが含まれる。我々は前者の実装にvLLM (Kwon et al., 2023)を、後者にHuggingface Accelerate (Gugger et al., 2022)を使用する。

表4: 最良のN個のサンプリング中のGPU時間コスト（生成モデルのコストに対する相対値、%）。3つのテストセットにおけるベースラインの全体的な推論オーバーヘッドは、我々の暗黙的PRMのそれぞれ66.6%、70.8%、90.9%である。つまり、参照モデルは実際には推論コストを2倍にせず、生成モデルが大きくなるほど追加の推論オーバーヘッドはより小さくなる。

Source of Cost	Method	Mistral-7B-Inst-v0.2	Llama-3.1-8B-Inst	Llama-3.1-70B-Inst
Generation Model	-	100.0	100.0	100.0
Reward Model	Baselines	33.5	29.4	9.1
Reward Model	Implicit PRM	201.6	141.7	22.2
Total	Baselines	200.9	171.1	111.1
Total	Implicit PRM	301.6	241.7	122.2

Results

表4に、A100 80Gにおける生成モデルに対する相対的なGPU時間コストを示す。生成モデルからの推論オーバーヘッドが全体のオーバーヘッドの大部分を占めることがわかる。特に生成モデルが報酬モデルよりもはるかに大きい場合はそうである。したがって、我々の暗黙的PRMにおける参照モデルは、実際には全体の推論コストを2倍にしない：3つのテストセットにおけるベースラインの全体的な推論オーバーヘッドは、我々のものの66.6%、70.8%、90.9%である。注目すべきは、参照モデルによって導入される追加のオーバーヘッドが、生成モデルが大きくなるほどより小さくなり、Llama-3.1-70B-Instructが生成モデルとして機能する場合にはほとんど無視できるほどになることである。

5.5.2 The Reference Model Can be Removed at Inference in Certain Cases

我々の提案は、一様分布の参照モデル、つまり $\log\pi_{\text{ref}}=constant$ の下でも成立することに注目する。最良のN個のサンプリングでは、ステップまたは応答間の相対的なスコアのみが重要であり、定数 $\log\pi_{\text{ref}}$ は相殺され、報酬のパラメータ化から参照モデルを除外することと同等になる。したがって、参照モデルを除去することで、我々の提案のより効率的な実装を導出する。その有効性を検証し、実際に推論オーバーヘッドを削減するために我々の手法を簡略化できるかを探る。

表5: 訓練と推論の両方で参照モデルを除去する。どちらも我々の暗黙的PRMを一貫して損なうことはない。さらに驚くべきことに、参照モデルであるLlama-3.1-8B-Instructは、最良のN個のサンプリングですでに良好な性能を示している。

Setup		Mistral-7B-Inst-v0.2			Llama-3.1-8B-Inst			Llama-3.1-70B-Inst			Avg.
Train	Inference	@4	@16	@64	@4	@16	@64	@4	@16	@64	Avg.
Llama-3.1-8B-Instruct	w/o Ref	14.8	16.2	18.4	49.0	50.4	52.2	69.6	71.0	71.0	45.8
+ DPO w/ Ref	w/ Ref	18.6	24.4	28.8	54.0	55.4	57.0	71.8	71.2	72.2	50.4
+ DPO w/ Ref	w/o Ref	17.8	23.4	27.8	54.2	56.6	57.6	71.6	73.6	73.2	50.6
+ DPO w/o Ref	w/ Ref	17.8	23.4	28.4	54.0	55.2	57.6	70.6	72.0	73.2	50.2
+ DPO w/o Ref	w/o Ref	17.4	22.6	25.6	54.8	56.4	58.2	70.4	73.2	74.0	50.3

Setup

このため、我々は2つのモデル訓練構成を探索する：参照モデルを用いて結果の報酬をパラメータ化する場合と、用いない場合である。次に、両モデルを最良のN個のサンプリングに適用し、参照モデルを含めることが性能に影響を与えるかどうかを評価する。また、以前の実験で我々の暗黙的PRMの参照モデルとして使用したLlama-3.1-8B-Instructを直接報酬モデルとして使用する場合と比較する。これは、我々のデータに対するRM訓練を行っていないが、選好学習を経ている(Meta, 2024)制御されたベースラインとして機能する。

Results

驚くべきことに、訓練と推論の両方で参照モデルを除去しても性能の低下は観察されず、我々のアプローチのより実用的に効率的な変形を示唆している。さらに、Llama-3.1-8B-Instructも強力な性能を達成している。これは、参照モデルを除去できる理由を潜在的に説明している：参照モデルはすでに「良い」ステップに適切に高い報酬を、「悪い」ステップに低い報酬を割り当てる能力がある。プロセス報酬が $\sum_{i=t-1}^{t}\beta\log\pi_{\theta}(y_{i}|\mathbf{y}_{<i})/\pi_{\text{ref}}(% y_{i}|\mathbf{y}_{<i})$ であることを思い出そう。直感的には、良いステップは $\pi_{\theta}$ と $\pi_{\text{ref}}$ の両方から高い確率を受け取り、したがってその報酬を下げる可能性がある；一方、悪いステップは両方から低い確率を受け取り、それによってその報酬を増加させる可能性がある。これはPRMに混乱を引き起こす。我々は、この挙動が実際にRL訓練中に有益であると主張する：参照モデル $\pi_{\text{ref}}$ が特定のアクションですでに良好な性能を示している場合、より小さな報酬と結果として小さな方策勾配が、これらのすでに最適化されたアクションに対する方策モデル $\pi_{\theta}$ の過剰訓練を防ぐ。しかし、このような推論時の応答選択タスクでは望ましくない。これは、我々の暗黙的PRMが実際に特に魅力的であることを示唆している。なぜなら、ほとんどの場合、実践者はLlama-3.1-8B-Instructのような強力な参照モデルからPRMを構築するからである。そのような場合、上記の結果が示すように、 $\pi_{\text{ref}}$ は性能を損なうことなく推論時に除外でき、我々のアプローチは、実質的により安価な訓練で、追加の推論オーバーヘッドを導入することなく、ベースラインよりも強力な性能を達成できる。

6 Related Work

Complex Reasoning of LLMs

複雑な推論は大規模言語モデル（LLM）の重要な能力となっているが、最先端のモデルでさえ依然として課題となっている(Jimenez et al., 2024; Tian et al., 2024)。 LLMの推論能力を向上させるために、事前学習(Azerbayev et al., 2024; Paster et al., 2024; Li et al., 2023)、事後学習(Luo et al., 2024b; Yue et al., 2024; Yuan et al., 2024; Meta, 2024; Ouyang et al., 2022)、推論(Wei et al., 2022; Fu et al., 2023; Hao et al., 2023; Lightman et al., 2023)など、ライフサイクルの様々な段階で多様な技術が探求されてきた。その中でも、モデルの出力を段階的に評価するプロセス報酬モデル（PRM）(Lightman et al., 2023)は、様々な設定での有効性から近年注目を集めている。

Implicit Reward

暗黙の報酬は、すでに選好学習において広く採用されている。主要な研究は主に教師あり微調整の上でモデルを調整するためにこれらのアルゴリズムを適用することに焦点を当てているが(Rafailov et al., 2023; Azar et al., 2024; Ethayarajh et al., 2024; Chen et al., 2024; Rosset et al., 2024; Wu et al., 2024)、最近の研究では結果として得られるモデルの暗黙の報酬を結果報酬として活用することも試みられている(Lambert et al., 2024; Zhong et al., 2024; Hosseini et al., 2024)。さらに、DPOが自動的にQ関数を学習できることを示したRafailov et al. (2024)に続いて、Qiu et al. (2024)はこの特性を活用してDPOモデルに限定された自己誘導デコーディングアルゴリズムを考案している。しかしながら、DPOモデルを既製の報酬モデルやQ関数として採用するこれらの応用にもかかわらず、そのような能力を特に改善することや、既製のモデルに基づいて適切なPRMを導出する方法を調査することを目的とした既存の研究は存在しない。

7 Conclusion

我々は、政策モデルと参照モデルの対数尤度比として結果報酬をパラメータ化することで $\log\frac{\pi_{\theta}(y)}{\pi_{\text{ref}}(y)}$ 、PRMが追加の訓練要件なしに本質的に学習できることを示す理論的命題から始める。我々は、異なる訓練目的を具現化するためのその普遍性について議論する。実験では、様々な暗黙的報酬モデリング目的が、MATHにおいてベースラインを上回る性能を示し、特にCE損失において、精度と開発オーバーヘッドの間で実質的により良いトレードオフを実現することを実証する。暗黙的PRMの性能は、多数決投票によってさらに改善できる。さらに、指示と応答のスケールアップは我々の暗黙的PRMに利益をもたらし、後者がより大きな効果を持つが、指示はダウンストリームタスクに関連している必要がある一方で、応答の多様性は利益をもたらさない。驚くべきことに、追加のMath-Shepherdステップラベルで訓練しても、結果データのみで訓練された我々の暗黙的PRMにさらなる改善をもたらさない。

References

Azar et al. (2024) Mohammad Gheshlaghi Azar, Mark Rowland, Bilal Piot, Daniel Guo, Daniele Calandriello, Michal Valko, and Rémi Munos. A general theoretical paradigm to understand learning from human preferences. International Conference on Artificial Intelligence and Statistics, abs/2310.12036, 2024.
Azerbayev et al. (2024) Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen Marcus McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, and Sean Welleck. Llemma: An open language model for mathematics. ICLR, 2024.
Cao et al. (2024) Meng Cao, Lei Shu, Lei Yu, Yun Zhu, Nevan Wichers, Yinxiao Liu, and Lei Meng. Enhancing reinforcement learning with dense rewards from language model critic. In EMNLP, 2024.
Chan et al. (2024) Alex J. Chan, Hao Sun, Samuel Holt, and Mihaela van der Schaar. Dense reward for free in reinforcement learning from human feedback. ICML, 2024.
Chen et al. (2024) Huayu Chen, Guande He, Lifan Yuan, Ganqu Cui, Hang Su, and Jun Zhu. Noise contrastive alignment of language models with explicit rewards. ArXiv, abs/2402.05369, 2024.
Cui et al. (2024) Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Bingxiang He, Wei Zhu, Yuan Ni, Guotong Xie, Ruobing Xie, Yankai Lin, Zhiyuan Liu, and Maosong Sun. Ultrafeedback: Boosting language models with scaled ai feedback. In ICML, 2024.
Ding et al. (2023) Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, and Bowen Zhou. Enhancing chat language models by scaling high-quality instructional conversations. arXiv preprint arXiv:2305.14233, 2023.
Ethayarajh et al. (2024) Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, and Douwe Kiela. Kto: Model alignment as prospect theoretic optimization. ICML, 2024.
Fu et al. (2023) Yao Fu, Hao Peng, Ashish Sabharwal, Peter Clark, and Tushar Khot. Complexity-based prompting for multi-step reasoning. ICLR, 2023.
Gugger et al. (2022) Sylvain Gugger, Lysandre Debut, Thomas Wolf, Philipp Schmid, Zachary Mueller, Sourab Mangrulkar, Marc Sun, and Benjamin Bossan. Accelerate: Training and inference at scale made simple, efficient and adaptable. https://github.com/huggingface/accelerate, 2022.
Hao et al. (2023) Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, and Zhiting Hu. Reasoning with language model is planning with world model. EMNLP, 2023.
Hendrycks et al. (2021) Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Xiaodong Song, and Jacob Steinhardt. Measuring mathematical problem solving with the math dataset. ArXiv, 2021.
Hosseini et al. (2024) Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron C. Courville, Alessandro Sordoni, and Rishabh Agarwal. V-star: Training verifiers for self-taught reasoners. COLM, 2024.
Jiang et al. (2023) Albert Qiaochu Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de Las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, L’elio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, and William El Sayed. Mistral 7b. ArXiv, abs/2310.06825, 2023.
Jimenez et al. (2024) Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, and Karthik Narasimhan. Swe-bench: Can language models resolve real-world github issues? ICLR, 2024.
Kwon et al. (2023) Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, and Ion Stoica. Efficient memory management for large language model serving with pagedattention. In Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles, 2023.
Lambert et al. (2024) Nathan Lambert, Valentina Pyatkin, Jacob Daniel Morrison, Lester James Validad Miranda, Bill Yuchen Lin, Khyathi Raghavi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, and Hanna Hajishirzi. Rewardbench: Evaluating reward models for language modeling. ArXiv, abs/2403.13787, 2024.
Leike (2024) Jan Leike, 2024. URL https://x.com/janleike/status/1821940180032594393?s=46.
Li et al. (2023) Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, Qian Liu, Evgenii Zheltonozhskii, Terry Yue Zhuo, Thomas Wang, Olivier Dehaene, Mishig Davaadorj, Joel Lamy-Poirier, João Monteiro, Oleh Shliazhko, Nicolas Gontier, Nicholas Meade, Armel Randy Zebaze, Ming-Ho Yee, Logesh Kumar Umapathi, Jian Zhu, Benjamin Lipkin, Muhtasham Oblokulov, Zhiruo Wang, Rudra Murthy, Jason Stillerman, Siva Sankalp Patel, Dmitry Abulkhanov, Marco Zocca, Manan Dey, Zhihan Zhang, Nourhan Fahmy, Urvashi Bhattacharyya, W. Yu, Swayam Singh, Sasha Luccioni, Paulo Villegas, Maxim Kunakov, Fedor Zhdanov, Manuel Romero, Tony Lee, Nadav Timor, Jennifer Ding, Claire Schlesinger, Hailey Schoelkopf, Jana Ebert, Tri Dao, Mayank Mishra, Alexander Gu, Jennifer Robinson, Carolyn Jane Anderson, Brendan Dolan-Gavitt, Danish Contractor, Siva Reddy, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Carlos Muñoz Ferrandis, Sean M. Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, and Harm de Vries. Starcoder: may the source be with you! TMLR, 2023.
Lightman et al. (2023) Hunter Lightman, Vineet Kosaraju, Yura Burda, Harrison Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, and Karl Cobbe. Let’s verify step by step. ArXiv, 2023.
Liu et al. (2024) Chris Yuhao Liu, Liang Zeng, Jiacai Liu, Rui Yan, Jujie He, Chaojie Wang, Shuicheng Yan, Yang Liu, and Yahui Zhou. Skywork-reward: Bag of tricks for reward modeling in llms. arXiv preprint arXiv:2410.18451, 2024.
Lu et al. (2024) Jianqiao Lu, Zhiyang Dou, Hongru Wang, Zeyu Cao, Jianbo Dai, Yingjia Wan, Yinya Huang, and Zhijiang Guo. Autopsv: Automated process-supervised verifier. ArXiv, abs/2405.16802, 2024.
Luo et al. (2024a) Liangchen Luo, Yinxiao Liu, Rosanne Liu, Samrat Phatale, Harsh Lara, Yunxuan Li, Lei Shu, Yun Zhu, Lei Meng, Jiao Sun, and Abhinav Rastogi. Improve mathematical reasoning in language models by automated process supervision. ArXiv, abs/2406.06592, 2024a.
Luo et al. (2024b) Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, and Daxin Jiang. Wizardcoder: Empowering code large language models with evol-instruct. ICLR, 2024b.
Mahan et al. (2024) Dakota Mahan, Duy Phung, Rafael Rafailov, Chase Blagden, Nathan Lile, Louis Castricato, Jan-Philipp Franken, Chelsea Finn, and Alon Albalak. Generative reward models. 2024.
Meta (2024) Meta. Llama 3 model card. Github, 2024. URL https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.
Ouyang et al. (2022) Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke E. Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Francis Christiano, Jan Leike, and Ryan J. Lowe. Training language models to follow instructions with human feedback. ArXiv, abs/2203.02155, 2022.
Paster et al. (2024) Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, and Jimmy Ba. Openwebmath: An open dataset of high-quality mathematical web text, 2024.
Qiu et al. (2024) Jiahao Qiu, Yifu Lu, Yifan Zeng, Jiacheng Guo, Jiayi Geng, Huazheng Wang, Kaixuan Huang, Yue Wu, and Mengdi Wang. Treebon: Enhancing inference-time alignment with speculative tree-search and best-of-n sampling. 2024.
Rafailov et al. (2023) Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. NeurIPS, 2023.
Rafailov et al. (2024) Rafael Rafailov, Joey Hejna, Ryan Park, and Chelsea Finn. From $r$ to $q^{*}$ : Your language model is secretly a q-function. ArXiv, 2024.
Rosset et al. (2024) Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, and Tengyang Xie. Direct nash optimization: Teaching language models to self-improve with general preferences. ArXiv, abs/2404.03715, 2024.
Setlur et al. (2024) Amrith Rajagopal Setlur, Chirag Nagpal, Adam Fisch, Xinyang Geng, Jacob Eisenstein, Rishabh Agarwal, Alekh Agarwal, Jonathan Berant, and Aviral Kumar. Rewarding progress: Scaling automated process verifiers for llm reasoning. 2024.
Snell et al. (2024) Charlie Snell, Jaehoon Lee, Kelvin Xu, and Aviral Kumar. Scaling llm test-time compute optimally can be more effective than scaling model parameters. ArXiv, abs/2408.03314, 2024.
Tian et al. (2024) Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Min Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, E. A. Huerta, and Hao Peng. Scicode: A research coding benchmark curated by scientists. Arxiv, 2024.
Touvron et al. (2023) Hugo Touvron, Louis Martin, Kevin R. Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Daniel M. Bikel, Lukas Blecher, Cristian Cantón Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony S. Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel M. Kloumann, A. V. Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, R. Subramanian, Xia Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zhengxu Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, and Thomas Scialom. Llama 2: Open foundation and fine-tuned chat models. ArXiv, abs/2307.09288, 2023.
Wang et al. (2024) Haoxiang Wang, Wei Xiong, Tengyang Xie, Han Zhao, and Tong Zhang. Interpretable preferences via multi-objective reward modeling and mixture-of-experts. In EMNLP, 2024.
Wang et al. (2023) Peiyi Wang, Lei Li, Zhihong Shao, Runxin Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, and Zhifang Sui. Math-shepherd: Verify and reinforce llms step-by-step without human annotations. ArXiv, 2023.
Wei et al. (2022) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Huai hsin Chi, F. Xia, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. NeurIPS, 2022.
Wu et al. (2024) Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, and Quanquan Gu. Self-play preference optimization for language model alignment. ArXiv, abs/2405.00675, 2024.
Yuan et al. (2024) Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, and Maosong Sun. Advancing llm reasoning generalists with preference trees. ArXiv, 2024.
Yue et al. (2024) Xiang Yue, Tuney Zheng, Ge Zhang, and Wenhu Chen. Mammoth2: Scaling instructions from the web. NeurIPS, 2024.
Zhang et al. (2024a) Hanning Zhang, Pengcheng Wang, Shizhe Diao, Yong Lin, Rui Pan, Hanze Dong, Dylan Zhang, Pavlo Molchanov, and Tong Zhang. Entropy-regularized process reward model, 2024a.
Zhang et al. (2024b) Kaiyan Zhang, Sihang Zeng, Ermo Hua, Ning Ding, Zhang-Ren Chen, Zhiyuan Ma, Haoxin Li, Ganqu Cui, Biqing Qi, Xuekai Zhu, et al. Ultramedical: Building specialized generalists in biomedicine. arXiv preprint arXiv:2406.03949, 2024b.
Zhang et al. (2024c) Lunjun Zhang, Arian Hosseini, Hritik Bansal, Mehran Kazemi, Aviral Kumar, and Rishabh Agarwal. Generative verifiers: Reward modeling as next-token prediction. 2024c.
Zhong et al. (2024) Han Zhong, Guhao Feng, Wei Xiong, Li Zhao, Di He, Jiang Bian, and Liwei Wang. Dpo meets ppo: Reinforced token optimization for rlhf. ArXiv, abs/2404.18922, 2024.
Zhu et al. (2023) Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu, and Jiantao Jiao. Starling-7b: Improving llm helpfulness & harmlessness with rlaif, November 2023.

Appendix A Proof of Proposition

Proposition A.1.

2つの因果的言語モデルの対数尤度比によってパラメータ化された報酬を持つORMを考える。すなわち、 $r_{\theta}(\mathbf{y}):=\beta\log\frac{\pi_{\theta}(\mathbf{y})}{\pi_{\text{% ref}}(\mathbf{y})}$ である。 $q_{\theta}^{t}(\mathbf{y}_{<t},y_{t}):=\sum_{i=1}^{t}\beta\log\frac{\pi_{% \theta}(y_{i}|\mathbf{y}_{<i})}{\pi_{\text{ref}}(y_{i}|\mathbf{y}_{<i})}$ と定義する。 $q_{\theta}^{t}$ はステップ $t$ における $r_{\theta}$ の指数平均である。

q_{\theta}^{t}(\mathbf{y}_{<t},y_{t})=\beta\log\mathbb{E}_{\pi_{\text{ref}}(% \mathbf{y}|\mathbf{y}_{\leq t})}e^{\frac{1}{\beta}r_{\theta}(\mathbf{y})}

(6)

Proof.

この命題は数学的帰納法を用いて証明することができる。

応答 $\mathbf{y}$ が $T$ 個のトークンを持つと仮定する。

(1) $\forall t<T$ について、 $q_{\theta}^{t+1}(\mathbf{y}_{<t+1},y_{t+1})=\beta\log\mathbb{E}_{\pi_{\text{% ref}}(\mathbf{y}|\mathbf{y}_{\leq{t+1}})}e^{\frac{1}{\beta}r_{\theta}(\mathbf{% y})}$ が成り立つならば、 $q_{\theta}^{t}(\mathbf{y}_{<t},y_{t})=\beta\log\mathbb{E}_{\pi_{\text{ref}}(% \mathbf{y}|\mathbf{y}_{\leq t})}e^{\frac{1}{\beta}r_{\theta}(\mathbf{y})}$ も成り立つ。

(2) $t=T$ において、 $q_{\theta}^{T}(\mathbf{y}_{<T},y_{T})=r_{\theta}(\mathbf{y})=\beta\log\mathbb{% E}_{\pi_{\text{ref}}(\mathbf{y}|\mathbf{y}_{\leq T})}e^{\frac{1}{\beta}r_{% \theta}(\mathbf{y})}$ である。

(1)の証明:

	$\displaystyle\beta\log\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y}\|\mathbf{y}_{\leq t% })}e^{\frac{1}{\beta}r_{\theta}(\mathbf{y})}$	$\displaystyle=\beta\log\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y_{t+1}}\|\mathbf{y% }_{\leq t})}\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y}\|\mathbf{y}_{\leq t+1})}e^{% \frac{1}{\beta}r_{\theta}(\mathbf{y})}$
		$\displaystyle=\beta\log\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y_{t+1}}\|\mathbf{y% }_{\leq t})}e^{\frac{1}{\beta}q_{\theta}^{t+1}(\mathbf{y}_{<t+1},y_{t+1})}$
		$\displaystyle=\beta\log\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y_{t+1}}\|\mathbf{y% }_{\leq t})}\prod_{i=1}^{t+1}\frac{\pi_{\theta}(y_{i}\|\mathbf{y}_{<i})}{\pi_{% \text{ref}}(y_{i}\|\mathbf{y}_{<i})}$
		$\displaystyle=\beta\log\prod_{i=1}^{t}\frac{\pi_{\theta}(y_{i}\|\mathbf{y}_{<i}% )}{\pi_{\text{ref}}(y_{i}\|\mathbf{y}_{<i})}\mathbb{E}_{\pi_{\text{ref}}(% \mathbf{y_{t+1}}\|\mathbf{y}_{\leq t})}\frac{\pi_{\theta}(y_{t+1}\|\mathbf{y}_{% \leq t})}{\pi_{\text{ref}}(y_{t+1}\|\mathbf{y}_{\leq t})}$
		$\displaystyle=\beta\log\prod_{i=1}^{t}\frac{\pi_{\theta}(y_{i}\|\mathbf{y}_{<i}% )}{\pi_{\text{ref}}(y_{i}\|\mathbf{y}_{<i})}\sum_{y_{t+1}}{\pi_{\text{ref}}(y_{% t+1}\|\mathbf{y}_{\leq t})\frac{\pi_{\theta}(y_{t+1}\|\mathbf{y}_{\leq t})}{\pi_% {\text{ref}}(y_{t+1}\|\mathbf{y}_{\leq t})}}$
		$\displaystyle=\beta\log\prod_{i=1}^{t}\frac{\pi_{\theta}(y_{i}\|\mathbf{y}_{<i}% )}{\pi_{\text{ref}}(y_{i}\|\mathbf{y}_{<i})}\sum_{y_{t+1}}{\pi_{\theta}(y_{t+1}% \|\mathbf{y}_{\leq t})}$
		$\displaystyle=\beta\log\prod_{i=1}^{t}\frac{\pi_{\theta}(y_{i}\|\mathbf{y}_{<i}% )}{\pi_{\text{ref}}(y_{i}\|\mathbf{y}_{<i})}$

(2)の証明:

結論は直接的である。 $\pi$ は自己回帰的であるため、我々は以下を得る：

r_{\theta}(\mathbf{y}):=\beta\log\frac{\pi_{\theta}(\mathbf{y})}{\pi_{\text{% ref}}(\mathbf{y})}=\beta\log\prod_{i=1}^{T}\frac{\pi_{\theta}(y_{i}|\mathbf{y}% _{<i})}{\pi_{\text{ref}}(y_{i}|\mathbf{y}_{<i})}=\sum_{i=1}^{T}\beta\log\frac{% \pi_{\theta}(y_{i}|\mathbf{y}_{<i})}{\pi_{\text{ref}}(y_{i}|\mathbf{y}_{<i})}.

$\mathbf{y}_{\leq T}=\mathbf{y}$ であるため、期待値 $\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y}|\mathbf{y}_{\leq T})}$ は除去できる：

\beta\log\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y}|\mathbf{y}_{\leq T})}e^{\frac% {1}{\beta}r_{\theta}(\mathbf{y})}=\beta\log e^{\frac{1}{\beta}r_{\theta}(% \mathbf{y})}=r_{\theta}(\mathbf{y}).

∎

	$\displaystyle\beta\log\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y}\|\mathbf{y}_{\leq t% })}e^{\frac{1}{\beta}r_{\theta}(\mathbf{y})}$	$\displaystyle=\beta\log\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y_{t+1}}\|\mathbf{y% }_{\leq t})}\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y}\|\mathbf{y}_{\leq t+1})}e^{% \frac{1}{\beta}r_{\theta}(\mathbf{y})}$
		$\displaystyle=\beta\log\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y_{t+1}}\|\mathbf{y% }_{\leq t})}e^{\frac{1}{\beta}q_{\theta}^{t+1}(\mathbf{y}_{<t+1},y_{t+1})}$
		$\displaystyle=\beta\log\mathbb{E}_{\pi_{\text{ref}}(\mathbf{y_{t+1}}\|\mathbf{y% }_{\leq t})}\prod_{i=1}^{t+1}\frac{\pi_{\theta}(y_{i}\|\mathbf{y}_{<i})}{\pi_{% \text{ref}}(y_{i}\|\mathbf{y}_{<i})}$
		$\displaystyle=\beta\log\prod_{i=1}^{t}\frac{\pi_{\theta}(y_{i}\|\mathbf{y}_{<i}% )}{\pi_{\text{ref}}(y_{i}\|\mathbf{y}_{<i})}\mathbb{E}_{\pi_{\text{ref}}(% \mathbf{y_{t+1}}\|\mathbf{y}_{\leq t})}\frac{\pi_{\theta}(y_{t+1}\|\mathbf{y}_{% \leq t})}{\pi_{\text{ref}}(y_{t+1}\|\mathbf{y}_{\leq t})}$
		$\displaystyle=\beta\log\prod_{i=1}^{t}\frac{\pi_{\theta}(y_{i}\|\mathbf{y}_{<i}% )}{\pi_{\text{ref}}(y_{i}\|\mathbf{y}_{<i})}\sum_{y_{t+1}}{\pi_{\text{ref}}(y_{% t+1}\|\mathbf{y}_{\leq t})\frac{\pi_{\theta}(y_{t+1}\|\mathbf{y}_{\leq t})}{\pi_% {\text{ref}}(y_{t+1}\|\mathbf{y}_{\leq t})}}$
		$\displaystyle=\beta\log\prod_{i=1}^{t}\frac{\pi_{\theta}(y_{i}\|\mathbf{y}_{<i}% )}{\pi_{\text{ref}}(y_{i}\|\mathbf{y}_{<i})}\sum_{y_{t+1}}{\pi_{\theta}(y_{t+1}% \|\mathbf{y}_{\leq t})}$
		$\displaystyle=\beta\log\prod_{i=1}^{t}\frac{\pi_{\theta}(y_{i}\|\mathbf{y}_{<i}% )}{\pi_{\text{ref}}(y_{i}\|\mathbf{y}_{<i})}$

Free Process Rewards without Process Labels

Abstract

1 Introduction

2 ORMs vs. PRMs: Dilemma of Performance and Expense

Background

PRMs outperformans ORMs in both training and inference

Training PRMs is substantially more expensive than ORMs

MCTS estimation is not precise either

3 Implicit PRMs For Free Through Reward Parameterization

Reward parameterization in existing work

Proposition 3.1.

Proposition 3.2.

Connection to Rafailov et al. (2024)

Reference Model

4 Experiments

4.1 Setup

Evaluation

Training dataset

Implicit PRM instantiation

Baselines

4.2 Results

Various implicit reward modeling objectives outperform baselines

Our Implicit PRMs reduce the overhead of data collection and training by 38.8×38.8\times38.8 ×

5 Analysis

5.1 Incorporating Majority Voting

5.2 Scaling Up Instructions and Responses can Improve Implicit PRMs

Setup

Results

5.3 Are There Any Other Factors can Improve Implicit PRM Performance?

Task-irrelevant Instructions

Response Diversity

Training on Step Labels

Results

5.4 PRM Ability Does Not Translate into Policy Performance

5.5 Can We Reduce the Inference Overhead of the Reference Model?

5.5.1 The Reference Model Does not Double Overall Inference Overhead

Setup

Results

5.5.2 The Reference Model Can be Removed at Inference in Certain Cases

Setup

Results

6 Related Work

Complex Reasoning of LLMs

Implicit Reward

7 Conclusion

References

Appendix A Proof of Proposition

Proposition A.1.

Proof.

Our Implicit PRMs reduce the overhead of data collection and training by $38.8\times$