JaLMS
最新の AI 研究を日本語で解読

Search, Verify and Feedback: Towards Next Generation
Post-training Paradigm of Foundation Models via Verifier Engineering

Xinyan Guan* Yanjiang Liu* Xinyu Lu* Boxi Cao Ben He Xianpei Han Le Sun Jie Lou Bowen Yu Yaojie Lu Hongyu Lin
Abstract

機械学習の進化は、より強力なモデルとより拡張性の高い監督信号の開発を優先してきた。 しかし、基盤モデルの出現により、その能力をさらに向上させるために必要な効果的な監督信号を提供することに大きな課題が生じている。 そのため、新しい監督信号と技術的アプローチを探求する緊急の必要性がある。 本稿では、基盤モデルの時代に特化した新しい事後学習パラダイムとして検証器エンジニアリングを提案する。 検証器エンジニアリングの核心は、一連の自動検証器を活用して検証タスクを実行し、基盤モデルに有意義なフィードバックを提供することである。 我々は、検証器エンジニアリングのプロセスを検索、検証、フィードバックという3つの本質的な段階に体系的に分類し、各段階における最先端の研究開発を包括的に概観する。 我々は、検証器エンジニアリングが汎用人工知能の実現に向けた基本的な道筋を構成すると考えている。

1 Introduction

機械学習の進化 (Jordan & Mitchell, 2015) は、より強力なモデルの追求と監督信号のスケーリングによって特徴づけられる段階的な過程を経てきた (Friedland & Krell, 2018; Cao et al., 2024; Sevilla et al., 2022)。過去数十年にわたり、モデルの容量と監督信号の規模は相乗的に拡大してきた。強力なモデルは、そのパラメータを十分に活用するために、よりスケーラブルで効果的な監督信号を必要とする。逆に、監督信号の拡大は、これらの信号を効果的に活用し、より一般化された能力を達成するために、より高い容量を持つモデルを必要とする。

機械学習の初期段階では、モデルはその限られた容量によって制約されていた。この時期は特徴量エンジニアリングとして特徴づけられ、ドメイン専門家が手動で関連する特徴量を設計し抽出していた。 サポートベクターマシン (Hearst et al., 1998) や決定木 (Quinlan, 1986) などの古典的アルゴリズムは、その構造的制限のため、慎重に設計された特徴量に大きく依存していた。 これらのアルゴリズムは、注意深く設計された特徴量抽出技術を通じて最適なパフォーマンスを達成し、Term Frequency-Inverse Document Frequency (Robertson et al., 2009) がその顕著な例として挙げられる。

Feature Engineering Data Engineering Verifier Engineering
Representative Models Machine Learning
Models
Deep Learning
Models
Foundation Models
e.g. SVM, XGBoost CNN, LSTM LLMs, VLMs
Supervision Manual Features Human Annotations Verifier Feedback
Scope Task-Specific Multiple Related Tasks General Intelligence
Generalization Limited Relatively high High
Scalability Limited Moderate High
表1: 特徴量エンジニアリング、データエンジニアリング、検証器エンジニアリングの比較
Refer to caption
図1: 検証器エンジニアリングのフレームワーク:検証器エンジニアリングの基本的な段階には、検索、検証、フィードバックが含まれる。指示が与えられると、プロセスは候補回答の生成(検索)から始まり、適切な検証器の組み合わせを用いてこれらの候補を評価し(検証)、モデルの出力分布の最適化(フィードバック)で締めくくられる。このフレームワークは、RLHF (Ouyang et al., 2022a)のような訓練ベースの手法から、OmegaPRM (Luo et al., 2024b)や Experiential Co-Learning (Qian et al., 2023)のような推論ベースの技術まで、様々なアプローチを説明することができる。我々は表3において、既存のアプローチをこれら3つの段階に体系的に分類している。

しかしながら、より複雑な問題に取り組むにつれて、手動の特徴量エンジニアリングの限界がより顕著になり、特徴量を構築するためのより拡張性のあるアプローチの必要性が浮き彫りになった。 約20年前のディープラーニング(Schmidhuber, 2015)の出現は、変革的な転換点を示し、データエンジニアリングの時代を開始した。 この新しいパラダイムは、手作業で作成された特徴量から根本的に離れ、代わりに多様な領域やタスクにわたる自動的な知識獲得とパターン認識を促進するための高品質なデータセットとアノテーションの整備を重視した。 ImageNet (Deng et al., 2009)やBERT (Brown et al., 2020a)のような画期的なプロジェクトの顕著な成功は、このデータ中心のアプローチの有効性を実証した。

残念ながら、近年のファウンデーションモデルの出現(Ouyang et al., 2022a; Touvron et al., 2023a; Betker et al., ; Dosovitskiy et al., 2021)により、データエンジニアリングのみでモデルの能力を向上させることが increasingly 困難になっている。具体的には、ファウンデーションモデル、特に大規模言語モデル(LLM)(Ouyang et al., 2022a; Touvron et al., 2023a)は、様々な領域で人間の能力に匹敵または凌駕する extraordinary な能力を示している。それにもかかわらず、大規模なデータ構築によってこれらのモデルを増強するという従来のデータエンジニアリングアプローチは、実用的な限界に達している。この限界は、主に二つの課題に現れている:事後学習のための高品質な人間によるアノテーションに関連する困難さと持続不可能なコスト(Anthropic, 2024; Burns et al., 2023)、そしてモデルのパフォーマンスをさらに向上させる meaningful な指導を提供することの複雑さ(Wen et al., 2024a)である。結果として、現在の時代における中心的な課題は、一般的な人工知能能力を達成するために、ファウンデーションモデルにより効果的な監督信号をどのように供給するかを決定することである。

{forest}

for tree= forked edges, grow'=0, draw, rounded corners, node options=align=center,, text width=2.7cm, s sep=6pt, l sep=30pt, calign=edge midpoint, , [検証器
エンジニアリング, fill=gray!45, parent [探索 §3, for tree=acquisition [線形探索, [投機的デコーディング (Leviathan et al., 2023); 棄却サンプリング (Yuan et al., 2023c); CoT (Wei et al., 2022); 等, acquisition_work ] ] [木探索, [ビーム探索 (Vijayakumar et al., 2018); MCTS; ToT (Yao et al., 2024); PoT (Luo et al., 2024c); CoT-SC (Wang et al., 2023d); 等, acquisition_work ] ] ] [検証 §4, for tree=representation [検証形式, [ランキング, representation [CAI (Bai et al., 2022b); PairRM (Jiang et al., 2023a); 等, representation_work] ] [二値, representation [コードインタープリタ (Gao et al., 2023); ゲームスコアリングシステム (Tsai et al., 2023); 等, representation_work] ] [スコア, representation [Bradley-Terry RM (Christiano et al., 2017; Askell et al., 2021; Bai et al., 2022a); Hinge RM (Mu et al., 2024); Focal RM (Cai et al., 2024); Cross-Entropy RM (Cobbe et al., 2021; Wang et al., 2024a) 等, representation_work] ] [テキスト, representation [LLM-as-a-Judge (Zheng et al., 2024a); 計算機; ブラウザ (Nakano et al., 2021); 自己批評 (Saunders et al., 2022); 批評の批評 (Sun et al., 2024b) ; 等, representation_work] ] ] [検証粒度, [トークンレベル, representation [価値モデル (Chen et al., 2024b); 等, representation_work] ] [思考レベル, representation [PRM (Lightman et al., 2023b); 等, representation_work] ] [軌跡レベル, representation [ORM (Cobbe et al., 2021); 等, representation_work] ] ] [検証器ソース, [自己教師あり, representation [自己報酬 (Yuan et al., 2024; Wu et al., 2024); 自己批評 (Saunders et al., 2022); Quiet-STaR (Zelikman et al., 2024); 等, representation_work] ] [他者教師あり, representation [人間 (Christiano et al., 2017); 教師モデル (Wen et al., 2024b); 等, representation_work] ] ] ] [フィードバック §5, for tree=probing [訓練ベース, [模倣学習, probing [SFT (Ouyang et al., 2022a); KD (Hinton, 2015); 等, probing_work] ] [選好学習, probing [DPO (Rafailov et al., 2024); IPO (Azar et al., 2024); KTO (Ethayarajh et al., 2024) 等, probing_work] ] [強化学習, probing [PPO (Schulman et al., 2017); PPO-max (Zheng et al., 2023); RLMEC (Chen et al., 2024c) 等, probing_work] ] ] [推論ベース, [検証器誘導, probing [PRM (Lightman et al., 2023a); BON (Sun et al., 2024a); RAIN (Li et al., 2024a); 等, probing_work] ] [検証器認識, probing [自己デバッグ (Chen et al., 2023b); ReAct (Yao et al., 2022); 経験的共学習 (Qian et al., 2023); 等, probing_work] ] ] ] ]

図2: 検証器エンジニアリング手法の概要。探索、検証、フィードバックの3つの主要段階に分類されている。各段階はさらに具体的なアプローチに細分化され、各分野の注目すべき研究への参照が含まれている。

本稿では、基盤モデル時代のための新しい事後学習パラダイムとして検証器エンジニアリングを提案する。 検証器エンジニアリングの本質は、従来の手動特徴抽出やデータアノテーションを超えて、教師信号の構築を拡張することにある。 代わりに、効果的な自動検証器のスイートを活用して検証タスクを実行し、基盤モデルに有意義なフィードバックを提供する。 表1は、特徴量エンジニアリング、データエンジニアリング、および検証器エンジニアリングの主要な違いを示している。 このアノテーションと学習から探索と検証への進展は、基盤モデルの能力向上における根本的な進歩を意味している。 先行するパラダイムと比較して、検証器エンジニアリングは検証器の作成を合理化し、自動検証プロセスを通じて基盤モデルへの効率的なフィードバックを促進する。 具体的には、指示が与えられると、検証器エンジニアリングは候補回答の生成から始まり、その後適切な検証器の組み合わせを用いてこれらの候補を検証し、最終的にモデルの出力分布を最適化する。 人間のフィードバックによる強化学習(RLHF)(Stiennon et al., 2020; Ouyang et al., 2022a)のような既存の方法論が限られた検証器ソースとフィードバックメカニズムに依存しているのに対し、検証器エンジニアリングは複数の多様な検証器を統合して、より正確で汎用性のあるフィードバック信号を提供する。 基盤モデルの改善をデータ中心の取り組みから体系的なエンジニアリングの課題へとシフトさせることで、検証器エンジニアリングは効果的かつ効率的なフィードバックを確保するための複雑な検証システムの設計と調整を重視する。 特徴量エンジニアリングとデータエンジニアリングがそれぞれの時代にスケーラビリティを達成したのと同様に、我々は検証器エンジニアリングが汎用人工知能の進歩に向けた重要なステップを表していると考える。

このため、本稿では検証器エンジニアリングの全体像を包括的に探究し、探索、検証、フィードバックという3つの核心的段階に分解する。これらの段階は以下のように定義される:

  1. 1.

    探索:モデル出力分布から代表的または潜在的に問題のあるサンプルを抽出し、性能の境界と限界を明らかにする。

  2. 2.

    検証:様々な検証器を活用して候補回答に対する検証結果を提供する。これには評価指標、ルール検出、または選択的な手動アノテーションが含まれる場合がある。

  3. 3.

    フィードバック:検証結果を活用し、教師あり微調整やコンテキスト内学習などの手法を通じてモデルの性能を向上させる。

これら3つの段階における最新の最先端研究開発を示すため、本稿の残りの部分で包括的なレビューを提供する:第2節では検証器工学の形式的定義と前提条件を提示する。第3節から第5節では、探索、検証、フィードバックという3つの基本段階について詳述する。第6節では現在のトレンドと限界について議論し、第7節で結論を述べる。

2 Verifier Engineering

本節では、検証器エンジニアリングを目標条件付きマルコフ決定過程(GC-MDP)として形式化する(Schaul et al., 2015; Plappert et al., 2018; Liu et al., 2022)。これにより、検証器エンジニアリングの分野に対して統一的かつ体系的な視点を提供することができる。次に、探索、検証、フィードバックの概念がこのモデリングフレームワークにどのように対応するかを紹介し、例を通じてそれらを分析する。 さらに、表3にまとめられているように、既存の学習後アプローチを3つの主要段階に分類することで、検証器エンジニアリングの全体像を包括的に概観する。

2.1 Preliminary

大規模言語モデル(LLM)は通常、入力に基づいて生成の尤度を最大化するように訓練されるが、この目的関数のみでは訓練後の望ましい能力を保証することはできない。 この隔たりを埋めるため、我々は検証器エンジニアリングを目標条件付きマルコフ決定過程(GC-MDP)として形式化する。これは (S𝑆Sitalic_S, A𝐴Aitalic_A, T𝑇Titalic_T, G𝐺Gitalic_G, Rgsubscript𝑅𝑔R_{g}italic_R start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT, pgsubscript𝑝𝑔p_{g}italic_p start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT) のタプルとして表される。ここで:

状態空間 S𝑆Sitalic_S は、入力コンテキスト、内部状態、中間出力を含む、相互作用中のモデルの状態を表す。

行動空間 A𝐴Aitalic_A は、各生成ステップで可能なトークン選択を表す:

A={a1,a2,,aN}𝐴subscript𝑎1subscript𝑎2subscript𝑎𝑁A=\{a_{1},a_{2},\dots,a_{N}\}italic_A = { italic_a start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_a start_POSTSUBSCRIPT italic_N end_POSTSUBSCRIPT }

遷移関数 T𝑇Titalic_T は通常、現在の状態 sS𝑠𝑆s\in Sitalic_s ∈ italic_S と行動 aA𝑎𝐴a\in Aitalic_a ∈ italic_A が与えられた場合の次の状態の確率分布を定義する。具体的には、大規模言語モデルにおいて、状態遷移は決定論的関数である。つまり、現在の状態と選択された行動(生成されたトークン)が与えられると、次の状態は完全に決定される。したがって、検証器エンジニアリングの探索段階は、T𝑇Titalic_T の条件下での行動-状態空間における探索とみなすことができる。

目標空間 G𝐺Gitalic_G は、モデルの能力に関連する様々な目標を表す。各目標 gG𝑔𝐺g\in Gitalic_g ∈ italic_G は、コード、数学、文章作成などの特定のモデル能力に対応する。目標空間は多次元であり、モデル能力の様々な側面を包含することができる。

目標分布 pgsubscript𝑝𝑔p_{g}italic_p start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT は、目標空間 G𝐺Gitalic_G からの目標に対する確率分布である。これは、特定の目標 gG𝑔𝐺g\in Gitalic_g ∈ italic_G が任意の時点で選択される可能性を表す。この分布は、人間からのフィードバックや他の外部信号から学習することができる。

報酬関数 Rg(s,a)subscript𝑅𝑔𝑠𝑎R_{g}(s,a)italic_R start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ( italic_s , italic_a ) または Rg(s)subscript𝑅𝑔superscript𝑠R_{g}(s^{\prime})italic_R start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ( italic_s start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ) は、目標 g𝑔gitalic_g が与えられた時に、状態 s𝑠sitalic_s から行動 a𝑎aitalic_a を取るか、または変換された状態 ssuperscript𝑠s^{\prime}italic_s start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT にある時にモデルが受け取る報酬を表す。 したがって、この報酬は特定の目標 g𝑔gitalic_g に対する検証器エンジニアリングの検証結果を反映する。 例えば、目標 g𝑔gitalic_g が「公平性」である場合、報酬は生成されたテキストがバイアスを回避しているかどうかに基づく可能性がある。

モデル能力を改善するための目的は、目標分布にわたる累積リターンの期待値を最大化する目標条件付き方策 π:S×G×A[0,1]:𝜋𝑆𝐺𝐴01\pi:S\times G\times A\rightarrow[0,1]italic_π : italic_S × italic_G × italic_A → [ 0 , 1 ] として定義できる。

J(π)=𝔼atπ(st,g),gpgst+1𝒯(st,at)[tγtRg(st,at)]J(\pi)=\mathbb{E}_{\begin{subarray}{c}a_{t}\sim\pi\left(\cdot\mid s_{t},g% \right),g\sim p_{g}\\ s_{t+1}\sim\mathcal{T}\left(\cdot\mid s_{t},a_{t}\right)\end{subarray}}\left[% \sum_{t}\gamma^{t}R_{g}\left(s_{t},a_{t}\right)\right]italic_J ( italic_π ) = blackboard_E start_POSTSUBSCRIPT start_ARG start_ROW start_CELL italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∼ italic_π ( ⋅ ∣ italic_s start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_g ) , italic_g ∼ italic_p start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT end_CELL end_ROW start_ROW start_CELL italic_s start_POSTSUBSCRIPT italic_t + 1 end_POSTSUBSCRIPT ∼ caligraphic_T ( ⋅ ∣ italic_s start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) end_CELL end_ROW end_ARG end_POSTSUBSCRIPT [ ∑ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT italic_γ start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT italic_R start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ( italic_s start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ] (1)

報酬関数は、異なる能力次元に対するサブ関数に分解できる:

Rg(s,a)subscript𝑅𝑔𝑠𝑎\displaystyle R_{g}(s,a)italic_R start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ( italic_s , italic_a ) =(Rg,i(s,a)i𝒮g)absentconditionalsubscript𝑅𝑔𝑖𝑠𝑎𝑖subscript𝒮𝑔\displaystyle=\mathcal{F}\left(R_{g,i}\left(s,a\right)\mid i\in\mathcal{S}_{g}\right)= caligraphic_F ( italic_R start_POSTSUBSCRIPT italic_g , italic_i end_POSTSUBSCRIPT ( italic_s , italic_a ) ∣ italic_i ∈ caligraphic_S start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ) (2)

ここで、𝒮gsubscript𝒮𝑔\mathcal{S}_{g}caligraphic_S start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT は目標 g𝑔gitalic_g に対して選択されたサブ関数を表し、\mathcal{F}caligraphic_F はそれらの評価を組み合わせる。おそらく近似的に正しい理論(PAC)(Vapnik, 2000)に従い、不完全なサブ関数であっても、複数の弱い検証器を組み合わせることで信頼性の高い全体的な評価を達成できる。

2.2 Verifier Engineering Overview

GC-MDP フレームワークに基づき、我々は検証器エンジニアリングの3段階—探索検証フィードバック—がこの形式主義の特定のコンポーネントと自然に整合することを示す。このマッピングは、理論的根拠と各段階が望ましい目標に向けてポリシー分布 π𝜋\piitalic_π を最適化する方法についての洞察を提供する。

1に示されるように、探索段階は線形探索と木探索の方法に分けることができる。検証段階では適切な検証器を選択し、それらを呼び出して候補の応答に基づいて検証結果を提供する。フィードバック段階では、訓練ベースの方法または推論ベースの方法を用いてモデルの出力を改善する。 例えば、RLHFは線形探索を利用して応答のバッチを生成し、報酬モデルを検証器として使用し、報酬モデルの検証結果に基づいてProximal Policy Optimization (PPO) (Schulman et al., 2017) アルゴリズムを適用してモデルを最適化する。 OmegaPRM (Luo et al., 2024a) はプロセス報酬モデルを検証器として使用し、プロセス報酬スコアを最大化することによってPRMに基づいて最良の結果を探索する。 Experimental Co-Learning (Qian et al., 2023) は複数のLLMを通じて協調的な検証器を採用し、過去の対話データを通じて検証とモデルのパフォーマンスの両方を向上させる。

GC-MDPフレームワークにおいて、3つの段階は以下のように現れる: 探索は行動選択に対応し、状態 s𝑠sitalic_s は現在のコンテキストまたは部分的な系列を表し、行動 a𝑎aitalic_a は生成する次のトークン s𝑠sitalic_s を示す。 検証は報酬関数 Rg(s,a)subscript𝑅𝑔𝑠𝑎R_{g}(s,a)italic_R start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ( italic_s , italic_a ) にマッピングされ、生成された出力が指定された目標 g𝑔gitalic_g にどの程度合致しているかを評価する。 フィードバックはポリシー分布 π𝜋\piitalic_π の最適化に関連し、検証結果に基づいて期待累積報酬 J(π)𝐽𝜋J(\pi)italic_J ( italic_π ) を最大化する。

3 Search

探索は、意図した目標に合致する高品質な生成シーケンスを特定することを目的とし、基盤モデルの評価と改良に不可欠なベリファイアエンジニアリングの基礎を形成する。しかしながら、大規模な語彙サイズN𝑁Nitalic_Nと最大生成長T𝑇Titalic_Tによって指数関数的に増大する状態-行動空間全体を網羅的に探索することは現実的ではない。この課題に対処するため、効率的な探索、すなわち多様性と目標指向性を優先しつつこの広大な空間をナビゲートすることが、モデルの性能向上において重要な役割を果たす。

本節では、まず探索構造の観点から多様な探索の実装方法を紹介し、探索構造が決定された後に探索の多様性をさらに高めるための追加的手法について論じる。

3.1 Search Structure

探索構造とは、状態-行動空間を探索するために使用される枠組みや戦略を指し、探索プロセスの効果と効率に大きな影響を与える。現在、探索を実装するために広く採用されている構造には、線形探索と木探索の2つがある。線形探索は順次進行するため、段階的な行動を伴うタスクに効果的である一方、木探索は各決定点で複数の経路を検討するため、複雑な推論を必要とするタスクに適している。

  • 線形探索は広く使用される探索方法であり、モデルは初期状態から開始し、終端状態に到達するまで一度に1つのトークンを選択しながら段階的に進行する(Brown et al., 2020b; Wang & Zhou, 2024)

    線形探索の主な利点は計算コストが低いことであり、これにより目標に向かって順次行動を選択できるシナリオで効率的である。しかし、注目すべき制限として、プロセスの早い段階で最適でない行動が選択された場合、その後の連鎖を修正することが困難になる可能性がある。したがって、検証器エンジニアリングの進行中、生成経路の全体的な有効性を確保するために、各ステップでの慎重な検証が極めて重要である。

  • 木探索は、生成の各ステップで複数の潜在的な行動を探索することを含み、状態-行動空間のより広範な探索を可能にする。例えば、ビーム探索やToT(Yao et al., 2024)などの技術は、木構造を組み込んで探索を強化し、推論タスクにおけるモデルのパフォーマンスを向上させる。TouT(Mo & Xin, 2023)は、モンテカルロドロップアウトに基づく不確実性測定を導入し、中間推論プロセスのより正確な評価を提供する。

    このアプローチは、特に複雑な状態空間を持つ環境において、グローバルな最適解を発見する可能性を大幅に向上させる。複数の経路を同時に考慮することで、木探索は早期に行われた最適でない決定に縛られるリスクを軽減し、モデルを最適な結果へと導くためのより堅牢な方法となる。しかし、この増加した探索は高い計算コストを伴うため、木探索は最適な経路の特定が困難なシナリオにより適している。木探索を効果的にするためには、モデルを継続的に検証し、目標条件により適合する経路を優先する必要がある。

3.2 Additional Enhancement

探索構造は状態-行動空間を探索するための基本的な枠組みを提供するが、探索性能を向上させるためにはさらなる強化も重要である。これらの強化は、探索と活用のバランス、局所的最適解からの脱出、生成結果の多様性の向上といった課題に対処する。強化戦略は大きく2つのアプローチに分類できる:探索パラメータの調整と元の状態への介入である。

Adjusting Exploration Parameters

モンテカルロ木探索(MCTS)、ビーム探索、リジェクトサンプリングなどの技術は、温度、Top-k (Fan et al., 2018)、Top-p (Holtzman et al., 2020)などのパラメータを調整することで探索プロセスを洗練させることに焦点を当てている。課題は、多様な出力の生成と高品質なシーケンスの維持のトレードオフのバランスを取ることにある。例えば、温度パラメータを上げることでより大きなランダム性を促進し、多様性を高めるが、一貫性を低下させる可能性がある。

Intervening in the Original State

もう一つの強化アプローチは、初期状態を修正して探索プロセスを特定の目標に導くことである。思考の連鎖(CoT)(Wei et al., 2022)、ニューロシンボリック計算を介した論理的推論(LINC)(Olausson et al., 2023)、思考のプログラム(PoT)(Chen et al., 2023a)などの方法がこの戦略を例示している。これらの介入は、デフォルトの状態分布のバイアスを克服するという課題に対処する。CoTは中間ステップを導入することで推論を強化し、生成されたシーケンスの解釈可能性と深さを向上させる。LINCは論理的なシナリオを使用して、より構造化された目標指向の出力を促進する。同様に、PoTはプログラム的な例を提供し、モデルを体系的な問題解決に導き、元の状態分布を超えて探索の範囲を効果的に拡大する。

4 Verify

人間からのフィードバックには長い遅延と高いコストが伴うため、訓練中にモデルによってサンプリングされた各候補応答を評価するために直接人間の労力を用いることはできない(Leike et al., 2018a)。そのため、我々は基盤モデルの訓練において、人間の監督の代理として検証器を採用する。検証器は探索-検証-フィードバックのパイプラインにおいて重要な役割を果たし、検証器の品質と堅牢性は下流の方策の性能に直接影響を与える(Wen et al., 2024c)

GC-MDPの文脈では、検証は通常、現在の状態と事前に定義された目標に基づいて検証結果を提供する検証器を使用することとして定義される:

FRg(st1,at)𝐹subscript𝑅𝑔subscript𝑠𝑡1subscript𝑎𝑡F\leftarrow R_{g}(s_{t-1},a_{t})italic_F ← italic_R start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPT ( italic_s start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT , italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) (3)

ここで、F𝐹Fitalic_Fは検証器によって提供される検証結果を表す。g𝑔gitalic_gは我々が達成しようとする事前に定義された目標(例えば、有用性、誠実さ)を表す。状態s𝑠sitalic_sは通常、ユーザーのクエリまたは入力とモデルの出力内容{a1,,at}subscript𝑎1subscript𝑎𝑡\{a_{1},…,a_{t}\}{ italic_a start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT }の2つの連結された要素で構成される。

本節では、個々の検証器をいくつかの主要な次元にわたって分類し、代表的な種類の検証器を表2にまとめる。

4.1 A Comprehensive Taxonomy of Verifiers

Perspective of Verification Form

検証器の検証結果形式は、4つのカテゴリーに分類できる:二値フィードバック(Gao et al., 2023)、スコアフィードバック(Bai et al., 2022a)、ランキングフィードバック(Jiang et al., 2023a)、およびテキストフィードバック(Saunders et al., 2022)である。これらのカテゴリーは情報の豊かさの増加勾配を表し、最適化アルゴリズムにより多くの情報を提供する。例えば、古典的なBradley–Terry報酬モデル(Bradley & Terry, 1952)は正確性を単に示す連続的なスコアフィードバックを提供できるが、生成的報酬モデル(Zhang et al., 2024d)や批評モデル(Sun et al., 2024b)からのテキストベースのフィードバックは、スコアや批評の根拠を含む可能性のある、より詳細な情報を提供する。

Perspective of Verify Granularity

検証器の検証粒度は3つのレベルに分類できる:トークンレベル(Chen et al., 2024b)、思考レベル(Lightman et al., 2023a)、および軌跡レベル(Cobbe et al., 2021)である。これらのレベルは、検証器がモデルの生成とどのように関わるかの範囲に対応している。トークンレベルの検証器は個々の次トークン予測に焦点を当て、思考レベルの検証器は全体の思考ステップや文を評価し、軌跡レベルの検証器は行動の全体的な連続を評価する。 現在のRLHFの実践(Ouyang et al., 2022b; Bai et al., 2022a)の大部分は完全な軌跡のスコアリングに依存しているが、粗粒度の評価を正確に得ることは困難である(Wen et al., 2024b)。これは、より細かい粒度の検証を集約する必要があるためである。一般に、人間のアノテーターの観点からは、完全な軌跡が見える場合、より細かい粒度のスコアを割り当てる方が容易である。機械学習の観点からは、細かい粒度の検証が望ましい(Lightman et al., 2023a)。これは、粗粒度の検証に関連するショートカット学習やバイアスのリスクを軽減し、一般化を向上させるためである。クレジット割り当てメカニズム(Leike et al., 2018b)は、粗粒度の評価と細かい粒度の検証の間のギャップを埋めることができる。

Verifier Type Verification Form Verify Granularity Verifier Source Extra Training
Golden Annotation Binary/Text Thought Step/Full Trajectory Program Based No
Rule-based Binary/Text Thought Step/Full Trajectory Program Based No
Code Interpreter Binary/Score/Text Token/Thought Step/Full Trajectory Program Based No
ORM Binary/Score/Rank/Text Full Trajectory Model Based Yes
Language Model Binary/Score/Rank/Text Thought Step/Full Trajectory Model Based Yes
Tool Binary/Score/Rank/Text Token/Thought Step/Full Trajectory Program Based No
Search Engine Text Thought Step/Full Trajectory Program Based No
PRM Score Token/Thought Step Model Based Yes
Knowledge Graph Text Thought Step/Full Trajectory Program Based No
表2: 4つの次元にわたる検証器の包括的な分類:検証形式、検証粒度、検証器のソース、および追加トレーニングの必要性。
Perspective of Verifier Source

検証器のソースの観点から、検証器はプログラムベースとモデルベースに分類できる。プログラムベースの検証器は、固定されたプログラムに埋め込まれた事前定義されたルールや論理によって生成される決定論的な検証を提供する。これらのプログラムベースの検証器は一貫性があり解釈可能な評価を提供するが、複雑で動的な環境に対処する際には柔軟性に欠ける可能性がある。一方、モデルベースの検証器は確率的モデルに依存して検証結果を生成する。これらの検証器は学習を通じて様々な文脈やタスクに適応し、より微妙で文脈に敏感な評価を可能にする。しかし、モデルベースの検証器は不確実性の要素を導入し、精度と堅牢性を確保するために大量のトレーニングと計算リソースを必要とする可能性がある。

Perspective of Extra Training

検証器は、追加の専門的なトレーニングを必要とするかどうかに基づいて、2つのカテゴリーに分類することもできる。追加のトレーニングを必要とする検証器は、通常、特定のタスク関連データでファインチューニングされ、特定の問題領域でより高い精度を達成することができる(Markov et al., 2023)。しかし、その性能はトレーニングデータの分布に大きく影響される可能性があり、異なる文脈への一般化が難しくなる可能性がある。一方、追加のトレーニングを必要としない検証器は、しばしば既存のモデルに基づいている(Zelikman et al., 2024; Zheng et al., 2024a)。これらは、タスク特化型の検証器と同レベルの精度には達しない可能性があるが、一般的にデータ分布の変動に対してより堅牢であり、特定のトレーニングセットへの依存度が低い。この精度とデータ感度のトレードオフは、特定のアプリケーションに対して検証器を選択する際の重要な考慮事項である。

4.2 Constructing Verifiers across Tasks

異なるタスクには検証器に対する様々な要件があり、これらは基盤モデルの性能を向上させるための重要なツールとして機能する。本節では、安全性や推論を含む代表的な分野における検証器構築の主要な実践について強調する。

Safety

安全性が重要なアプリケーションにおいて、検証器は基盤モデルが倫理基準を遵守し、有害または不適切なコンテンツの生成を回避することを保証する上で重要な役割を果たす。プログラムベースの検証器は、ヘイトスピーチや機密性の高い個人情報などの禁止されたコンテンツを含む出力をフィルタリングすることで、厳格なガイドラインを強制することができる。例えば、コンテンツモデレーションシステムは、事前に定義されたキーワードやパターンを使用して攻撃的な言語を特定しブロックする場合がある。しかし、プログラムベースのアプローチの限界は、言い換えられたコンテンツがこれらのフィルターを回避できることが多いため、敵対的攻撃に対して脆弱であることである(Krishna et al., 2020)。対照的に、毒性分類器などのモデルベースの検証器(Lees et al., 2022; Markov et al., 2023; Inan et al., 2023)は、コンテンツの安全性に関する確率的な評価を提供し、より微妙な評価を可能にする。中間的なアプローチとしては、ルールベースの報酬モデル(RRM)(Mu et al., 2024)があり、これは解釈可能性と汎化能力のバランスを取っている。検証器を訓練段階と展開段階の両方に統合することで、基盤モデルがより安全性要件に沿うようになり、意図しない有害な出力の可能性を減少させることができる。

Reasoning

論理的推論や問題解決を必要とするタスクにおいて、検証器は各推論ステップの正確性と一貫性を評価することができる。トークンレベルの検証器は、個々のトークンやシンボルの細かい評価を提供し、これは特に数学的計算やコード生成において有用である(Wang et al., 2023b)。一方、思考レベルの検証器は、文全体や推論ステップ全体を評価し、議論の各構成要素が妥当で論理的に一貫していることを確認する(Lightman et al., 2023a; Li et al., 2023b; Xie et al., 2024)。軌跡レベルの検証器は、全体的な解決策や証明を評価し、モデルの推論の一貫性に関する包括的な検証結果を提供する(Cobbe et al., 2021; Yu et al., 2024; Wang et al., 2024a)。例えば、数学的定理証明において、Leanのようなプログラムベースの検証器(de Moura et al., 2015)は、各証明ステップの妥当性を形式論理規則に照らして確認することができ(Lin et al., 2024)、一方でモデルベースの検証器は、スコアと自然言語による説明を通じて推論ステップの妥当性を評価し(Zhang et al., 2024c)、さらなる改善のための批評を提供することができる(Kumar et al., 2024)。より単純ではあるが広く使用されているアプローチとしては、手動で注釈付けされた正解を検証器として使用してモデルの出力をフィルタリングし、モデルの性能を段階的に向上させる方法がある(Zelikman et al., 2022b)

5 Feedback

検証結果を得た後、我々は基盤モデルの能力を向上させることを目指す。この過程をフィードバック段階と定義する。 本稿において、フィードバックとは具体的に、検証結果に基づいて基盤モデルの能力を向上させることを指す。 フィードバック段階は極めて重要である。なぜなら、フィードバック手法の有効性が、基盤モデルの能力を検証結果に応じて適切に向上させられるかどうかを直接的に決定するからである。

本節では、検証者エンジニアリングが検索アルゴリズムと検証器をどのように活用して、基盤モデルに対する検証結果をフィードバックするかを探究する。 目的関数J(π)𝐽𝜋J(\pi)italic_J ( italic_π )を最大化するために、方策π𝜋\piitalic_πの分布はstsubscript𝑠𝑡s_{t}italic_s start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTまたはπ𝜋\piitalic_πのパラメータを調整することで最適化できる。 これにより、2つの異なるフィードバックアプローチが導かれる:訓練ベースのフィードバックと推論ベースのフィードバックである。 訓練ベースのフィードバックは、検索と検証を通じて効率的に得られたデータを用いてモデルパラメータを更新することを含む。 一方、推論ベースのフィードバックは、モデルパラメータを変更せずに、推論時に検索と検証の結果を補助情報として組み込むことで出力分布を修正する。

5.1 Training-based Feedback

我々は、訓練ベースのフィードバックの一般的な訓練戦略を、使用されるデータの性質と構成に基づいて3つのタイプに分類する:

Imitation Learning

模倣学習は通常、検証者によって選択された高品質のデータを使用し、クロスエントロピーのような教師あり微調整の目的関数や、Kullback-Leibler divergenceのような知識蒸留の訓練目的関数(Hinton, 2015)を用いてモデルを最適化する。

模倣学習を通じて基礎モデルの特定の能力を向上させるために、様々なアプローチが採用されている。 LLMsの数学的推論能力を向上させるために、STaR (Zelikman et al., 2022b)やRFT (Yuan et al., 2023b)のようなアプローチはルールベースの検証器を使用して解答結果を比較し、一方WizardMath (Luo et al., 2023a)、MARIO (Liao et al., 2024)、MetaMath (Yu et al., 2023a)は検証器を活用して高度なLLMsや人間の入力からの応答を選択する。MAmmoTH (Yue et al., 2023)やMathCoder (Wang et al., 2023a)のような他の手法は、包括的で詳細な解答を検証するためにプログラム的なツールを利用する。 コーディング能力の向上のために、Code Alpaca (Chaudhary, 2023)、WizardCoder (Luo et al., 2023b)、WaveCoder (Yu et al., 2023b)、OpenCodeInterpreter (Zheng et al., 2024b)を含む様々な手法が、高度なLLMsから知識を蒸留することでコード指示追従データセットを構築している。 指示追従能力を向上させるために、LLaMA-GPT4 (Peng et al., 2023)、Baize (Xu et al., 2023)、Ultrachat (Ding et al., 2023)のようなアプローチは、教師あり微調整のために高度なLLMsからの応答を蒸留するために検証器を採用している。Deita (Liu et al., 2024)やMoDS (Du et al., 2023)のような他の手法は、SFTに適したデータを選択する前に複雑さ、品質、多様性をチェックする検証器のパイプラインを実装している。

Preference Learning

選好学習は検証結果を活用してペアワイズ比較データを構築し、DPO (Rafailov et al., 2024)、KTO (Ethayarajh et al., 2024)、IPO (Azar et al., 2024)、PRO (Song et al., 2024)のような最適化手法を採用する。このアプローチを通じて、モデルは検証器が提供する選好に出力を合わせることを学習する。

選好学習を通じて基礎モデルの特定の領域における能力を向上させるために、様々な技術が採用されている。 数学的推論の強化のために、MCTS-DPO (Xie et al., 2024)はモンテカルロ木探索 (Coulom, 2006; Kocsis & Szepesvári, 2006)と選好学習を組み合わせて、反復的なオンライン方式でステップレベルのペアワイズ比較を生成し学習する。 コーディング能力の向上のために、CodeUltraFeedback (Weyssow et al., 2024)はLLM検証器を使用してコード出力をランク付けすることでペアワイズ訓練データを構築し、その後選好学習アルゴリズムを適用してモデルのパフォーマンスを最適化する。 指示追従の強化のために、Self-Rewarding (Yuan et al., 2024)はモデルが自身の検証結果を生成してペアワイズ比較データを作成し、その後DPO手法を用いて反復的な自己改善を行うことを可能にする。

Reinforcement Learning

強化学習は検証器からの報酬信号を用いてモデルを最適化する。PPO (Schulman et al., 2017)、PPO-max (Zheng et al., 2023)のようなアルゴリズムを使用して環境との相互作用とポリシー更新を行うことで、モデルは反復的に生成品質を向上させる。

強化学習を用いて基礎モデルの特定のドメインにおける能力を向上させるために、複数のアプローチが使用されている。 数学的推論の強化のために、Math-Shepherd (Wang et al., 2023c)は数学問題解決能力の段階的な改善を導くためにステップワイズの報酬メカニズムを実装している。 コーディング能力の向上のために、RLTF (Liu et al., 2023a)やPPOCoder (Shojaee et al., 2023a)のような手法は、より効果的なコーディングソリューションへとモデルを導くために、コード実行結果を報酬信号として活用している。 指示追従の強化のために、InstructGPT (Ouyang et al., 2022a)やLlama (Touvron et al., 2023a, b; Dubey et al., 2024)のようなアプローチは、応答の有用性を評価するように訓練された報酬モデルを採用し、より良い指示遵守のためにモデルを最適化している。

5.2 Inference-based Feedback

推論ベースのフィードバックでは、モデルのパラメータを変更せずに、入力や推論戦略を修正してより良い出力を得る。 このアプローチは、検証結果のモデルに対する可視性に基づいて、検証器誘導フィードバックと検証器認識フィードバックの2つのカテゴリーに分けられる。

Verifier-Guided

検証器誘導フィードバックでは、検証器がモデルとの直接的な相互作用なしに、モデルが生成したコンテンツから最適な出力を評価し選択する。

例えば、Lightman et al. (2023a)Snell et al. (2024)は進捗報酬によって誘導される木探索アルゴリズムを実装し、一方でToT (Yao et al., 2024)は言語モデル検証器を用いて木探索プロセスを指示する。対照的デコーディング(Li et al., 2022; O’Brien & Lewis, 2023)の領域では、高度な言語モデルがトークンロジットの検証器として機能し、出力分布を最適化する。

Verifier-Aware

検証器認識フィードバックは、検証器からのフィードバックをモデルの操作コンテキストに直接統合し、コンテンツ生成プロセスを強化する。このアプローチにより、モデルは出力を生成する際に検証器からのフィードバックを積極的に考慮し、取り入れることができる。

検証器認識フィードバックを通じて基盤モデルの特定の能力を強化するために、様々な戦略が採用されている。 数学とコーディングの強化のために、CRITIC (Gou et al., 2023)は計算機とコードインタプリタからのフィードバックを利用して解決策を洗練し、一方でSelf-debug (Chen et al., 2023b)は実行結果の分析を通じてコード品質を向上させる。 幻覚の緩和のために、ReAct (Yao et al., 2022)、KGR (Guan et al., 2024)、CRITIC (Gou et al., 2023)などのアプローチは、検索エンジンや知識グラフからの継続的なフィードバックを統合して事実の正確性を確保する。同様に、Self-Refine (Madaan et al., 2024)は言語モデル検証器を用いて応答の品質を反復的に改善する。

6 Discussion and Insights

本節では、我々のフレームワークから得られた洞察について詳細な検討を行う。 まず、検証者工学の観点からSFT、DPO、RLHFを再考する。 次に、フレームワーク内の各段階について独立した分析を行う。 最後に、フレームワーク全体に内在する潜在的な課題について体系的な評価を提供する。

6.1 Revisiting SFT, DPO and RLHF from Verifier Engineering

我々が提案する検証器エンジニアリングへのアプローチは、一般的に使用される事後学習アルゴリズムに対して統一的な視点を提供し、それらのメカニズムに関する貴重な洞察を提供する。

Refer to caption

(a) SFT

Refer to caption

(b) DPO

Refer to caption

(c) RLHF

図3: SFT、DPO、RLHFに対する検証器エンジニアリングの視点:灰色のノードは学習に使用されないサンプルパスを表し、非灰色のノードは学習プロセスで積極的に使用されるサンプルパスを表す。

SFTは、学習データによって定義された単一の探索パスに従う線形探索戦略を採用して候補応答を生成する。 このプロセス全体を通じて、検証器は探索パスに沿った各トークンを正の信号として分類し、他のすべてのトークンを負として扱う。その後、基礎モデルはクロスエントロピー損失関数を用いた模倣学習によって最適化される。

同様に、DPOは線形探索戦略を採用し、選好ペアから導出された「選択された」データに対応する探索パスと「拒否された」データに対応する探索パスの2つの異なる探索パスのみを維持する。 検証器は、選択されたデータに関連するパスを正の信号として扱い、拒否されたデータに関連するパスを負の信号として扱う。 その後、基礎モデルはペアワイズ損失関数の適用を通じて最適化される。

RLHFは探索段階で線形探索戦略を採用し、さらにTop-pや温度などのパラメータを調整することで、候補応答生成プロセス内での探索を促進する。 図3(c)に示されているように、探索後、価値関数を使用して生成軌跡内の各状態にスコアを割り当てる。 このスコアリングメカニズムは期待される報酬を推定し、それによってPPOアルゴリズムを通じた最適化プロセスに情報を提供し、指針を与える。

これらの手法を検証器エンジニアリングの段階にマッピングすることで、探索、検証、フィードバックの各段階におけるアプローチが基礎モデルの能力をどのように向上させるかについて、より明確な理解が得られる。

Search Verify Feedback Task
STar (Zelikman et al., 2022a) RFT (Yuan et al., 2023c) Linear Golden Annotation Imitation Learning Math
CAG (Pan et al., 2024) Linear Golden Annotation Imitation Learning RAG
Self-Instruct (Wang et al., 2023e) Linear Rule-based Imitation Learning General
Code Alpaca (Chaudhary, 2023) WizardCoder (Luo et al., 2024d) Linear Rule-based Imitation Learning Code
ILF-Code (Chen et al., 2024a) Linear Rule-based & Code interpreter Imitation Learning Code
RAFT (Dong et al., 2023) RRHF (Yuan et al., 2023a) Linear ORM Imitation Learning General
SSO (Xiang et al., 2024) Linear Rule-based Preference Learning Alignment
CodeUltraFeedback (Weyssow et al., 2024) Linear Language Model Preference Learning Code
Self-Rewarding (Yuan et al., 2024) Linear Language Model Preference Learning Alignment
StructRAG (Li et al., 2024b) Linear Language Model Preference Learning RAG
LLAMA-BERRY (Zhang et al., 2024a) Tree ORM Preference Learning Reasoning
Math-Shepherd (Wang et al., 2024b) Linear Golden Annotation & Rule-based Reinforcement Learning Math
RLTF (Liu et al., 2023b) PPOCoder (Shojaee et al., 2023b) Linear Code Interpreter Reinforcement Learning Code
RLAIF (Lee et al., 2023) Linear Language Model Reinforcement Learning General
SIRLC (Pang et al., 2023) Linear Language Model Reinforcement Learning Reasoning
RLFH (Wen et al., 2024d) Linear Language Model Reinforcement Learning Knowledge
RLHF (Ouyang et al., 2022a) Linear ORM Reinforcement Learning Alignment
Quark (Lu et al., 2022) Linear Tool Reinforcement Learning Alignment
ReST-MCTS (Zhang et al., 2024b) Tree Language Model Reinforcement Learning Math
CRITIC (Gou et al., 2024) Linear Code Interpreter & Tool & Search Engine Verifier-Aware Math, Code & Knowledge & General
Self-Debug (Chen et al., 2023c) Linear Code Interpreter Verifier-Aware Code
Self-Refine (Madaan et al., 2023) Linear Language Model Verifier-Aware Alignment
ReAct (Yao et al., 2022) Linear Search Engine Verifier-Aware Knowledge
Constrative decoding (Li et al., 2023a) Linear Language Model Verifier-Guided General
Chain-of-verfication (Dhuliawala et al., 2023) Linear Language Model Verifier-Guided Knowledge
Inverse Value Learning (Lu et al., 2024) Linear Language Model Verifier-Guided General
PRM (Lightman et al., 2023b) Linear PRM Verifier-Guided Math
KGR (Guan et al., 2023) Linear Knowledge Graph Verifier-Guided Knowledge
UoT (Hu et al., 2024) Tree Language Model Verifier-Guided General
ToT (Yao et al., 2024) Tree Language Model Verifier-Guided Reasoning
表3: 本稿は、検証器エンジニアリングの領域を包括的に探究し、探索、検証、フィードバックという3つの核心的段階に分解している。

6.2 Discussion on three stages of Verifier Engineering

検証器工学の3段階は、基盤モデルの能力向上において明確かつ重要な役割を果たしている。 本考察では、現在の課題を掘り下げ、検索効率、検証器設計、フィードバック手法の有効性に焦点を当てて、今後の研究の方向性を提案する。

6.2.1 Advanced Search Methods

候補応答生成の効率性と有効性は、モデルの性能にとって極めて重要である。課題は、探索と活用のバランスを取ること、そして検索プロセスを特定の最適化目標に合わせることにある。本項では、まず探索と活用のトレードオフについて議論し、次に目標を意識した検索がいかに検索プロセスをさらに最適化できるかについて論じる。

Balancing Exploration and Exploitation

探索と活用のバランスは、検証器工学の検索段階における中核的な問題である。 指示が与えられた場合、我々は候補応答を検索する必要がある。例えば、DPOシナリオでは、異なる検証結果を持つ対応の応答を得ることを目指す。目的に関わらず、探索と活用のトレードオフを通じて望ましい応答をサンプリングする方法は依然として重要な課題である。 探索とは、より大きな分散を持つ検証済み結果の候補応答を得るために新しい行動空間を探ることを指し、活用とは、期待される検証結果を満たす応答を得るために既知の効果的な戦略を利用することを指す。探索は基盤モデルが異なる行動の結果をより良く理解するのに役立ち、一方で活用は低コストで満足のいく応答を得ることができる。 しかし、最近の研究(Wilson, 2024; Nguyen & Satoh, 2024; Murthy et al., 2024)は、事後学習プロセスにおける既存の手法が、探索の重要性を軽視し、活用に過度に依存していることを示唆している。このアンバランスは、基盤モデルが局所最適解に陥り、汎化能力を制限する可能性がある。したがって、学習中にこれら二つの戦略をいかにバランス良く取り入れるかが、モデルの性能向上にとって極めて重要である。

Goal-Aware Search

3節で示したように、既存の検索手法は主に次のトークン分布からの確率的検索に依存し、検証器のフィードバックを通じて検索方向を調整している。 しかし、この手法には根本的な問題がある:現在の検索アプローチは、最適化目標との直接的な相関関係を欠いていることが多い。 結果として、我々は検索段階で基盤モデルに目標を満たす候補応答を生成するよう導くことができず、事後の検証結果に頼って我々の意図に合致する応答をフィルタリングするしかない。 この遅延した検証メカニズムは、検索効率を大幅に低下させ、計算オーバーヘッドを増大させる。 この課題に対処するため、A*のような検索アルゴリズム(Zeng & Church, 2009)は、現在のノードのコストと目標までの将来コストの発見的推定を融合している。今後の研究は、より堅牢な目標推定と融合手法の開発に焦点を当てることができる。

6.2.2 Open Questions to Verifier Design

効果的な検証器の設計は、基盤モデルの性能と信頼性を向上させる上で極めて重要である。しかし、検証器の最適な設計と統合に関しては、いくつかの未解決の問題が残されている。本項では、まず検証器設計に関する考慮事項と体系的な評価フレームワークの必要性について検討する。次に、複数の検証器を組み合わせることに関連する複雑さを探り、包括的かつスケーラブルな検証システムを実現するために対処すべき課題を強調する。

Verifier Design and Systematic Evaluation

異なるタイプの指示に対して特定の検証器を設計することは不可欠である。 明示的な出力制約(文法形式や長さ制限など)を持つ指示に対しては、その確定的な信頼性から、ルールベースの検証器を実装すべきである。 質問応答の指示に対しては、通常、LLMベースの検証器が応答の流暢さや情報内容などの主観的指標を評価するのに効果的である。 しかし、最近の研究(Wen et al., 2024c)は、既存の検証器評価指標と下流タスクの性能との間に弱い相関関係しかないことを明らかにし、現在の検証器評価フレームワークの重大な限界を浮き彫りにしている。 したがって、異なるタイプの検証器の有効性、適用範囲、限界を包括的に評価するための体系的な評価フレームワークが必要である。 このようなフレームワークは、検証器の選択と組み合わせを導くだけでなく、様々なタスクシナリオにおける検証器の展開のベストプラクティスを確立することにもなる。

Challenges of Verifier Combinations

上述のように、単一の検証器だけで効果的な検証結果を得ることは不可能である。 したがって、候補応答評価の多様な要件に対応するために、複数の検証器を統合することが不可欠である。 様々なタスクシナリオにわたって基盤モデルの性能を包括的に向上させるためには、効果的な検証器組み合わせシステムを開発する必要がある。 効果的な検証器組み合わせシステムの構築には、以下の3つの主要な課題がある:

  • 指示のカバレッジ:検証器の組み合わせは、評価システムの完全性を確保するために、様々なタイプの指示を処理できる能力を持つ必要がある。包括的な検証器フレームワークの構築には、構造化された出力の検証、オープンエンドな質問の評価、創造的タスクの評価など、異なるタスク特性と評価ニーズに対する深い理解が必要である。

  • 自動ルーティングメカニズム:異なるタスクは通常、様々な形式と粒度の検証器を必要とするため、インテリジェントな検証器ルーティングシステムが求められる。このシステムは、指示の特性を分析し、それに応じて適切な検証器の組み合わせを選択する必要がある。第2節で議論したPAC理論に基づき、選択された検証器の組み合わせは、我々の最終的な最適化目標を効果的に近似すべきである。

  • 検証結果統合戦略:複数の検証器が異なる検証結果を生成する場合、信頼できる意思決定メカニズムが必要である。これには、異なる検証器の重みの動的調整、競合解決戦略、最終スコアの合成方法が含まれる。特に、検証結果に差異がある場合、各検証器の信頼性やタスクとの関連性などの要因を考慮して合理的な判断を下す必要がある。

6.2.3 Effectiveness of Feedback Methods

フィードバック手法の有効性は、基盤モデルの性能と適応性を形成する上で極めて重要な役割を果たす。特に、我々は以下の2つの重要な問題に焦点を当てる:1) フィードバック手法がモデルの性能を正確かつ効率的に改善できるか、2) 他のクエリに効果的に汎化できるか。

Key Factors in Designing Feedback Methods

異なるフィードバック手法は、基盤モデルの能力に異なる影響を与える。 フィードバック手法を選択する際には、いくつかの重要な要因を慎重にバランスを取る必要がある。 まず、アルゴリズムは検証結果のノイズに対して十分な堅牢性を示し、フィードバックプロセスの安定性を確保する必要がある。 次に、特定のタイプの検証結果に基づくフィードバックアルゴリズムがモデルにどのような影響を与えるかを評価することが重要である。特定の能力を過度に最適化すると、モデルの基本的な能力と全体的な汎化能力を損なう可能性があり、性能低下につながる可能性がある。 さらに、異なる容量を持つ基盤モデルは、異なる最適化アプローチを必要とする可能性がある。より大規模なモデルはより洗練されたフィードバック手法から恩恵を受ける可能性がある一方で、小規模なモデルは容量の飽和を防ぐためにより保守的なフィードバック手法を必要とする可能性がある。 モデルの固有の能力を考慮しながら、これらの要因の間で適切なバランスを見出すことが極めて重要である。

Generalization over Queries

信頼性の高い検証器と効果的なフィードバック手法を備えた理想的なシナリオは、限られたクエリセットでの最適化を通じて基盤モデルの能力を包括的に改善することである。 これには、フィードバック手法が強力なクエリ間汎化能力を持つことが必要である。 具体的には、特定のクエリに対するフィードバックを通じて基盤モデルの特定の能力を向上させる場合、これらの改善された能力は新しいクエリを処理する際にも効果的に転移し、持続する必要がある。 しかし、汎化には重大な課題も存在する:異なるクエリはモデルに異なる能力の発動を要求する可能性があり、不適切な汎化はモデルが特定の能力を不適切なシナリオに適用してしまい、性能を低下させる可能性がある。 したがって、フィードバック手法は効果的な汎化を促進するだけでなく、過度の汎化や能力の誤った転移を防ぐ必要がある。

6.3 Verifier Engineering Implementation

本節では、効率性、スケーラビリティ、信頼性を確保するために、検証器エンジニアリングの実装において様々な段階で直面する可能性のある問題について論じる。

Search

高い探索効率の達成は、検証器エンジニアリングにおける重要な目標である。過度の探索は、しばしば検証器エンジニアリングのパイプライン全体を遅延させる。

この問題に対処するため、現在のLLMベースのPPOアルゴリズムの大半は、最適化のために単一の応答のみをサンプリングしている。 一方、RLHFのようなアルゴリズムは一般的に重要度サンプリング(Schulman et al., 2017; Xie et al., 2019)技術を組み込んでいる。これにより探索効率を向上させ、探索、検証、フィードバックの各段階間の頻繁な切り替えの必要性を最小限に抑えつつ、同時にサンプルの利用効率を改善している。

Verify

検証器の効率性もまた、タイムリーかつ効果的な検証結果を提供するための検証器エンジニアリングにおける重要な目標である。

様々な源泉からの複数の指示を扱う際には、正確な検証結果を確保するために、異なる能力を持つ検証器の様々な組み合わせを採用することが極めて重要である。全ての検証器をオンラインで展開し、リソース消費を最小限に抑えつつ効率を最大化するために、毎回動的にスケジューリングする最適なアプローチを決定することは、挑戦的な問題である。

効果的な検証結果を提供することには、2つの主要な課題がある:(1)検証器の知識をポリシーモデルと同期させ続けること、(2)検証器間で能力が異なる、または競合する場合に最適な検証器の組み合わせを選択すること。 例えば、InstructGPT(Ouyang et al., 2022a)は、人間が注釈付けした報酬モデルを検証器として使用している。静的な検証器の限界に対処するため、定期的に報酬モデルデータを再注釈し、その評価能力を進化するポリシーモデルの出力と整合させている。 さらに、Quan (2024)は、異なる強みを持つ複数の検証器を組み合わせるためにMixture of Expertsアーキテクチャを活用している。Experiential Co-Learning(Qian et al., 2023)もまた、より堅牢な検証結果を提供するために、多様な基盤モデルの知識を活用している。

Feedback

高度に効率的なフィードバックのためには、フィードバックアルゴリズム自体を改善するだけでなく、ワークフロー全体を最適化することが不可欠である。

訓練と推論の効率を向上させるために、LoRA(Hu et al., 2021; Xin et al., 2024)は訓練可能なパラメータ数を削減することで訓練効率を改善し、vLLM(Kwon et al., 2023)は推論効率を向上させている。

ワークフロー全体を最適化するために、フィードバック手法をいつ適用するかを決定することが重要である(Tang et al., 2024)。 訓練ベースのフィードバックでは、オンラインとオフラインのフィードバック手法間のパフォーマンスギャップを理解することが鍵となる。研究によると、オンラインフィードバック手法は、オンポリシーの候補応答に対してタイムリーな検証結果を提供することで基盤モデルの能力を最大化できるが、頻繁なサンプリングが必要となり、時間がかかる可能性がある。 対照的に、オフラインフィードバック手法は、訓練のために事前に準備されたデータセットを活用することで、包括的な応答探索を可能にし、プロセスを効率化する。しかし、このアプローチはデータ利用効率が低くなる傾向がある。 これは、オンラインとオフラインのフィードバック手法のバランスを取ることの重要性を浮き彫りにしている。 推論ベースのフィードバックでは、検証器をいつ呼び出すかを決定することが不可欠である。Jiang et al. (2023b)は、基盤モデルの内部状態の不確実性を検出することに基づく検索により、モデルのパフォーマンスが向上することを示している。これは、必要に応じて検証器を呼び出すことが、基盤モデルの能力を最大化するためにより効果的かつ効率的な結果をもたらすことを示唆している。

7 Conclusion

本稿では、検証器工学の概念を導入し、特徴量工学からデータ工学、そして最終的に検証器工学へと研究パラダイムが大きく転換していることを探究している。 我々のフレームワークは、検索、検証、フィードバックを包含する閉ループフィードバックサイクルを通じて、基盤モデルの能力を最適化できることを示す意義と洞察を提供している。 さらに、我々は既存の検索アルゴリズムをその粒度と方式に基づいて分類し、現在の検証器をレビューし、トレーニングベースと推論ベースの両方の観点からフィードバック手法を分類している。 最後に、検証器工学が現在直面している課題について議論している。 本稿を通じて、我々は人工汎用知能の実現に向けた検証器工学の分野におけるさらなる議論を刺激し、実践的な応用を促進することを目指している。

References

  • Anthropic (2024) Anthropic. Measuring the persuasiveness of language models, 2024. https://www.anthropic.com/research/measuring-model-persuasiveness/.
  • Askell et al. (2021) Askell, A., Bai, Y., Chen, A., Drain, D., Ganguli, D., Henighan, T., Jones, A., Joseph, N., Mann, B., DasSarma, N., et al. A general language assistant as a laboratory for alignment. ArXiv preprint, abs/2112.00861, 2021. URL https://arxiv.org/abs/2112.00861.
  • Azar et al. (2024) Azar, M. G., Guo, Z. D., Piot, B., Munos, R., Rowland, M., Valko, M., and Calandriello, D. A general theoretical paradigm to understand learning from human preferences. In International Conference on Artificial Intelligence and Statistics, pp.  4447–4455. PMLR, 2024.
  • Bai et al. (2022a) Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., Drain, D., Fort, S., Ganguli, D., Henighan, T., et al. Training a helpful and harmless assistant with reinforcement learning from human feedback. ArXiv preprint, abs/2204.05862, 2022a. URL https://arxiv.org/abs/2204.05862.
  • Bai et al. (2022b) Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., et al. Constitutional ai: Harmlessness from ai feedback. ArXiv preprint, abs/2212.08073, 2022b. URL https://arxiv.org/abs/2212.08073.
  • (6) Betker, J., Goh, G., Jing, L., Brooks, T., Wang, J., Li, L., Ouyang, L., Zhuang, J., Lee, J., Guo, Y., Manassra, W., Dhariwal, P., Chu, C., Jiao, Y., and Ramesh, A. Improving image generation with better captions. URL https://api.semanticscholar.org/CorpusID:264403242.
  • Bradley & Terry (1952) Bradley, R. A. and Terry, M. E. Rank analysis of incomplete block designs: I. the method of paired comparisons. Biometrika, 39:324, 1952. URL https://api.semanticscholar.org/CorpusID:125209808.
  • Brown et al. (2020a) Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., and Amodei, D. Language models are few-shot learners. In Larochelle, H., Ranzato, M., Hadsell, R., Balcan, M., and Lin, H. (eds.), Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual, 2020a. URL https://proceedings.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.
  • Brown et al. (2020b) Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., and Amodei, D. Language models are few-shot learners, 2020b. URL https://arxiv.org/abs/2005.14165.
  • Burns et al. (2023) Burns, C., Izmailov, P., Kirchner, J. H., Baker, B., Gao, L., Aschenbrenner, L., Chen, Y., Ecoffet, A., Joglekar, M., Leike, J., Sutskever, I., and Wu, J. Weak-to-strong generalization: Eliciting strong capabilities with weak supervision, 2023. URL https://arxiv.org/abs/2312.09390.
  • Cai et al. (2024) Cai, Z., Cao, M., Chen, H., Chen, K., Chen, K., Chen, X., Chen, X., Chen, Z., Chen, Z., Chu, P., et al. Internlm2 technical report. arXiv preprint arXiv:2403.17297, 2024.
  • Cao et al. (2024) Cao, B., Lu, K., Lu, X., Chen, J., Ren, M., Xiang, H., Liu, P., Lu, Y., He, B., Han, X., Sun, L., Lin, H., and Yu, B. Towards scalable automated alignment of llms: A survey, 2024. URL https://arxiv.org/abs/2406.01252.
  • Chaudhary (2023) Chaudhary, S. Code alpaca: An instruction-following llama model for code generation. https://github.com/sahil280114/codealpaca, 2023.
  • Chen et al. (2024a) Chen, A., Scheurer, J., Korbak, T., Campos, J. A., Chan, J. S., Bowman, S. R., Cho, K., and Perez, E. Improving code generation by training with natural language feedback, 2024a. URL https://arxiv.org/abs/2303.16749.
  • Chen et al. (2024b) Chen, G., Liao, M., Li, C., and Fan, K. Alphamath almost zero: process supervision without process. arXiv preprint arXiv:2405.03553, 2024b.
  • Chen et al. (2023a) Chen, W., Ma, X., Wang, X., and Cohen, W. W. Program of thoughts prompting: Disentangling computation from reasoning for numerical reasoning tasks, 2023a. URL https://arxiv.org/abs/2211.12588.
  • Chen et al. (2023b) Chen, X., Lin, M., Schärli, N., and Zhou, D. Teaching large language models to self-debug, 2023b.
  • Chen et al. (2023c) Chen, X., Lin, M., Schärli, N., and Zhou, D. Teaching large language models to self-debug, 2023c. URL https://arxiv.org/abs/2304.05128.
  • Chen et al. (2024c) Chen, Z., Zhou, K., Zhao, W. X., Wan, J., Zhang, F., Zhang, D., and Wen, J.-R. Improving large language models via fine-grained reinforcement learning with minimum editing constraint, 2024c.
  • Christiano et al. (2017) Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., and Amodei, D. Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30, 2017.
  • Cobbe et al. (2021) Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., Hesse, C., and Schulman, J. Training verifiers to solve math word problems, 2021.
  • Coulom (2006) Coulom, R. Efficient selectivity and backup operators in monte-carlo tree search. In International conference on computers and games, pp.  72–83. Springer, 2006.
  • de Moura et al. (2015) de Moura, L. M., Kong, S., Avigad, J., van Doorn, F., and von Raumer, J. The lean theorem prover (system description). In CADE, 2015. URL https://api.semanticscholar.org/CorpusID:232990.
  • Deng et al. (2009) Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pp.  248–255. Ieee, 2009.
  • Dhuliawala et al. (2023) Dhuliawala, S., Komeili, M., Xu, J., Raileanu, R., Li, X., Celikyilmaz, A., and Weston, J. Chain-of-verification reduces hallucination in large language models, 2023. URL https://arxiv.org/abs/2309.11495.
  • Ding et al. (2023) Ding, N., Chen, Y., Xu, B., Qin, Y., Zheng, Z., Hu, S., Liu, Z., Sun, M., and Zhou, B. Enhancing chat language models by scaling high-quality instructional conversations. arXiv preprint arXiv:2305.14233, 2023.
  • Dong et al. (2023) Dong, H., Xiong, W., Goyal, D., Zhang, Y., Chow, W., Pan, R., Diao, S., Zhang, J., SHUM, K., and Zhang, T. RAFT: Reward ranked finetuning for generative foundation model alignment. Transactions on Machine Learning Research, 2023. ISSN 2835-8856. URL https://openreview.net/forum?id=m7p5O7zblY.
  • Dosovitskiy et al. (2021) Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., and Houlsby, N. An image is worth 16x16 words: Transformers for image recognition at scale, 2021. URL https://arxiv.org/abs/2010.11929.
  • Du et al. (2023) Du, Q., Zong, C., and Zhang, J. Mods: Model-oriented data selection for instruction tuning. arXiv preprint arXiv:2311.15653, 2023.
  • Dubey et al. (2024) Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., Schelten, A., Yang, A., Fan, A., et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
  • Ethayarajh et al. (2024) Ethayarajh, K., Xu, W., Muennighoff, N., Jurafsky, D., and Kiela, D. Kto: Model alignment as prospect theoretic optimization. arXiv preprint arXiv:2402.01306, 2024.
  • Fan et al. (2018) Fan, A., Lewis, M., and Dauphin, Y. Hierarchical neural story generation, 2018. URL https://arxiv.org/abs/1805.04833.
  • Friedland & Krell (2018) Friedland, G. and Krell, M. A capacity scaling law for artificial neural networks, 2018. URL https://arxiv.org/abs/1708.06019.
  • Gao et al. (2023) Gao, L., Madaan, A., Zhou, S., Alon, U., Liu, P., Yang, Y., Callan, J., and Neubig, G. Pal: Program-aided language models. In International Conference on Machine Learning, pp.  10764–10799. PMLR, 2023.
  • Gou et al. (2023) Gou, Z., Shao, Z., Gong, Y., Shen, Y., Yang, Y., Duan, N., and Chen, W. Critic: Large language models can self-correct with tool-interactive critiquing. arXiv preprint arXiv:2305.11738, 2023.
  • Gou et al. (2024) Gou, Z., Shao, Z., Gong, Y., Shen, Y., Yang, Y., Duan, N., and Chen, W. Critic: Large language models can self-correct with tool-interactive critiquing, 2024. URL https://arxiv.org/abs/2305.11738.
  • Guan et al. (2023) Guan, X., Liu, Y., Lin, H., Lu, Y., He, B., Han, X., and Sun, L. Mitigating large language model hallucinations via autonomous knowledge graph-based retrofitting, 2023. URL https://arxiv.org/abs/2311.13314.
  • Guan et al. (2024) Guan, X., Liu, Y., Lin, H., Lu, Y., He, B., Han, X., and Sun, L. Mitigating large language model hallucinations via autonomous knowledge graph-based retrofitting. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 38, pp.  18126–18134, 2024.
  • Hearst et al. (1998) Hearst, M. A., Dumais, S. T., Osuna, E., Platt, J., and Scholkopf, B. Support vector machines. IEEE Intelligent Systems and their applications, 13(4):18–28, 1998.
  • Hinton (2015) Hinton, G. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015.
  • Holtzman et al. (2020) Holtzman, A., Buys, J., Du, L., Forbes, M., and Choi, Y. The curious case of neural text degeneration, 2020. URL https://arxiv.org/abs/1904.09751.
  • Hu et al. (2021) Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., and Chen, W. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.
  • Hu et al. (2024) Hu, Z., Liu, C., Feng, X., Zhao, Y., Ng, S.-K., Luu, A. T., He, J., Koh, P. W., and Hooi, B. Uncertainty of thoughts: Uncertainty-aware planning enhances information seeking in large language models, 2024. URL https://arxiv.org/abs/2402.03271.
  • Inan et al. (2023) Inan, H., Upasani, K., Chi, J., Rungta, R., Iyer, K., Mao, Y., Tontchev, M., Hu, Q., Fuller, B., Testuggine, D., et al. Llama guard: Llm-based input-output safeguard for human-ai conversations. arXiv preprint arXiv:2312.06674, 2023.
  • Jiang et al. (2023a) Jiang, D., Ren, X., and Lin, B. Y. LLM-blender: Ensembling large language models with pairwise ranking and generative fusion. In Rogers, A., Boyd-Graber, J., and Okazaki, N. (eds.), Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.  14165–14178, Toronto, Canada, July 2023a. Association for Computational Linguistics. doi: 10.18653/v1/2023.acl-long.792. URL https://aclanthology.org/2023.acl-long.792.
  • Jiang et al. (2023b) Jiang, Z., Xu, F. F., Gao, L., Sun, Z., Liu, Q., Dwivedi-Yu, J., Yang, Y., Callan, J., and Neubig, G. Active retrieval augmented generation. arXiv preprint arXiv:2305.06983, 2023b.
  • Jordan & Mitchell (2015) Jordan, M. I. and Mitchell, T. M. Machine learning: Trends, perspectives, and prospects. Science, 349(6245):255–260, 2015.
  • Kocsis & Szepesvári (2006) Kocsis, L. and Szepesvári, C. Bandit based monte-carlo planning. In European conference on machine learning, pp.  282–293. Springer, 2006.
  • Krishna et al. (2020) Krishna, K., Wieting, J., and Iyyer, M. Reformulating unsupervised style transfer as paraphrase generation. In Webber, B., Cohn, T., He, Y., and Liu, Y. (eds.), Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp.  737–762, Online, November 2020. Association for Computational Linguistics. doi: 10.18653/v1/2020.emnlp-main.55. URL https://aclanthology.org/2020.emnlp-main.55.
  • Kumar et al. (2024) Kumar, A., Zhuang, V., Agarwal, R., Su, Y., Co-Reyes, J. D., Singh, A., Baumli, K., Iqbal, S., Bishop, C., Roelofs, R., Zhang, L. M., McKinney, K., Shrivastava, D., Paduraru, C., Tucker, G., Precup, D., Behbahani, F., and Faust, A. Training language models to self-correct via reinforcement learning, 2024. URL https://arxiv.org/abs/2409.12917.
  • Kwon et al. (2023) Kwon, W., Li, Z., Zhuang, S., Sheng, Y., Zheng, L., Yu, C. H., Gonzalez, J. E., Zhang, H., and Stoica, I. Efficient memory management for large language model serving with pagedattention. In Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles, 2023.
  • Lee et al. (2023) Lee, H., Phatale, S., Mansoor, H., Mesnard, T., Ferret, J., Lu, K., Bishop, C., Hall, E., Carbune, V., Rastogi, A., and Prakash, S. Rlaif: Scaling reinforcement learning from human feedback with ai feedback, 2023.
  • Lees et al. (2022) Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, J., Metzler, D., and Vasserman, L. A new generation of perspective api: Efficient multilingual character-level transformers. In Proceedings of the 28th ACM SIGKDD conference on knowledge discovery and data mining, pp.  3197–3207, 2022.
  • Leike et al. (2018a) Leike, J., Krueger, D., Everitt, T., Martic, M., Maini, V., and Legg, S. Scalable agent alignment via reward modeling: a research direction. arXiv preprint arXiv:1811.07871, 2018a.
  • Leike et al. (2018b) Leike, J., Krueger, D., Everitt, T., Martic, M., Maini, V., and Legg, S. Scalable agent alignment via reward modeling: a research direction, 2018b. URL https://arxiv.org/abs/1811.07871.
  • Leviathan et al. (2023) Leviathan, Y., Kalman, M., and Matias, Y. Fast inference from transformers via speculative decoding, 2023. URL https://arxiv.org/abs/2211.17192.
  • Li et al. (2022) Li, X. L., Holtzman, A., Fried, D., Liang, P., Eisner, J., Hashimoto, T., Zettlemoyer, L., and Lewis, M. Contrastive decoding: Open-ended text generation as optimization. arXiv preprint arXiv:2210.15097, 2022.
  • Li et al. (2023a) Li, X. L., Holtzman, A., Fried, D., Liang, P., Eisner, J., Hashimoto, T., Zettlemoyer, L., and Lewis, M. Contrastive decoding: Open-ended text generation as optimization, 2023a. URL https://arxiv.org/abs/2210.15097.
  • Li et al. (2023b) Li, Y., Lin, Z., Zhang, S., Fu, Q., Chen, B., Lou, J.-G., and Chen, W. Making language models better reasoners with step-aware verifier. In Rogers, A., Boyd-Graber, J., and Okazaki, N. (eds.), Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.  5315–5333, Toronto, Canada, July 2023b. Association for Computational Linguistics. doi: 10.18653/v1/2023.acl-long.291. URL https://aclanthology.org/2023.acl-long.291.
  • Li et al. (2024a) Li, Y., Wei, F., Zhao, J., Zhang, C., and Zhang, H. RAIN: Your language models can align themselves without finetuning. In The Twelfth International Conference on Learning Representations, volume abs/2309.07124, 2024a. URL https://openreview.net/forum?id=pETSfWMUzy.
  • Li et al. (2024b) Li, Z., Chen, X., Yu, H., Lin, H., Lu, Y., Tang, Q., Huang, F., Han, X., Sun, L., and Li, Y. Structrag: Boosting knowledge intensive reasoning of llms via inference-time hybrid information structurization, 2024b. URL https://arxiv.org/abs/2410.08815.
  • Liao et al. (2024) Liao, M., Luo, W., Li, C., Wu, J., and Fan, K. Mario: Math reasoning with code interpreter output – a reproducible pipeline, 2024.
  • Lightman et al. (2023a) Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., and Cobbe, K. Let’s verify step by step. arXiv preprint arXiv:2305.20050, 2023a.
  • Lightman et al. (2023b) Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., and Cobbe, K. Let’s verify step by step, 2023b.
  • Lin et al. (2024) Lin, H., Sun, Z., Yang, Y., and Welleck, S. Lean-star: Learning to interleave thinking and proving, 2024.
  • Liu et al. (2023a) Liu, J., Zhu, Y., Xiao, K., Fu, Q., Han, X., Yang, W., and Ye, D. Rltf: Reinforcement learning from unit test feedback. arXiv preprint arXiv:2307.04349, 2023a.
  • Liu et al. (2023b) Liu, J., Zhu, Y., Xiao, K., Fu, Q., Han, X., Yang, W., and Ye, D. Rltf: Reinforcement learning from unit test feedback, 2023b. URL https://arxiv.org/abs/2307.04349.
  • Liu et al. (2022) Liu, M., Zhu, M., and Zhang, W. Goal-conditioned reinforcement learning: Problems and solutions, 2022. URL https://arxiv.org/abs/2201.08299.
  • Liu et al. (2024) Liu, W., Zeng, W., He, K., Jiang, Y., and He, J. What makes good data for alignment? a comprehensive study of automatic data selection in instruction tuning. In The Twelfth International Conference on Learning Representations, 2024. URL https://openreview.net/forum?id=BTKAeLqLMw.
  • Lu et al. (2022) Lu, X., Welleck, S., Hessel, J., Jiang, L., Qin, L., West, P., Ammanabrolu, P., and Choi, Y. Quark: Controllable text generation with reinforced unlearning, 2022.
  • Lu et al. (2024) Lu, X., Wen, X., Lu, Y., Yu, B., Lin, H., Yu, H., Sun, L., Han, X., and Li, Y. Transferable post-training via inverse value learning, 2024. URL https://arxiv.org/abs/2410.21027.
  • Luo et al. (2023a) Luo, H., Sun, Q., Xu, C., Zhao, P., Lou, J., Tao, C., Geng, X., Lin, Q., Chen, S., and Zhang, D. Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct, 2023a.
  • Luo et al. (2024a) Luo, L., Liu, Y., Liu, R., Phatale, S., Lara, H., Li, Y., Shu, L., Zhu, Y., Meng, L., Sun, J., and Rastogi, A. Improve mathematical reasoning in language models by automated process supervision, 2024a. URL https://arxiv.org/abs/2406.06592.
  • Luo et al. (2024b) Luo, L., Liu, Y., Liu, R., Phatale, S., Lara, H., Li, Y., Shu, L., Zhu, Y., Meng, L., Sun, J., et al. Improve mathematical reasoning in language models by automated process supervision. arXiv preprint arXiv:2406.06592, 2024b.
  • Luo et al. (2024c) Luo, X., Zhu, Q., Zhang, Z., Qin, L., Zhang, X., Yang, Q., Xu, D., and Che, W. Python is not always the best choice: Embracing multilingual program of thoughts, 2024c. URL https://arxiv.org/abs/2402.10691.
  • Luo et al. (2023b) Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., and Jiang, D. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023b.
  • Luo et al. (2024d) Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., and Jiang, D. Wizardcoder: Empowering code large language models with evol-instruct. In The Twelfth International Conference on Learning Representations, 2024d. URL https://openreview.net/forum?id=UnUwSIgK5W.
  • Madaan et al. (2023) Madaan, A., Tandon, N., Gupta, P., Hallinan, S., Gao, L., Wiegreffe, S., Alon, U., Dziri, N., Prabhumoye, S., Yang, Y., Gupta, S., Majumder, B. P., Hermann, K., Welleck, S., Yazdanbakhsh, A., and Clark, P. Self-refine: Iterative refinement with self-feedback. In Thirty-seventh Conference on Neural Information Processing Systems, volume 36, pp.  46534–46594, 2023. URL https://openreview.net/forum?id=S37hOerQLB.
  • Madaan et al. (2024) Madaan, A., Tandon, N., Gupta, P., Hallinan, S., Gao, L., Wiegreffe, S., Alon, U., Dziri, N., Prabhumoye, S., Yang, Y., et al. Self-refine: Iterative refinement with self-feedback. Advances in Neural Information Processing Systems, 36, 2024.
  • Markov et al. (2023) Markov, T., Zhang, C., Agarwal, S., Nekoul, F. E., Lee, T., Adler, S., Jiang, A., and Weng, L. A holistic approach to undesired content detection in the real world. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 37, pp.  15009–15018, 2023.
  • Mo & Xin (2023) Mo, S. and Xin, M. Tree of uncertain thoughts reasoning for large language models, 2023. URL https://arxiv.org/abs/2309.07694.
  • Mu et al. (2024) Mu, T., Helyar, A., Heidecke, J., Achiam, J., Vallone, A., Kivlichan, I., Lin, M., Beutel, A., Schulman, J., and Weng, L. Rule based rewards for language model safety. Advances in Neural Information Processing Systems, 2024.
  • Murthy et al. (2024) Murthy, R., Heinecke, S., Niebles, J. C., Liu, Z., Xue, L., Yao, W., Feng, Y., Chen, Z., Gokul, A., Arpit, D., Xu, R., Mui, P., Wang, H., Xiong, C., and Savarese, S. Rex: Rapid exploration and exploitation for ai agents, 2024. URL https://arxiv.org/abs/2307.08962.
  • Nakano et al. (2021) Nakano, R., Hilton, J., Balaji, S., Wu, J., Ouyang, L., Kim, C., Hesse, C., Jain, S., Kosaraju, V., Saunders, W., et al. Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332, 2021.
  • Nguyen & Satoh (2024) Nguyen, H.-T. and Satoh, K. Balancing exploration and exploitation in llm using soft rllf for enhanced negation understanding. arXiv preprint arXiv:2403.01185, 2024.
  • O’Brien & Lewis (2023) O’Brien, S. and Lewis, M. Contrastive decoding improves reasoning in large language models. arXiv preprint arXiv:2309.09117, 2023.
  • Olausson et al. (2023) Olausson, T., Gu, A., Lipkin, B., Zhang, C., Solar-Lezama, A., Tenenbaum, J., and Levy, R. Linc: A neurosymbolic approach for logical reasoning by combining language models with first-order logic provers. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp.  5153–5176. Association for Computational Linguistics, 2023. doi: 10.18653/v1/2023.emnlp-main.313. URL http://dx.doi.org/10.18653/v1/2023.emnlp-main.313.
  • Ouyang et al. (2022a) Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022a.
  • Ouyang et al. (2022b) Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., and Lowe, R. Training language models to follow instructions with human feedback, 2022b. URL https://arxiv.org/abs/2203.02155.
  • Pan et al. (2024) Pan, R., Cao, B., Lin, H., Han, X., Zheng, J., Wang, S., Cai, X., and Sun, L. Not all contexts are equal: Teaching llms credibility-aware generation, 2024. URL https://arxiv.org/abs/2404.06809.
  • Pang et al. (2023) Pang, J.-C., Wang, P., Li, K., Chen, X.-H., Xu, J., Zhang, Z., and Yu, Y. Language model self-improvement by reinforcement learning contemplation, 2023. URL https://arxiv.org/abs/2305.14483.
  • Peng et al. (2023) Peng, B., Li, C., He, P., Galley, M., and Gao, J. Instruction tuning with gpt-4, 2023.
  • Plappert et al. (2018) Plappert, M., Andrychowicz, M., Ray, A., McGrew, B., Baker, B., Powell, G., Schneider, J., Tobin, J., Chociej, M., Welinder, P., Kumar, V., and Zaremba, W. Multi-goal reinforcement learning: Challenging robotics environments and request for research, 2018. URL https://arxiv.org/abs/1802.09464.
  • Qian et al. (2023) Qian, C., Dang, Y., Li, J., Liu, W., Xie, Z., Wang, Y., Chen, W., Yang, C., Cong, X., Che, X., et al. Experiential co-learning of software-developing agents. arXiv preprint arXiv:2312.17025, 2023.
  • Quan (2024) Quan, S. Dmoerm: Recipes of mixture-of-experts for effective reward modeling. arXiv preprint arXiv:2403.01197, 2024.
  • Quinlan (1986) Quinlan, J. R. Induction of decision trees. Machine learning, 1:81–106, 1986.
  • Rafailov et al. (2024) Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., and Finn, C. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 2024.
  • Robertson et al. (2009) Robertson, S., Zaragoza, H., et al. The probabilistic relevance framework: Bm25 and beyond. Foundations and Trends® in Information Retrieval, 3(4):333–389, 2009.
  • Saunders et al. (2022) Saunders, W., Yeh, C., Wu, J., Bills, S., Ouyang, L., Ward, J., and Leike, J. Self-critiquing models for assisting human evaluators. ArXiv preprint, abs/2206.05802, 2022. URL https://arxiv.org/abs/2206.05802.
  • Schaul et al. (2015) Schaul, T., Horgan, D., Gregor, K., and Silver, D. Universal value function approximators. In Bach, F. and Blei, D. (eds.), Proceedings of the 32nd International Conference on Machine Learning, volume 37 of Proceedings of Machine Learning Research, pp.  1312–1320, Lille, France, 07–09 Jul 2015. PMLR. URL https://proceedings.mlr.press/v37/schaul15.html.
  • Schmidhuber (2015) Schmidhuber, J. Deep learning in neural networks: An overview. Neural Networks, 61:85–117, 2015. ISSN 0893-6080. doi: https://doi.org/10.1016/j.neunet.2014.09.003. URL https://www.sciencedirect.com/science/article/pii/S0893608014002135.
  • Schulman et al. (2017) Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and Klimov, O. Proximal policy optimization algorithms, 2017.
  • Sevilla et al. (2022) Sevilla, J., Heim, L., Ho, A., Besiroglu, T., Hobbhahn, M., and Villalobos, P. Compute trends across three eras of machine learning. In 2022 International Joint Conference on Neural Networks (IJCNN), pp.  1–8. IEEE, July 2022. doi: 10.1109/ijcnn55064.2022.9891914. URL http://dx.doi.org/10.1109/IJCNN55064.2022.9891914.
  • Shojaee et al. (2023a) Shojaee, P., Jain, A., Tipirneni, S., and Reddy, C. K. Execution-based code generation using deep reinforcement learning. arXiv preprint arXiv:2301.13816, 2023a.
  • Shojaee et al. (2023b) Shojaee, P., Jain, A., Tipirneni, S., and Reddy, C. K. Execution-based code generation using deep reinforcement learning, 2023b. URL https://arxiv.org/abs/2301.13816.
  • Snell et al. (2024) Snell, C., Lee, J., Xu, K., and Kumar, A. Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314, 2024.
  • Song et al. (2024) Song, F., Yu, B., Li, M., Yu, H., Huang, F., Li, Y., and Wang, H. Preference ranking optimization for human alignment. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 38, pp.  18990–18998, 2024.
  • Stiennon et al. (2020) Stiennon, N., Ouyang, L., Wu, J., Ziegler, D., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. F. Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33:3008–3021, 2020.
  • Sun et al. (2024a) Sun, H., Haider, M., Zhang, R., Yang, H., Qiu, J., Yin, M., Wang, M., Bartlett, P., and Zanette, A. Fast best-of-n decoding via speculative rejection, 2024a. URL https://arxiv.org/abs/2410.20290.
  • Sun et al. (2024b) Sun, S., Li, J., Yuan, W., Yuan, R., Li, W., and Liu, P. The critique of critique. ArXiv preprint, abs/2401.04518, 2024b. URL https://arxiv.org/abs/2401.04518.
  • Tang et al. (2024) Tang, Y., Guo, D. Z., Zheng, Z., Calandriello, D., Cao, Y., Tarassov, E., Munos, R., Pires, B. Á., Valko, M., Cheng, Y., et al. Understanding the performance gap between online and offline alignment algorithms. arXiv preprint arXiv:2405.08448, 2024.
  • Touvron et al. (2023a) Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023a.
  • Touvron et al. (2023b) Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023b.
  • Tsai et al. (2023) Tsai, C. F., Zhou, X., Liu, S. S., Li, J., Yu, M., and Mei, H. Can large language models play text games well? current state-of-the-art and open questions. arXiv preprint arXiv:2304.02868, 2023.
  • Vapnik (2000) Vapnik, V. N. The Nature of Statistical Learning Theory. Springer, 2000.
  • Vijayakumar et al. (2018) Vijayakumar, A. K., Cogswell, M., Selvaraju, R. R., Sun, Q., Lee, S., Crandall, D., and Batra, D. Diverse beam search: Decoding diverse solutions from neural sequence models, 2018. URL https://arxiv.org/abs/1610.02424.
  • Wang et al. (2023a) Wang, K., Ren, H., Zhou, A., Lu, Z., Luo, S., Shi, W., Zhang, R., Song, L., Zhan, M., and Li, H. Mathcoder: Seamless code integration in llms for enhanced mathematical reasoning. arXiv preprint arXiv:2310.03731, 2023a.
  • Wang et al. (2023b) Wang, K., Ren, H., Zhou, A., Lu, Z., Luo, S., Shi, W., Zhang, R., Song, L., Zhan, M., and Li, H. Mathcoder: Seamless code integration in llms for enhanced mathematical reasoning, 2023b. URL https://arxiv.org/abs/2310.03731.
  • Wang et al. (2023c) Wang, P., Li, L., Shao, Z., Xu, R., Dai, D., Li, Y., Chen, D., Wu, Y., and Sui, Z. Math-shepherd: A label-free step-by-step verifier for llms in mathematical reasoning. arXiv preprint arXiv:2312.08935, 2023c.
  • Wang et al. (2024a) Wang, P., Li, L., Shao, Z., Xu, R. X., Dai, D., Li, Y., Chen, D., Wu, Y., and Sui, Z. Math-shepherd: Verify and reinforce llms step-by-step without human annotations, 2024a.
  • Wang et al. (2024b) Wang, P., Li, L., Shao, Z., Xu, R. X., Dai, D., Li, Y., Chen, D., Wu, Y., and Sui, Z. Math-shepherd: Verify and reinforce llms step-by-step without human annotations, 2024b. URL https://arxiv.org/abs/2312.08935.
  • Wang & Zhou (2024) Wang, X. and Zhou, D. Chain-of-thought reasoning without prompting. ArXiv preprint, abs/2402.10200, 2024. URL https://arxiv.org/abs/2402.10200.
  • Wang et al. (2023d) Wang, X., Wei, J., Schuurmans, D., Le, Q. V., Chi, E. H., Narang, S., Chowdhery, A., and Zhou, D. Self-consistency improves chain of thought reasoning in language models. In The Eleventh International Conference on Learning Representations, 2023d. URL https://openreview.net/forum?id=1PL1NIMMrw.
  • Wang et al. (2023e) Wang, Y., Kordi, Y., Mishra, S., Liu, A., Smith, N. A., Khashabi, D., and Hajishirzi, H. Self-instruct: Aligning language models with self-generated instructions. In Rogers, A., Boyd-Graber, J., and Okazaki, N. (eds.), Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.  13484–13508, Toronto, Canada, 2023e. Association for Computational Linguistics. doi: 10.18653/v1/2023.acl-long.754. URL https://aclanthology.org/2023.acl-long.754.
  • Wei et al. (2022) Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q. V., Zhou, D., et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837, 2022.
  • Wen et al. (2024a) Wen, J., Zhong, R., Khan, A., Perez, E., Steinhardt, J., Huang, M., Boman, S. R., He, H., and Feng, S. Language models learn to mislead humans via rlhf. arXiv preprint arXiv:2409.12822, 2024a.
  • Wen et al. (2024b) Wen, J., Zhong, R., Khan, A., Perez, E., Steinhardt, J., Huang, M., Bowman, S. R., He, H., and Feng, S. Language models learn to mislead humans via rlhf, 2024b. URL https://arxiv.org/abs/2409.12822.
  • Wen et al. (2024c) Wen, X., Lou, J., Lu, Y., Lin, H., Yu, X., Lu, X., He, B., Han, X., Zhang, D., and Sun, L. Rethinking reward model evaluation: Are we barking up the wrong tree? arXiv preprint arXiv:2410.05584, 2024c.
  • Wen et al. (2024d) Wen, X., Lu, X., Guan, X., Lu, Y., Lin, H., He, B., Han, X., and Sun, L. On-policy fine-grained knowledge feedback for hallucination mitigation, 2024d. URL https://arxiv.org/abs/2406.12221.
  • Weyssow et al. (2024) Weyssow, M., Kamanda, A., and Sahraoui, H. Codeultrafeedback: An llm-as-a-judge dataset for aligning large language models to coding preferences, 2024.
  • Wilson (2024) Wilson, D. Llm tree search. arXiv preprint arXiv:2410.19117, 2024.
  • Wu et al. (2024) Wu, T., Yuan, W., Golovneva, O., Xu, J., Tian, Y., Jiao, J., Weston, J., and Sukhbaatar, S. Meta-rewarding language models: Self-improving alignment with llm-as-a-meta-judge. arXiv preprint arXiv:2407.19594, 2024.
  • Xiang et al. (2024) Xiang, H., Yu, B., Lin, H., Lu, K., Lu, Y., Han, X., Sun, L., Zhou, J., and Lin, J. Aligning large language models via self-steering optimization, 2024. URL https://arxiv.org/abs/2410.17131.
  • Xie et al. (2019) Xie, T., Ma, Y., and Wang, Y.-X. Towards optimal off-policy evaluation for reinforcement learning with marginalized importance sampling. Advances in neural information processing systems, 32, 2019.
  • Xie et al. (2024) Xie, Y., Goyal, A., Zheng, W., Kan, M.-Y., Lillicrap, T. P., Kawaguchi, K., and Shieh, M. Monte carlo tree search boosts reasoning via iterative preference learning. arXiv preprint arXiv:2405.00451, 2024.
  • Xin et al. (2024) Xin, C., Lu, Y., Lin, H., Zhou, S., Zhu, H., Wang, W., Liu, Z., Han, X., and Sun, L. Beyond full fine-tuning: Harnessing the power of LoRA for multi-task instruction tuning. In Calzolari, N., Kan, M.-Y., Hoste, V., Lenci, A., Sakti, S., and Xue, N. (eds.), Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pp.  2307–2317, Torino, Italia, May 2024. ELRA and ICCL. URL https://aclanthology.org/2024.lrec-main.206.
  • Xu et al. (2023) Xu, C., Guo, D., Duan, N., and McAuley, J. Baize: An open-source chat model with parameter-efficient tuning on self-chat data. arXiv preprint arXiv:2304.01196, 2023.
  • Yao et al. (2022) Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K. R., and Cao, Y. React: Synergizing reasoning and acting in language models. In The Eleventh International Conference on Learning Representations, 2022.
  • Yao et al. (2024) Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y., and Narasimhan, K. Tree of thoughts: Deliberate problem solving with large language models. Advances in Neural Information Processing Systems, 36, 2024.
  • Yu et al. (2024) Yu, F., Gao, A., and Wang, B. OVM, outcome-supervised value models for planning in mathematical reasoning. In Duh, K., Gomez, H., and Bethard, S. (eds.), Findings of the Association for Computational Linguistics: NAACL 2024, pp.  858–875, Mexico City, Mexico, June 2024. Association for Computational Linguistics. doi: 10.18653/v1/2024.findings-naacl.55. URL https://aclanthology.org/2024.findings-naacl.55.
  • Yu et al. (2023a) Yu, L., Jiang, W., Shi, H., Yu, J., Liu, Z., Zhang, Y., Kwok, J. T., Li, Z., Weller, A., and Liu, W. Metamath: Bootstrap your own mathematical questions for large language models. arXiv preprint arXiv:2309.12284, 2023a.
  • Yu et al. (2023b) Yu, Z., Zhang, X., Shang, N., Huang, Y., Xu, C., Zhao, Y., Hu, W., and Yin, Q. Wavecoder: Widespread and versatile enhanced instruction tuning with refined data generation. arXiv preprint arXiv:2312.14187, 2023b.
  • Yuan et al. (2023a) Yuan, H., Yuan, Z., Tan, C., Wang, W., Huang, S., and Huang, F. RRHF: Rank responses to align language models with human feedback. In Thirty-seventh Conference on Neural Information Processing Systems, 2023a. URL https://openreview.net/forum?id=EdIGMCHk4l.
  • Yuan et al. (2024) Yuan, W., Pang, R. Y., Cho, K., Sukhbaatar, S., Xu, J., and Weston, J. Self-rewarding language models. ArXiv preprint, abs/2401.10020, 2024. URL https://arxiv.org/abs/2401.10020.
  • Yuan et al. (2023b) Yuan, Z., Yuan, H., Li, C., Dong, G., Lu, K., Tan, C., Zhou, C., and Zhou, J. Scaling relationship on learning mathematical reasoning with large language models, 2023b.
  • Yuan et al. (2023c) Yuan, Z., Yuan, H., Li, C., Dong, G., Lu, K., Tan, C., Zhou, C., and Zhou, J. Scaling relationship on learning mathematical reasoning with large language models, 2023c. URL https://arxiv.org/abs/2308.01825.
  • Yue et al. (2023) Yue, X., Qu, X., Zhang, G., Fu, Y., Huang, W., Sun, H., Su, Y., and Chen, W. Mammoth: Building math generalist models through hybrid instruction tuning. arXiv preprint arXiv:2309.05653, 2023.
  • Zelikman et al. (2022a) Zelikman, E., Wu, Y., Mu, J., and Goodman, N. Star: Bootstrapping reasoning with reasoning. In Koyejo, S., Mohamed, S., Agarwal, A., Belgrave, D., Cho, K., and Oh, A. (eds.), Advances in Neural Information Processing Systems, volume 35, pp.  15476–15488. Curran Associates, Inc., 2022a. URL https://proceedings.neurips.cc/paper_files/paper/2022/file/639a9a172c044fbb64175b5fad42e9a5-Paper-Conference.pdf.
  • Zelikman et al. (2022b) Zelikman, E., Wu, Y., Mu, J., and Goodman, N. Star: Bootstrapping reasoning with reasoning. Advances in Neural Information Processing Systems, 35:15476–15488, 2022b.
  • Zelikman et al. (2024) Zelikman, E., Harik, G., Shao, Y., Jayasiri, V., Haber, N., and Goodman, N. D. Quiet-star: Language models can teach themselves to think before speaking. ArXiv preprint, abs/2403.09629, 2024. URL https://arxiv.org/abs/2403.09629.
  • Zeng & Church (2009) Zeng, W. and Church, R. L. Finding shortest paths on real road networks: the case for a*. Int. J. Geogr. Inf. Sci., 23(4):531–543, April 2009. ISSN 1365-8816. doi: 10.1080/13658810801949850. URL https://doi.org/10.1080/13658810801949850.
  • Zhang et al. (2024a) Zhang, D., Wu, J., Lei, J., Che, T., Li, J., Xie, T., Huang, X., Zhang, S., Pavone, M., Li, Y., Ouyang, W., and Zhou, D. Llama-berry: Pairwise optimization for o1-like olympiad-level mathematical reasoning, 2024a. URL https://arxiv.org/abs/2410.02884.
  • Zhang et al. (2024b) Zhang, D., Zhoubian, S., Hu, Z., Yue, Y., Dong, Y., and Tang, J. Rest-mcts*: Llm self-training via process reward guided tree search, 2024b. URL https://arxiv.org/abs/2406.03816.
  • Zhang et al. (2024c) Zhang, L., Hosseini, A., Bansal, H., Kazemi, M., Kumar, A., and Agarwal, R. Generative verifiers: Reward modeling as next-token prediction. arXiv preprint arXiv:2408.15240, 2024c.
  • Zhang et al. (2024d) Zhang, L., Hosseini, A., Bansal, H., Kazemi, M., Kumar, A., and Agarwal, R. Generative verifiers: Reward modeling as next-token prediction, 2024d. URL https://arxiv.org/abs/2408.15240.
  • Zheng et al. (2024a) Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E., et al. Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in Neural Information Processing Systems, 36:46595–46623, 2024a. URL https://proceedings.neurips.cc/paper_files/paper/2023/hash/91f18a1287b398d378ef22505bf41832-Abstract-Datasets_and_Benchmarks.html.
  • Zheng et al. (2023) Zheng, R., Dou, S., Gao, S., Hua, Y., Shen, W., Wang, B., Liu, Y., Jin, S., Liu, Q., Zhou, Y., Xiong, L., Chen, L., Xi, Z., Xu, N., Lai, W., Zhu, M., Chang, C., Yin, Z., Weng, R., Cheng, W., Huang, H., Sun, T., Yan, H., Gui, T., Zhang, Q., Qiu, X., and Huang, X. Secrets of rlhf in large language models part i: Ppo, 2023.
  • Zheng et al. (2024b) Zheng, T., Zhang, G., Shen, T., Liu, X., Lin, B. Y., Fu, J., Chen, W., and Yue, X. Opencodeinterpreter: Integrating code generation with execution and refinement, 2024b.