Lifan Yuan1 Wendi Li2,3∗ Huayu Chen2 Ganqu Cui2 Ning Ding222footnotemark: 2 Kaiyan Zhang2 Bowen Zhou2Zhiyuan Liu2Hao Peng1 1University of Illinois Urbana-Champaign 2Tsinghua University
3Huazhong University of Science and Technology
lifan4@illinois.eduwendili@hust.edu.cn Equal Contribution. Work done during Wendi’s intership at Tsinghua University. Corresponding Authors: cgq22@mails.tsinghua.edu.cn, dn97@mail.tsinghua.edu.cn
Abstract
全体の応答を評価する従来の結果報酬モデル(ORM)とは異なり、プロセス報酬モデル(PRM)は推論の軌跡を段階的に採点し、より密度が高く細かい粒度の報酬を提供する。しかし、PRMの訓練には中間段階ごとにラベル付けされたデータが必要であり、手動および自動データ収集の両方に大きな課題がある。本稿は、この課題に取り組むことを目的としている。我々は理論的および実証的に、より安価な応答レベルのラベルでORMを訓練するだけで、追加コストなしに暗黙的なPRMが得られることを示す。唯一の仮定は、結果報酬をポリシーモデルと参照モデルの対数尤度比としてパラメータ化することであり、これは特定の損失目的関数の選択に関係なく最適化できる。実験では、我々は様々な目的関数で暗黙的なPRMを具現化し、MATHでその性能を評価する。我々の暗黙的なPRMは、訓練データの未満を使用して、Math-Shepherd (Wang et al., 2023)のá la強力なMCTSベースのベースラインを上回る性能を示す。その性能は多数決投票によってさらに改善できる。さらに、指示と応答のスケールアップが我々の暗黙的なPRMに利益をもたらし、後者がより大きな利益をもたらすことを発見した。特に、クロスエントロピー(CE)損失で具現化された我々の暗黙的なPRMは、データ効率が高く、指示ごとに1つの応答でのみ訓練された場合でも、生成モデルを改善し続けることができることがわかった。これは、極端なデータ不足と不均衡に苦しむセットアップである。さらに、指示はダウンストリームタスクに関連している必要があるが、応答の多様性は利益をもたらさない。驚くべきことに、Math-Shepherdのステップラベルで追加訓練しても、結果データのみで訓練された我々の暗黙的なPRMにさらなる改善をもたらさなかった。我々は、本研究がPRM訓練アプローチの再考を促し、PRMの訓練をより身近なものにすることに貢献することを期待している111モデルとデータは以下で入手可能: https://github.com/lifan-yuan/ImplicitPRM。。
1 Introduction
高品質な教師あり学習データによる訓練が、大規模言語モデル(LLM)開発の進歩を牽引してきた (Meta, 2024; Ding et al., 2023; Luo et al., 2024b; Yue et al., 2024; Yuan et al., 2024; Zhang et al., 2024b)。
この進歩を基盤として、報酬モデルはさらに境界を押し広げており、特に複雑な推論を必要とするタスクにおいて顕著である (Lightman et al., 2023; Wang et al., 2023; Snell et al., 2024)。
完全な応答を評価するように設計された結果報酬モデル(ORM)が主に探求されており、強化学習(RL)と推論の両方で使用できる。
しかし、結果報酬の疎性により、ORMは推論時の応答の再ランク付けで最適以下の性能を示すことが多く (Lightman et al., 2023)、RL訓練中の安定性と効率性に苦戦している (Cao et al., 2024; Chan et al., 2024)。
これは、より密で細かい粒度の報酬への需要の高まりを浮き彫りにしている。
中間ステップを評価して細かい粒度のガイダンスを提供するプロセス報酬モデル(PRM)は、自然にこのニーズを満たす。
既存の研究では、PRMがベストN個のサンプリング (Wang et al., 2023; Snell et al., 2024) とRL (Setlur et al., 2024) においてORMを上回る一貫した結果を示しており、すべての中間ステップを評価することでより優れた透明性と解釈可能性を提供すると主張している (Leike, 2024)。
PRMは有望であるにもかかわらず、ORMよりもはるかに訓練が困難である。なぜなら、PRM訓練データの収集には、すべての中間ステップにアノテーションを付ける必要があるためである。
人間の労力を減らすために、自動アノテーションアプローチが提案されている。これは、中間ステップが正しい結果につながる推定確率に基づいてラベル付けされる。
通常、これは大量の先読み軌跡をサンプリングして推定するか、Q値を予測する検証器を直接訓練することで達成されるが、いずれも大規模なオーバーヘッドを伴う (Wang et al., 2023; Lu et al., 2024)。
例えば、Wang et al. (2023) のように先読み軌跡をサンプリングしてステップレベルのデータを収集するには、ORMの訓練よりも38.8倍多くのFLOPsが必要である(§4)。
我々は、理論的および実証的な観点から、PRMの構築が従来考えられていたよりも大幅に安価に行えることを主張する:
強力なPRMは、より安価な応答レベルのデータでORMを訓練する際に、単純な報酬のパラメータ化を用いることで、追加コストなしで得ることができる。
具体的には、報酬を政策モデルと参照モデルの対数尤度比 としてパラメータ化することで、DPO (Rafailov et al., 2023) および多くの派生手法 (Azar et al., 2024; Ethayarajh et al., 2024; Chen et al., 2024; Rosset et al., 2024; Wu et al., 2024) で一般的に行われているように、ORM訓練中にPRMを自動的に学習することができる。
プロセス報酬は、同じ対数尤度比を部分的な応答に対して計算したものとなる。我々のアプローチを暗黙的PRMと呼ぶ。これは応答レベルのデータとORM訓練のみを必要とするためである。
さらに、我々の洞察は訓練目的関数の具体的な選択に依存せず、
DPOおよび同じ形式の暗黙的報酬を採用するすべての派生手法に適用可能である。
また、クロスエントロピー(CE)損失のような他の目的関数にも拡張できる。
この新しい理論的洞察は、DPO訓練によってモデルがQ関数を学習できるというRafailov et al. (2024)の結論を一般化するものである。
実用的には、我々のアプローチは、ペアワイズデータの取得が困難で、CE損失のようなアルゴリズムが同様に適用可能なシナリオに特に適している。これについては§5.2で示す。
実験において、我々は33Kの数学的指示とそれぞれに対する8つの解答からなるデータセットで我々の暗黙的PRMを訓練し、MATH (Hendrycks et al., 2021) におけるベストN個サンプリングを通じて評価を行った。
我々は、DPO、KTO、NCA、CEを含む異なる訓練目的で具現化された我々の暗黙的PRMの変種を探索した。
これらはすべて強力なPRMを生成し、Math-Shepherd (Wang et al., 2023) とAutoPSV (Lu et al., 2024) の我々の再実装、および6つの既製のオープンORMとPRMを含む競争力のあるベースラインを上回る性能を示した。図1に示すように、精度と開発オーバーヘッドの間で実質的により良いトレードオフを実現している。
特に、重み付けベストN個に統合された場合、CEが最も効果的である。
これにより、ペアデータの収集が困難なシナリオにおいてCE損失が魅力的となる。なぜなら、ペアになっていないデータやアンバランスなデータを扱うことができ、decent性能を持つ暗黙的PRMを得るためにDPOよりもデータ消費が少ないことが実証されているからである。
さらに、我々の暗黙的PRMは訓練データの増加から恩恵を受けることが判明し、指示の規模よりも応答の規模の方が影響力が大きいことがわかった。
しかし、我々の観察によれば、指示はダウンストリームタスクに関連している必要があるが、応答の多様性はあまり重要ではない。
驚くべきことに、ステップレベルのデータでの訓練は我々の暗黙的PRMにさらなる改善をもたらさなかった。
加えて、我々の暗黙的PRMは言語モデルのままであるにもかかわらず、ベストN個サンプリングを支援する能力は、ポリシーモデルとしてのダウンストリームタスクでの性能には反映されない。むしろ、我々の最も性能の悪い暗黙的PRMであるKTOで具現化されたものが、ポリシー性能の改善を経験した唯一のものとなった。
最後に、少なくとも我々が考慮したモデルとタスクに関しては、参照モデルを我々の暗黙的PRMから省略することができ、精度を損なうことなく推論効率を改善できることを観察した。
2 ORMs vs. PRMs: Dilemma of Performance and Expense
Background
ORMは疎な報酬 を応答全体に割り当て、最後のトークンが生成されるまでフィードバックは提供されない。
対照的に、PRMは各中間ステップの品質を評価し、各ステップの完了後に報酬を提供できる (Lightman et al., 2023)。
指示と ステップの応答 が与えられ、 が 番目のステップで が最初の ステップである場合、
PRMは指示と最初の ステップの連結を受け取り、 番目に報酬を割り当てる: 。
Q値 は、観察された応答 と現在のステップ を条件とした結果報酬 の期待値を示す。
Lightman et al. (2023) はプロセス報酬を各ステップの正確さとして定義し、一方 Wang et al. (2023) はQ値を直接プロセス報酬として考慮している。
我々は Lu et al. (2024) に従い、プロセス報酬をアドバンテージ、すなわちQ値の差として定義する: 。
アドバンテージをプロセス報酬として採用することの利点は、並行研究 (Setlur et al., 2024) で議論されている。
PRMs outperformans ORMs in both training and inference
ORMとPRMはともにモデル出力を評価するための報酬を提供できる。
PRMからの密なステップレベルの報酬は、安定的で効果的なRL訓練につながり (Cao et al., 2024; Chan et al., 2024)、応答の再ランク付けにおいてより良いパフォーマンスを示し、透明性と解釈可能性も向上する。
また、ORMは完全な応答で訓練されるが、そこから初期化された価値モデルはRL訓練中に不完全な応答しか受け取らない。対照的に、PRMは本質的に部分的な応答に対して密な報酬を提供するように訓練されているため、結果として得られる価値モデルはORMが直面する分布外の問題を緩和する可能性がある。
Training PRMs is substantially more expensive than ORMs
その効果にもかかわらず、PRMの訓練は訓練データ収集の課題により困難である。
PRMの訓練データを収集するために、MCTSが自動ステップ注釈に一般的に使用される(Wang et al., 2023; Luo et al., 2024a)。しかし、これは相当な追加コストをもたらす。
MCTSベースのステップラベル注釈では、ポリシーモデルは指示とステップまでの部分的な応答の連結に基づいての軌跡をサンプリングし、それぞれが最終的な回答につながる(Wang et al., 2023)。
例えば、Wang et al. (2023)のように10ステップのロールアウトと各ステップに対して8つの後続軌跡を仮定すると、各指示のステップラベルを取得するために合計の軌跡を生成する必要があり、これはORMの80倍である。
したがって、PRMのスケーリングは大きく制限される。
訓練データ収集のオーバーヘッドに加えて、このMCTSアプローチは、我々が以下および実験で示すように、ノイズの多い注釈プロセスにより最適でないパフォーマンスにつながる可能性がある。
現在の文献では、報酬を通常以下のいずれかでパラメータ化している:
(1) 隠れ状態の線形変換、報酬モデルは系列分類器である (Ouyang et al., 2022; Touvron et al., 2023; Zhu et al., 2023; Cui et al., 2024)
または (2) 生成的対数オッズ、報酬モデルは自己回帰的言語モデルであり、部分的または完全な応答のラベルを「良い」または「悪い」トークンとして予測するよう訓練され、時には「中立」という第三のラベルも用いる (Zhang et al., 2024c; Mahan et al., 2024; Lightman et al., 2023; Wang et al., 2023; Luo et al., 2024a)。
注目すべきは、この結論ががステップではなく番目のトークンを表す場合でも成立することである。
これは我々に示唆的なヒントを与える:ステップラベルを注釈付けする負担なしに、応答レベルのデータを収集し、ORMを訓練するだけで、PRMやさらに細かいトークンレベルのRMを実際に得ることができる。
この命題はORMの訓練目的の具体的な選択に依存しない。通常のORM訓練と同様に、異なる目的関数で具体化できる。唯一の違いはをに置き換えることである。
特に、多くの既存の選好学習アルゴリズムが既に我々の仮定を満たしている (Rafailov et al., 2023; Azar et al., 2024; Ethayarajh et al., 2024; Chen et al., 2024; Wu et al., 2024)。
PRMの訓練をより容易にするだけでなく、我々の暗黙的な過程報酬は、式1のおよびから導出されるものよりも正確である可能性がある(Wang et al., 2023)。これは以下の命題によって示される:
命題3.1に類似した直感はRafailov et al. (2024)によって提起されており、DPOがモデルにQ関数を暗黙的に学習させることを示している。しかし、我々の洞察はその結論を包含している。なぜなら、この特性はDPOアルゴリズムに限定されないからである。
例えば、応答レベルのラベルが与えられた場合、我々はさらにクロスエントロピー(CE)損失に一般化して、ペアになっていないデータやアンバランスなデータを含む実践的なシナリオに対処できる:
5.5.1 The Reference Model Does not Double Overall Inference Overhead
Setup
我々は、MATH500における最良のN個のサンプリングの実際の時間コストを計算する。全体のプロセスには、(1)生成モデルを使用して指示に対する複数の候補解を生成すること、(2)PRMを使用して各候補をスコアリングすることが含まれる。我々は前者の実装にvLLM (Kwon et al., 2023)を、後者にHuggingface Accelerate (Gugger et al., 2022)を使用する。
複雑な推論は大規模言語モデル(LLM)の重要な能力となっているが、最先端のモデルでさえ依然として課題となっている(Jimenez et al., 2024; Tian et al., 2024)。
LLMの推論能力を向上させるために、事前学習(Azerbayev et al., 2024; Paster et al., 2024; Li et al., 2023)、事後学習(Luo et al., 2024b; Yue et al., 2024; Yuan et al., 2024; Meta, 2024; Ouyang et al., 2022)、推論(Wei et al., 2022; Fu et al., 2023; Hao et al., 2023; Lightman et al., 2023)など、ライフサイクルの様々な段階で多様な技術が探求されてきた。
その中でも、モデルの出力を段階的に評価するプロセス報酬モデル(PRM)(Lightman et al., 2023)は、様々な設定での有効性から近年注目を集めている。
Implicit Reward
暗黙の報酬は、すでに選好学習において広く採用されている。
主要な研究は主に教師あり微調整の上でモデルを調整するためにこれらのアルゴリズムを適用することに焦点を当てているが(Rafailov et al., 2023; Azar et al., 2024; Ethayarajh et al., 2024; Chen et al., 2024; Rosset et al., 2024; Wu et al., 2024)、最近の研究では結果として得られるモデルの暗黙の報酬を結果報酬として活用することも試みられている(Lambert et al., 2024; Zhong et al., 2024; Hosseini et al., 2024)。さらに、DPOが自動的にQ関数を学習できることを示したRafailov et al. (2024)に続いて、Qiu et al. (2024)はこの特性を活用してDPOモデルに限定された自己誘導デコーディングアルゴリズムを考案している。
しかしながら、DPOモデルを既製の報酬モデルやQ関数として採用するこれらの応用にもかかわらず、そのような能力を特に改善することや、既製のモデルに基づいて適切なPRMを導出する方法を調査することを目的とした既存の研究は存在しない。
Azar et al. (2024)
Mohammad Gheshlaghi Azar, Mark Rowland, Bilal Piot, Daniel Guo, Daniele Calandriello, Michal Valko, and Rémi Munos.
A general theoretical paradigm to understand learning from human preferences.
International Conference on Artificial Intelligence and Statistics, abs/2310.12036, 2024.
Azerbayev et al. (2024)
Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen Marcus McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, and Sean Welleck.
Llemma: An open language model for mathematics.
ICLR, 2024.
Cao et al. (2024)
Meng Cao, Lei Shu, Lei Yu, Yun Zhu, Nevan Wichers, Yinxiao Liu, and Lei Meng.
Enhancing reinforcement learning with dense rewards from language model critic.
In EMNLP, 2024.
Chan et al. (2024)
Alex J. Chan, Hao Sun, Samuel Holt, and Mihaela van der Schaar.
Dense reward for free in reinforcement learning from human feedback.
ICML, 2024.
Chen et al. (2024)
Huayu Chen, Guande He, Lifan Yuan, Ganqu Cui, Hang Su, and Jun Zhu.
Noise contrastive alignment of language models with explicit rewards.
ArXiv, abs/2402.05369, 2024.
Cui et al. (2024)
Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Bingxiang He, Wei Zhu, Yuan Ni, Guotong Xie, Ruobing Xie, Yankai Lin, Zhiyuan Liu, and Maosong Sun.
Ultrafeedback: Boosting language models with scaled ai feedback.
In ICML, 2024.
Ding et al. (2023)
Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, and Bowen Zhou.
Enhancing chat language models by scaling high-quality instructional conversations.
arXiv preprint arXiv:2305.14233, 2023.
Ethayarajh et al. (2024)
Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, and Douwe Kiela.
Kto: Model alignment as prospect theoretic optimization.
ICML, 2024.
Fu et al. (2023)
Yao Fu, Hao Peng, Ashish Sabharwal, Peter Clark, and Tushar Khot.
Complexity-based prompting for multi-step reasoning.
ICLR, 2023.
Gugger et al. (2022)
Sylvain Gugger, Lysandre Debut, Thomas Wolf, Philipp Schmid, Zachary Mueller, Sourab Mangrulkar, Marc Sun, and Benjamin Bossan.
Accelerate: Training and inference at scale made simple, efficient and adaptable.
https://github.com/huggingface/accelerate, 2022.
Hao et al. (2023)
Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, and Zhiting Hu.
Reasoning with language model is planning with world model.
EMNLP, 2023.
Hendrycks et al. (2021)
Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Xiaodong Song, and Jacob Steinhardt.
Measuring mathematical problem solving with the math dataset.
ArXiv, 2021.
Hosseini et al. (2024)
Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron C. Courville, Alessandro Sordoni, and Rishabh Agarwal.
V-star: Training verifiers for self-taught reasoners.
COLM, 2024.
Jiang et al. (2023)
Albert Qiaochu Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de Las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, L’elio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, and William El Sayed.
Mistral 7b.
ArXiv, abs/2310.06825, 2023.
Jimenez et al. (2024)
Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, and Karthik Narasimhan.
Swe-bench: Can language models resolve real-world github issues?
ICLR, 2024.
Kwon et al. (2023)
Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, and Ion Stoica.
Efficient memory management for large language model serving with pagedattention.
In Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles, 2023.
Lambert et al. (2024)
Nathan Lambert, Valentina Pyatkin, Jacob Daniel Morrison, Lester James Validad Miranda, Bill Yuchen Lin, Khyathi Raghavi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, and Hanna Hajishirzi.
Rewardbench: Evaluating reward models for language modeling.
ArXiv, abs/2403.13787, 2024.
Li et al. (2023)
Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, Qian Liu, Evgenii Zheltonozhskii, Terry Yue Zhuo, Thomas Wang, Olivier Dehaene, Mishig Davaadorj, Joel Lamy-Poirier, João Monteiro, Oleh Shliazhko, Nicolas Gontier, Nicholas Meade, Armel Randy Zebaze, Ming-Ho Yee, Logesh Kumar Umapathi, Jian Zhu, Benjamin Lipkin, Muhtasham Oblokulov, Zhiruo Wang, Rudra Murthy, Jason Stillerman, Siva Sankalp Patel, Dmitry Abulkhanov, Marco Zocca, Manan Dey, Zhihan Zhang, Nourhan Fahmy, Urvashi Bhattacharyya, W. Yu, Swayam Singh, Sasha Luccioni, Paulo Villegas, Maxim Kunakov, Fedor Zhdanov, Manuel Romero, Tony Lee, Nadav Timor, Jennifer Ding, Claire Schlesinger, Hailey Schoelkopf, Jana Ebert, Tri Dao, Mayank Mishra, Alexander Gu, Jennifer Robinson, Carolyn Jane Anderson, Brendan Dolan-Gavitt, Danish Contractor, Siva Reddy, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Carlos Muñoz Ferrandis, Sean M. Hughes, Thomas Wolf, Arjun
Guha, Leandro von Werra, and Harm de Vries.
Starcoder: may the source be with you!
TMLR, 2023.
Lightman et al. (2023)
Hunter Lightman, Vineet Kosaraju, Yura Burda, Harrison Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, and Karl Cobbe.
Let’s verify step by step.
ArXiv, 2023.
Liu et al. (2024)
Chris Yuhao Liu, Liang Zeng, Jiacai Liu, Rui Yan, Jujie He, Chaojie Wang, Shuicheng Yan, Yang Liu, and Yahui Zhou.
Skywork-reward: Bag of tricks for reward modeling in llms.
arXiv preprint arXiv:2410.18451, 2024.
Lu et al. (2024)
Jianqiao Lu, Zhiyang Dou, Hongru Wang, Zeyu Cao, Jianbo Dai, Yingjia Wan, Yinya Huang, and Zhijiang Guo.
Autopsv: Automated process-supervised verifier.
ArXiv, abs/2405.16802, 2024.
Luo et al. (2024a)
Liangchen Luo, Yinxiao Liu, Rosanne Liu, Samrat Phatale, Harsh Lara, Yunxuan Li, Lei Shu, Yun Zhu, Lei Meng, Jiao Sun, and Abhinav Rastogi.
Improve mathematical reasoning in language models by automated process supervision.
ArXiv, abs/2406.06592, 2024a.
Luo et al. (2024b)
Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, and Daxin Jiang.
Wizardcoder: Empowering code large language models with evol-instruct.
ICLR, 2024b.
Mahan et al. (2024)
Dakota Mahan, Duy Phung, Rafael Rafailov, Chase Blagden, Nathan Lile, Louis Castricato, Jan-Philipp Franken, Chelsea Finn, and Alon Albalak.
Generative reward models.
2024.
Ouyang et al. (2022)
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke E. Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Francis Christiano, Jan Leike, and Ryan J. Lowe.
Training language models to follow instructions with human feedback.
ArXiv, abs/2203.02155, 2022.
Paster et al. (2024)
Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, and Jimmy Ba.
Openwebmath: An open dataset of high-quality mathematical web text, 2024.
Qiu et al. (2024)
Jiahao Qiu, Yifu Lu, Yifan Zeng, Jiacheng Guo, Jiayi Geng, Huazheng Wang, Kaixuan Huang, Yue Wu, and Mengdi Wang.
Treebon: Enhancing inference-time alignment with speculative tree-search and best-of-n sampling.
2024.
Rafailov et al. (2023)
Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, and Chelsea Finn.
Direct preference optimization: Your language model is secretly a reward model.
NeurIPS, 2023.
Rafailov et al. (2024)
Rafael Rafailov, Joey Hejna, Ryan Park, and Chelsea Finn.
From to : Your language model is secretly a q-function.
ArXiv, 2024.
Rosset et al. (2024)
Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, and Tengyang Xie.
Direct nash optimization: Teaching language models to self-improve with general preferences.
ArXiv, abs/2404.03715, 2024.
Setlur et al. (2024)
Amrith Rajagopal Setlur, Chirag Nagpal, Adam Fisch, Xinyang Geng, Jacob Eisenstein, Rishabh Agarwal, Alekh Agarwal, Jonathan Berant, and Aviral Kumar.
Rewarding progress: Scaling automated process verifiers for llm reasoning.
2024.
Snell et al. (2024)
Charlie Snell, Jaehoon Lee, Kelvin Xu, and Aviral Kumar.
Scaling llm test-time compute optimally can be more effective than scaling model parameters.
ArXiv, abs/2408.03314, 2024.
Tian et al. (2024)
Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Min Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, E. A. Huerta, and Hao Peng.
Scicode: A research coding benchmark curated by scientists.
Arxiv, 2024.
Touvron et al. (2023)
Hugo Touvron, Louis Martin, Kevin R. Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Daniel M. Bikel, Lukas Blecher, Cristian Cantón Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony S. Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel M. Kloumann, A. V. Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, R. Subramanian, Xia Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zhengxu Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, and
Thomas Scialom.
Llama 2: Open foundation and fine-tuned chat models.
ArXiv, abs/2307.09288, 2023.
Wang et al. (2024)
Haoxiang Wang, Wei Xiong, Tengyang Xie, Han Zhao, and Tong Zhang.
Interpretable preferences via multi-objective reward modeling and mixture-of-experts.
In EMNLP, 2024.
Wang et al. (2023)
Peiyi Wang, Lei Li, Zhihong Shao, Runxin Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, and Zhifang Sui.
Math-shepherd: Verify and reinforce llms step-by-step without human annotations.
ArXiv, 2023.
Wei et al. (2022)
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Huai hsin Chi, F. Xia, Quoc Le, and Denny Zhou.
Chain of thought prompting elicits reasoning in large language models.
NeurIPS, 2022.
Wu et al. (2024)
Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, and Quanquan Gu.
Self-play preference optimization for language model alignment.
ArXiv, abs/2405.00675, 2024.
Yuan et al. (2024)
Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, and Maosong Sun.
Advancing llm reasoning generalists with preference trees.
ArXiv, 2024.
Yue et al. (2024)
Xiang Yue, Tuney Zheng, Ge Zhang, and Wenhu Chen.
Mammoth2: Scaling instructions from the web.
NeurIPS, 2024.
Zhang et al. (2024a)
Hanning Zhang, Pengcheng Wang, Shizhe Diao, Yong Lin, Rui Pan, Hanze Dong, Dylan Zhang, Pavlo Molchanov, and Tong Zhang.
Entropy-regularized process reward model, 2024a.
Zhang et al. (2024b)
Kaiyan Zhang, Sihang Zeng, Ermo Hua, Ning Ding, Zhang-Ren Chen, Zhiyuan Ma, Haoxin Li, Ganqu Cui, Biqing Qi, Xuekai Zhu, et al.
Ultramedical: Building specialized generalists in biomedicine.
arXiv preprint arXiv:2406.03949, 2024b.
Zhang et al. (2024c)
Lunjun Zhang, Arian Hosseini, Hritik Bansal, Mehran Kazemi, Aviral Kumar, and Rishabh Agarwal.
Generative verifiers: Reward modeling as next-token prediction.
2024c.
Zhong et al. (2024)
Han Zhong, Guhao Feng, Wei Xiong, Li Zhao, Di He, Jiang Bian, and Liwei Wang.
Dpo meets ppo: Reinforced token optimization for rlhf.
ArXiv, abs/2404.18922, 2024.
Zhu et al. (2023)
Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu, and Jiantao Jiao.
Starling-7b: Improving llm helpfulness & harmlessness with rlaif, November 2023.