arXiv	https://arxiv.org/abs/2411.10442
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

Enhancing the Reasoning Ability of Multimodal Large Language Models
via Mixed Preference Optimization

Weiyun Wang^2,1, Zhe Chen^3,1, Wenhai Wang^4,1, Yue Cao^3,1, Yangzhou Liu^3,1,
Zhangwei Gao¹, Jinguo Zhu¹, Xizhou Zhu^5,1, Lewei Lu⁶, Yu Qiao¹, Jifeng Dai^5,1^🖂
¹OpenGVLab, Shanghai AI Laboratory, ²Fudan University, ³Nanjing University,
⁴The Chinese University of Hong Kong, ⁵Tsinghua University, ⁶SenseTime Research
Project Page

Abstract

既存のオープンソースのマルチモーダル大規模言語モデル（MLLM）は、一般的に事前学習と教師あり微調整を含むトレーニングプロセスに従っている。しかし、これらのモデルは分布シフトの問題に悩まされており、特に思考の連鎖（CoT）性能において、マルチモーダル推論能力が制限されている。この問題に対処するため、我々はMLLMのマルチモーダル推論能力を向上させるための選好最適化（PO）プロセスを導入する。具体的には、 (1) データ面では、高品質で大規模なマルチモーダル推論選好データセットMMPRを作成するための自動化された選好データ構築パイプラインを設計し、 (2) モデル面では、POとMLLMの統合を探求し、マルチモーダルCoT性能を向上させる混合選好最適化（MPO）と呼ばれる単純かつ効果的な手法を開発する。我々のアプローチは、複数のベンチマークにわたって、特にマルチモーダル推論タスクにおいて性能の向上を示している。特筆すべきは、我々のモデルInternVL2-8B-MPOがMathVistaで67.0の精度を達成し、InternVL2-8Bを8.7ポイント上回り、10 $\times$ 倍大きいInternVL2-76Bに匹敵する性能を達成したことである。本稿がMLLMのさらなる進歩を促すことを期待している。コード、データ、およびモデルは公開される予定である。

1 Introduction

Refer to caption — 図1: MathVistaにおけるオープンソースモデルの性能。 X軸とY軸はそれぞれ直接回答の応答とCoT応答で評価された精度を表している。バブルの大きさはモデルのパラメータ数と正の相関がある。括弧内の値はCoTと直接回答の応答間の性能差を示している。特筆すべきは、ほとんどのオープンソースモデルがCoTで回答する際に性能が低下することである。

自然言語処理分野における大規模言語モデル（LLMs）の顕著な成功[92, 93, 26, 5, 89, 11, 10, 1]により、事前学習と教師あり微調整（SFT）からなる学習パラダイムはマルチモーダル分野にも波及し、マルチモーダル大規模言語モデル（MLLMs）の研究開発における主要な選択肢となっている。大規模な事前学習コーパス[48, 99, 80, 90, 114, 43]と高品質なSFTデータ[98, 55, 53, 20, 24]の恩恵を受け、一連のオープンソースMLLMs[98, 20, 52, 46, 105, 44, 6, 96]は様々な領域やタスクにおいて強力な性能を示しており、一部はGPT-4o[70]やGemini[88, 78]などの商用モデルに匹敵する結果を達成している。

しかしながら、オープンソースのMLLMは依然として限定的な推論能力しか示していない。図1に示すように、InternVL2-8B [20]は、マルチモーダル推論のベンチマークであるMathVista [61]において、直接回答を用いた場合58.3点を達成するが、思考連鎖（Chain-of-Thought、CoT）推論を用いると56.8点に低下し、CoT推論が実際にその性能を低下させていることを示している。この低下は、オープンソースのMLLM全般で一般的に観察される現象である [44, 105, 20, 96]。我々は、この現象の主な原因をSFT損失によってもたらされる分布シフトに帰属させる。具体的には、SFTはティーチャーフォーシングに依存しており、モデルは前の正解トークンに基づいて次のトークンを予測するよう訓練される。しかし、推論時にはモデルは自身の先行出力に基づいて各トークンを予測しなければならず、これが訓練時と推論時の間の分布シフトを引き起こす。直接回答アプローチは簡潔な応答のみを必要とするのに対し、CoT推論は長い論理的説明を生成することを伴うため、CoT時には分布シフトの問題がより深刻になる。これにより、モデルはCoT推論を用いた場合、直接回答よりも性能が低下するのである。

MLLMにおけるCoT推論の限界に対処するため、我々は、モデル出力を望ましい推論パターンに整合させるために選好最適化（Preference Optimization、PO）技術を用いる最近のNLPアプローチ [74, 42, 103] からインスピレーションを得た。具体的には、直接選好最適化（Direct Preference Optimization、DPO） [76] のような手法により、モデルは選好シグナルから学習し、ユーザーの要求により適合した応答を生成することが可能となり、人間のフィードバックからの強化学習（Reinforcement Learning from Human Feedback、RLHF）の基礎を提供する。RLHFはMLLMにおいて主に幻覚を減少させるために探求されてきたが [85, 106, 18]、マルチモーダル推論を強化するための応用はまだ十分に探求されていない。これらの洞察に基づき、本稿ではPOを用いてMLLMのマルチモーダル推論能力を強化する体系的な研究を行う。

MLLMsのマルチモーダル推論能力をPOを通じて強化することには、いくつかの課題がある： (1) マルチモーダル推論の選好データが限られており、アノテーションコストが高い。既存のマルチモーダル選好データセット[107, 106, 85, 47, 111]は主にハルシネーション問題に対処し、自然画像と知覚データに焦点を当てているが、科学的画像や推論データが不足している。これらのタイプのデータにアノテーションを付けるには、人間のアノテーターが与えられた推論プロセスを慎重に比較する必要があり、時間がかかりコストがかかる。 (2) POを通じてマルチモーダル推論を改善するためのオープンソースの方法が不足している。以前の研究では、様々なソースからのフィードバックを使用してMLLMsを微調整することを探求してきたが、これらのモデルは通常、ハルシネーションベンチマークでのパフォーマンス向上を示すものの、一般的な推論能力の向上はほとんど見られない。したがって、POを活用してマルチモーダル推論能力を向上させることは、まだほとんど探求されていない領域である。

本稿では、これらの課題にデータ側とモデル側の両面からアプローチする。 (1) データ側では、我々は自動化された選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。 (2) モデル側では、我々はMLLMsを用いた様々なPO手法を探求し、報酬モデルを必要とせずにマルチモーダルCoTのパフォーマンスを向上させる、Mixed Preference Optimization (MPO)と呼ばれる単純かつ効果的な手法を導入する。

具体的に、我々は明確な正解が存在しないサンプルに対してはDropout Next Token Prediction (DropoutNTP)と呼ばれる継続ベースのパイプラインを、明確な正解が存在するサンプルに対しては正確性ベースのパイプラインを提案する。 DropoutNTPでは、InternVL2-8Bによって生成された応答を正のサンプルとみなす。選択された応答に対して、我々はそれを半分に切り詰め、その後InternVL2-8Bに画像入力なしで切り詰められた回答の残りの部分を完成させるよう促す。この生成された補完が、ペアのサンプルに対する拒否された回答として機能する。 5.2節の実験結果は、この単純な方法がRLAIF-V [107]で提案された分割統治法と比較して、幻覚を減らす上で同等の性能を達成することを示している。正確性ベースのパイプラインでは、InternVL2-8Bから各質問に対する複数の解答がサンプリングされる。正解と一致する解答が選択された応答として使用され、一致しない解答が拒否された応答として使用される。

さらに、我々はMPO手法を提案する。このアルゴリズムの背後にある重要な洞察は、効果的なPOプロセスは、モデルに応答のペア間の相対的な選好、個々の応答の絶対的な品質、および好ましい応答を生成するプロセスを学習させるべきであるということである。以前のマルチモーダルPO手法 [107, 106, 85, 47, 75, 111] と比較して、我々のアプローチは以下の点で優れている： (1) 効率的な自動データ構築パイプライン：我々のパイプラインは、制御されたコストで高品質な選好ペアの生成を可能にする。 (2) 多様な領域にわたる有効性：我々のデータとアプローチでファインチューニングされたモデルは、推論、質問応答、幻覚のベンチマークにわたって優れた性能を示す。 (3) 最先端の設定に対する改善：我々の結果は、主要なオープンソースMLLMの1つであるInternVL2-8Bに基づいており、我々の手法の潜在的可能性をさらに強調している。

要約すると、本稿の主な貢献は以下の通りである：

(1) 我々は効率的な選好データ構築パイプラインを提案する。このパイプラインに基づき、約300万サンプルを含む高品質で大規模なマルチモーダル推論選好データセットMMPRを作成する。

(2) 我々は、MLLMの推論能力を向上させるために設計された効果的なPOアルゴリズムであるMPOを導入する。その結果得られたモデルであるInternVL2-8B-MPOは、ベースラインモデル（すなわち、InternVL2-8B）と比較して、マルチモーダル推論能力が向上し、幻覚が減少している。

(3) 我々は、POを通じてマルチモーダル推論を改善するための実践的なアプローチを探るために広範な実験を行った。結果は、POがSFTと比較して推論能力を大幅に向上させることを示している。特筆すべきは、提案されたInternVL2-8B-MPOがMathVistaで67.0の精度を達成し、InternVL2-8Bを8.7ポイント上回り、10 $\times$ 倍大きいInternVL2-76Bに匹敵する性能を達成したことである[61]。

2 Related Work

マルチモーダル大規模言語モデル。 LLMの進歩に伴い、MLLMにおいても大きな進展が見られた。事前学習済みLLM [11, 5, 26] と視覚基盤モデル（VFM） [77, 19] の能力を活用するため、一連の研究 [56, 45, 46, 53, 96, 99, 20, 100] ではコネクタを用いて潜在空間を整合させ、制御可能なコストで有望な性能を達成している。さらに、別の一連の研究 [2, 97, 91, 26] では、事前学習済みLLMに視覚特徴用の追加融合層を拡張し、LLMが必要とする視覚トークンの数を削減しつつ、追加の学習コストを導入している。最近では、視覚エンコーダーを必要としないアーキテクチャ [7, 50, 87, 62, 101] の探索が行われており、これは別個のエンコーダーなしに視覚情報とテキスト情報を共同で処理する単一のトランスフォーマーモデルで構成されている。モデルアーキテクチャの探索に加えて、最近の研究 [55, 48, 109, 104, 27, 98] では、マルチモーダル推論能力を向上させるために高品質な学習データの構築も試みられている。これらの進歩にもかかわらず、MLLMは通常、事前学習と教師あり微調整からなる学習パラダイムに依存しており、分布シフトの曲線に苦しみ、マルチモーダル推論能力が限定的である。本稿では、MLLMのマルチモーダル推論能力を向上させるための選好最適化の使用に関する体系的な研究を行う。

選好最適化。選好最適化（PO）は、LLMとMLLMを進歩させるための重要な技術である。具体的には、人間のフィードバックによる強化学習（RLHF）は、人間の選好を報酬信号として使用し、モデルを微調整して人間の選好に合わせる。InstructGPT [72] は、人間の選好の代理として報酬モデルを採用し、PPOアルゴリズム [81] を通じてこの報酬を最大化することで、ユーザーの意図に従う能力を向上させ、より有用で、正直で、無害（3H）になるようモデルを改善する。 PPO-Max [112, 94] は、PPOの実装詳細を慎重に検討し、より安定したバージョンのアルゴリズムを提案している。さらに、DPO [76] は、Bradley-Terryモデル [9] に基づく効率的なPOアルゴリズムを提案し、明示的な報酬モデルの必要性を排除している。その後の研究 [4, 25, 42, 54, 21, 32, 28] では、様々な観点からこの方法をさらに分析し、改良している。自然言語処理においては、一連の研究 [74, 42] が、推論能力を向上させるためにPOをどのように活用するかを探究している。しかし、マルチモーダル分野では、ほとんどの手法 [107, 106, 111, 85, 47] が主にハルシネーションの削減に焦点を当てており、マルチモーダル推論能力を向上させるためのPOの可能性は十分に探究されていない。本稿では、POがハルシネーションを軽減するだけでなく、マルチモーダル推論能力も強化することを示し、MLLM開発におけるその幅広い適用可能性を強調している。

3 Scalable Multimodal Preference Dataset Generation

マルチモーダル選好データの不足に対処するため、我々はスケーラブルなデータ構築パイプラインを導入する。このパイプラインに基づき、我々は百万レベルのMultiModal PReference（MMPR）データセットを構築する。

3.1 Data Engine

定義。我々のMMPRにおける各データサンプルは、画像 $I\in\mathcal{I}$ 、指示 $x\in\mathcal{X}$ 、選択された応答 $y_{c}\in\mathcal{Y}_{p}$ 、および拒否された応答 $y_{r}\in\mathcal{Y}_{n}$ から構成され、ここで $y_{c}$ は $y_{r}$ よりも好ましいものである。画像セット $\mathcal{I}$ と指示セット $\mathcal{X}$ は既存のデータセットから収集される。 $\mathcal{Y}_{p}$ と $\mathcal{Y}_{n}$ はそれぞれ肯定的および否定的な応答セットを表す。特定の画像 $I$ と指示 $x$ が与えられた場合、我々は初期指示モデル $M_{0}$ から候補応答 $y$ を以下のようにサンプリングする：

y\sim M_{0}(y\mid x,I),

(1)

ここで、 $M_{0}(y\mid x,I)$ は画像 $I$ と指示 $x$ を条件とする $M_{0}$ の応答分布を表す。

明確な正解がある指示の場合、モデルは最初に推論過程を提供し、その後「最終回答：***」のような形式で最終的な回答を与えるよう促される。正解と一致する応答は肯定的セット $\mathcal{Y}_{p}$ を構成し、一致しない応答は否定的セット $\mathcal{Y}_{n}$ を構成する。さらに、明確な最終回答を提供しない応答も $\mathcal{Y}_{n}$ に統合される。これらの肯定的または否定的とラベル付けされた応答が与えられると、我々は $\mathcal{Y}_{p}$ から選択された応答 $y_{c}$ を、 $\mathcal{Y}_{n}$ から否定的応答 $y_{r}$ を選択することで選好ペアを構築する。

明確な正解がない指示の場合、我々はシンプルかつ効果的な方法を提案する：ドロップアウト次トークン予測（Dropout NTP）。具体的には、式1から生成されたすべての応答を直接肯定的セット $\mathcal{Y}_{p}$ とみなす。否定的セット $\mathcal{Y}_{n}$ を生成するために、我々は $\mathcal{Y}_{p}$ から応答 $y$ をサンプリングし、この応答の後半を削除する。モデルは残りの応答を以下のように完成させることが求められる：

\tilde{y}_{\geq j}\sim M_{0}(\tilde{y}_{\geq j}\mid x,y_{<j}),

(2)

ここで、 $y_{<j}$ と $y_{\geq j}$ はそれぞれ $y$ の残された部分と切り捨てられた部分である。 $\tilde{y}_{\geq j}$ は画像入力なしの $y_{<j}$ の補完である。元の応答 $y=\left[y_{<j},y_{\geq j}\right]$ が選択された応答 $y_{c}$ として機能し、補完された応答 $\tilde{y}=\left[y_{<j},\tilde{y}_{\geq j}\right]$ が拒否された応答 $y_{r}$ として機能する。 $M_{0}$ によって生成された応答が完璧でない可能性があるが、画像入力なしで生成された補完は、画像入力ありで生成されたものよりも多くの幻覚を引き起こすことに注意する価値がある。したがって、 $y$ と $\tilde{y}$ の間の部分順序関係は成立する。

以前の方法と比較して、我々のデータエンジンは、RLAIF-V[107]で提案されたより複雑な分割統治法と同程度に効果的であり（セクション5.2.2の実験結果参照）、より効率的である。 M3CoTのデータ生成を例にとると、我々のパイプラインは選好ペアあたり571.2トークンのコストがかかるのに対し、RLAIF-Vで使用される分割統治アプローチでは992.7トークンかかる。したがって、我々のパイプラインのコストはRLAIF-Vの57.5%に過ぎない。

3.2 Multimodal Preference Dataset

データセットの統計。このパイプラインを使用して、我々は大規模なマルチモーダル選好データセットMMPRを構築した。データ例は図2に示されている。より多くの例は付録を参照されたい。このデータセットは、明確な正解のない約75万サンプルと明確な正解のある250万サンプルで構成されている。明確な正解のないサンプルについては、各指示は平均25.0トークンであり、選択された応答と拒否された応答はそれぞれ平均211.4トークンと171.2トークンである。最長の選択された応答と拒否された応答はそれぞれ1,342トークンと1,642トークンで構成されており、最短の選択された応答と拒否された応答はそれぞれ20トークンと17トークンである。明確な正解のあるサンプルについては、指示の平均長は79.5トークンであり、選択された応答と拒否された応答はそれぞれ平均300.0トークンと350.5トークンである。最長の選択された応答と拒否された応答はそれぞれ2,018トークンと4,097トークンで構成されており、最短の応答はそれぞれ32トークンと33トークンである。

データソース。表1に示すように、指示と画像の多様性を確保するために、我々は一般的な視覚的質問応答（VQA）[29, 34, 63, 59]、科学[39, 16, 60]、チャート[64, 37, 13]、数学[51, 82, 12, 58, 38, 27]、OCR[66, 83, 8, 33, 68]、文書[22]など、多様な領域からサンプルを収集している。特筆すべきは、オープンエンドのサンプルを構築する際、我々は上記のすべてのデータソースから指示を収集し、追加の要件なしで元の質問に答えるようモデルに促している点である。一方、正確性ベースのパイプラインを通じてサンプルを構築する際には、一般的なVQAと文書ソースからの質問を除外している。これは、これらの領域のデータセットでは、ヒューリスティックなルールを用いて生成された回答の正確性を検証することが困難であるためである。例えば、VQAv2[29]の正解は単語や句で構成されているが、モデルが完全な文や同義語を最終的な回答として出力した場合、偽陰性の応答につながる可能性がある。このような偽陰性の応答は、訓練の効果に悪影響を及ぼす可能性がある。

表1: 我々の選好データセットの構築に使用されたデータセット。我々はデータセットの多様性を確保するために、様々なタスクから画像と指示を収集している。

Task

Dataset

General VQA

VQAv2 [29], GQA [34], OKVQA [63], IconQA [59]

Science

AI2D [39], ScienceQA [60], M3CoT [16]

Chart

ChartQA [64], DVQA [37], MapQA [13]

Mathematics

GeoQA+ [12], CLEVR-Math [51], Geometry3K [58],

GEOS [82], GeomVerse [38], Geo170K [27]

OCR

OCRVQA [68], InfoVQA [66], TextVQA [83],

STVQA [8], SROIE [33]

文書

DocVQA [65]

4 Improved Multimodal Large Language Model with Preference Optimization

マルチモーダル大規模言語モデル（MLLM）の推論能力を向上させるため、我々は混合選好最適化（MPO）を提案する。これは教師あり微調整（SFT）損失と様々な選好最適化損失を組み合わせることで、訓練の効果を高める手法である。さらに、推論性能を向上させるため、マルチモーダル入力を用いた異なる思考連鎖（Chain-of-Thought、CoT）アプローチについても調査を行う。

4.1 Mixed Preference Optimization

我々は、MLLMが大規模な選好データセットを用いて直接選好最適化（DPO）で訓練された場合、合理的な根拠を生成できず、意味不明な出力を生成する可能性があることを観察した。この現象はSmaug [73]で示された分析と一致している。この問題に対処するため、本稿ではMPOを導入し、応答ペア間の相対的な選好、個々の応答の絶対的な品質、および好ましい応答を生成するプロセスを学習することを目指す。

訓練目的。 MPOは、選好損失 $\mathcal{L}_{p}$ 、品質損失 $\mathcal{L}_{q}$ 、および生成損失 $\mathcal{L}_{g}$ の組み合わせとして定義され、以下のように定式化される：

\mathcal{L}=w_{p}\mathcal{L}_{p}+w_{q}\mathcal{L}_{q}+w_{g}\mathcal{L}_{g},

(3)

ここで、 $w_{*}$ は各損失成分に割り当てられる重みを表す。本研究では、異なる選好損失の変種 [69, 21, 14, 36, 102, 67, 4, 54, 76, 32] を経験的に比較する。実験結果に基づき、我々は選好損失としてDPO [76]を、品質損失としてBCO [36]を使用する。

選好損失。 DPO [76]は、モデルが選択された応答と拒否された応答の間の相対的な選好を学習できるようにするための選好損失として機能する。 DPOは、Bradley-Terryモデル [9]の仮定に基づいて明示的な報酬モデルを訓練する必要性を排除し、以下の損失関数を最適化する：

\mathcal{L}_{p}=-\log\sigma\left(\beta\log\frac{\pi_{\theta}\left(y_{c}\mid x% \right)}{\pi_{0}\left(y_{c}\mid x\right)}-\beta\log\frac{\pi_{\theta}\left(y_{% r}\mid x\right)}{\pi_{0}\left(y_{r}\mid x\right)}\right),

(4)

ここで、 $\beta$ はKLペナルティ係数であり、 $x$ 、 $y_{c}$ 、および $y_{r}$ はそれぞれユーザークエリ、選択された応答、拒否された応答である。ポリシーモデル $\pi_{\theta}$ はモデル $\pi_{0}$ から初期化される。

品質損失。 BCO損失 [36]は品質損失として採用され、モデルが個々の応答の絶対的な品質を理解するのに役立つ。このアルゴリズムは二値分類器を訓練し、そのロジットが報酬として機能し、選択された応答を1に、拒否された応答を0に効果的にマッピングする。損失関数は以下のように定義される：

\mathcal{L}_{q}=\mathcal{L}_{q}^{+}+\mathcal{L}_{q}^{-},

(5)

ここで、 $\mathcal{L}_{q}^{+}$ と $\mathcal{L}_{q}^{-}$ はそれぞれ選択された応答と拒否された応答の損失を表す。これらは独立して計算され、モデルが個々の応答の絶対的な品質を区別することを要求する。損失項は以下のように与えられる：

\mathcal{L}_{q}^{+}=-\log\sigma\left(\beta\log\frac{\pi_{\theta}\left(y_{c}% \mid x\right)}{\pi_{0}\left(y_{c}\mid x\right)}-\delta\right),

(6)

\mathcal{L}_{q}^{-}=-\log\sigma\left(-\left(\beta\log\frac{\pi_{\theta}\left(y% _{r}\mid x\right)}{\pi_{0}\left(y_{r}\mid x\right)}-\delta\right)\right),

(7)

ここで、 $\delta$ は報酬シフトを表し、訓練を安定させるために過去の報酬の移動平均として計算される。

生成損失。 SFT損失は、モデルが好ましい応答の生成プロセスを学習するのを助けるための生成損失として使用される。損失関数は以下のように定義される：

\mathcal{L}_{g}=-\frac{\log\pi_{\theta}\left(y_{c}\mid x\right)}{\left|y_{c}% \right|}.

(8)

4.2 Chain-of-Thought with Multimodal Input

データサンプリングプロセスにおいて、我々はモデルに最終的な回答を直接提供するのではなく、詳細なCoT推論プロセスを提供することを要求している。ほとんどのサンプルについて、我々は図2の下部のケースに示されているプロンプトを使用して応答をサンプリングし、モデルにステップバイステップの分析を実行させる。マルチモーダルモデルには非テキスト入力が含まれることを考慮し、我々は以下のCoT手法をさらに導入した： (1) 背景知識ベースのCoT：モデルはまず問題や画像に関連する背景知識を紹介し、その後推論ステップと最終的な回答を行う。この手法は科学分野のサンプルに適用される。 (2) 視覚コンテンツベースのCoT：モデルは画像内の視覚コンテンツの分析から始め、その後推論と最終的な回答を行う。この手法はチャート、OCR、文書ドメインのサンプルに使用される。 (3) 接地されたCoT：モデルはテキスト応答を生成すると同時に、応答内で参照されるすべてのオブジェクトを画像内の対応する領域にリンクする。この手法は一般的なVQAドメインのサンプルに適用される。これらのCoT手法によって生成された応答は、図2の下部のケースに示されているプロンプトを使用してサンプリングされた応答と混合される。これらのアプローチは、マルチモーダル情報を推論プロセスに効果的に統合するだけでなく、データの多様性も向上させる。さらに、応答の冒頭に背景知識と視覚コンテンツを含めることで、DropoutNTPによって生成される否定的な応答の質も向上し、肯定的サンプルと否定的サンプルの間の大きな品質差を防ぎ、トレーニングの効果を低下させることを防ぐ。

5 Experiments

5.1 Main Results

Closed-Source Models
Model Name	Reasoning			General VQA		Hallucination Evaluation
Model Name	M3CoT	MathVista	MathVision	MMVet	LLaVA-Bench	POPE	CRPE	MMHalBench
Gemini-1.5-Pro [78]	-	63.9	19.2	-	-	-	-	-
GPT-4o [71]	64.3	63.8	30.4	69.1	97.6	86.9	76.6	4.0
GPT-4o-Mini [71]	61.9	52.4	27.3	66.9	95.4	85.1	73.1	3.6
Open-Source Models
LLaVA-1.5-13B [52]	39.5	27.6	11.1	36.3	70.7	85.9	55.6	2.4
Qwen2-VL-7B [96]	57.8	58.2	21.1	60.6	67.7	88.1	74.4	3.4
MiniCPM-V-2-6-8B [105]	56.0	60.6	23.4	57.4	83.4	87.3	75.2	3.6
LLaVA-OneVision-7B [44]	52.3	63.2	18.4	51.4	79.9	88.4	73.7	3.1
InternVL Models
InternVL2-26B [20]	58.2	59.4	23.4	62.1	92.3	88.0	75.6	3.7
InternVL2-40B [20]	63.6	63.7	21.4	65.5	100.5	88.4	77.3	3.9
InternVL2-76B [20]	65.4	67.2	23.7	65.7	99.3	89.0	77.8	3.8
InternVL2-Pro [20]	65.6	66.3	18.8	69.4	99.5	88.2	77.6	3.7
InternVL2-8B [20]	59.3	58.3	20.4	54.2	73.2	86.9	75.0	3.3
InternVL2-8B-MPO (ours)	79.2	67.0	25.7	56.2	76.7	88.1	75.4	3.5

表2: 8つのマルチモーダルベンチマークにおける結果。我々はGPT-4-Turboによって評価されたMM-VetとLLaVA-Benchの総合スコアを報告する。我々のInternVL2-8B-MPOは、マルチモーダル推論、VQA、および幻覚評価ベンチマーク全体にわたってInternVL2-8Bと比較して優れた性能を示している。特筆すべきは、我々のモデルが10

\times

倍大きいInternVL2-76Bに匹敵する推論性能を達成していることである。

本節では、我々のInternVL2-8B-MPOを、マルチモーダル推論[16, 61, 95]、複雑な視覚質問応答（VQA）[108, 53]、および幻覚評価[49, 98, 85]タスクにおいて主要なMLLMと比較する。

ベンチマーク。マルチモーダル推論タスクについて、我々は3つのベンチマークでモデルを評価する： (1) M3CoT [16]、モデルのマルチモーダルCoT推論能力を評価するために設計された包括的なベンチマーク。 (2) MathVista [61]、マルチモーダル数学的推論能力を評価するために広く使用されているベンチマーク。 (3) MathVision [95]、実際の数学コンペティションから評価データを収集し、MathVistaと比較してより大きな課題を提示するもの。これらのベンチマークについて、我々は精度を報告する。

複雑なVQAタスクについて、我々は2つのベンチマークでモデルを評価する： (1) MM-Vet [108]、多様なタスクにわたる視覚的会話におけるモデルの能力を評価するもの。 (2) LLaVA-Bench [53]、オープンエンドな質問を用いてマルチモーダル会話、詳細な説明、複雑な推論能力を評価するために一般的に使用されるベンチマーク。両ベンチマークはGPT-4を使用して応答の正確性と有用性を評価する。我々はこれらのベンチマークの総合スコアを報告する。

幻覚評価タスクについて、我々は3つのベンチマークでモデルを評価する： (1) POPE [49]、Yes/No質問を用いて物体の存在に関する幻覚のレベルを測定するもの。このベンチマークについてはF1スコアを報告する。 (2) CRPE [98]、多肢選択問題を用いて物体間の関係に関する幻覚のレベルを測定するもの。このベンチマークについては精度を報告する。 (3) MMHal-Bench [85]、GPT-4がモデルの出力を人間の応答と比較し、幻覚率と情報量を評価するオープンエンドな質問で構成されるもの。このベンチマークについては総合スコアを報告する。

結果。表2に示すように、我々のInternVL2-8B-MPOは全てのベンチマークにおいて優れた性能を達成し、特にマルチモーダル推論タスクで卓越している。 MathVistaベンチマークでは、我々のモデルは67.0%の精度を達成し、InternVL2-8Bを8.7ポイント上回り、10 $\times$ 倍大きいInternVL2-76Bに匹敵する性能を達成している。 MathVisionベンチマークでは、我々のモデルは25.7%の精度を達成し、オープンソースモデルの中で新たな最高性能を確立している。これらの結果は、マルチモーダル推論能力を向上させる上で我々の選好最適化アプローチの有効性を示している。さらに、POPEベンチマークでは、我々のモデルはInterVL2-8Bを1.2ポイント上回る改善を示しており、幻覚を軽減するために我々のMMPRデータセットに含まれる知覚データの有効性を実証している。加えて、我々のモデルは複雑なVQAベンチマークにおいてもInternVL2-8Bと比較して優れた性能を示しており、これは向上した推論能力と軽減された幻覚の恩恵を受けて、モデルの一般的な能力も向上していることを示している。

5.2 Ablation Study

本節では、選好最適化と監督付き微調整（SFT）がマルチモーダル推論能力に与える影響を分析するためのアブレーション実験を提示する。さらに、我々が提案するDropoutNTP手法をRLAIF-V [107]の分割統治アプローチと比較し、我々のアプローチの有効性を実証する。加えて、異なる選好最適化アルゴリズムの効果を分析するための広範な実験を行う。また、テキストのみの性能に対する影響の分析も提示する。

5.2.1 Comparison between MPO and SFT

Model Name	Setting	M3CoT	MathVista	MMVet	POPE
InternVL2-8B	Direct	59.3	58.3	54.2	86.9
InternVL2-8B	CoT	57.0	56.8	54.7	82.9
InternVL2-8B-SFT	Direct	63.9	62.7	54.7	86.5
InternVL2-8B-SFT	CoT	67.8	64.2	53.8	84.0
InternVL2-8B-MPO	Direct	77.2	64.5	55.1	87.0
InternVL2-8B-MPO	CoT	79.2	67.0	56.2	88.1

表3: SFTとMPOで訓練されたモデルの結果。SFT訓練データは、MPO訓練で使用された選好ペアから選択された応答で構成されている。Direct設定では、モデルは直接答えを提供するよう促され、CoT設定では、モデルは詳細な根拠を示して回答するよう指示される。

マルチモーダル推論能力の向上におけるMPOとSFTの影響を比較するために、我々はMMPRの選択された応答をSFTデータとして使用し、InternVL2-8Bを微調整した。表3に示すように、結果はMPOで訓練されたモデルが全てのベンチマークにおいてSFTで訓練されたモデルを一貫して上回っていることを示している。例えば、MPOで訓練されたモデルはマルチモーダル推論ベンチマークM3CoTで79.2のスコアを達成し、SFTの対応するモデルを11.4ポイント上回っている。さらに、MPOで訓練されたモデルは一般的なベンチマーク（MMVet）とハルシネーションベンチマーク（POPE）でもより良い性能を示している。特筆すべきは、SFTで訓練されたモデルがMMVetとPOPEにおいて、直接回答よりもCoT応答の方が性能が低下していることであり、これはSFTだけではマルチモーダルCoT能力を向上させるには不十分であることを示している。これらの結果は、SFTが適度な改善をもたらす一方で、選好最適化がモデルの全体的な性能向上により効果的であることを示している。

5.2.2 Comparison with RLAIF-V

ここでは、我々が提案するDropout Next-Token Prediction（Dropout NTP）手法をRLAIF-V [107]の分割統治アプローチと比較する。公平な比較を確保するために、RLAIF-Vと同じプロンプトと選択された応答を使用し、拒否された応答を画像入力なしで生成された継続で置き換えた。 RLAIF-Vに従い、Object HalBench [79]の応答レベル（Resp.）と言及レベル（Ment.）のハルシネーション率、およびMMHal-Bench [85]の全体スコアとハルシネーション率（Hall.）を報告する。表4に示すように、我々のデータで訓練されたモデルはRLAIF-Vで訓練されたモデルと同等の性能を達成しており、我々の手法の有効性を実証している。具体的には、我々のデータで訓練されたモデルのObject HalBenchにおける応答レベルのハルシネーション率は7.6であり、対応するモデルの7.3と比較可能である。さらに、このモデルはMMHal-Benchで3.6のスコアを達成し、対応するモデルの3.5と比較可能である。我々の手法では各サンプルに対して1つの継続のみを生成する必要があるのに対し、RLAIF-Vは応答を原子的な主張に分解し、それぞれを個別に検証する必要があることに注意されたい。したがって、我々の手法はより効率的である。定量的分析は3.1節で提供される。

Method	Object HalBench		MM HalBench
Method	Resp. (↓)	Ment. (↓)	Score	Hall. (↓)
InternVL2-8B	18.4	8.7	3.3	40.6
RLAIF-V [107]	7.3	3.9	3.5	32.3
DropoutNTP (ours)	7.6	4.1	3.6	31.3

表4: DropoutNTPとRLAIF-Vの分割統治アプローチの比較。RLAIF-VのネガティブサンプルをDropoutNTPを使用して生成した応答に置き換えている。

5.2.3 Effects of optimization algorithms

Setting	MMLU	Gaokao	TriviaQA	NQ	C3	Race-h	BBH	GSM8K	Math	TheoremQA	IFEval	HumanEval	MBPP	Average
Baseline	73.2	75.0	62.0	28.1	94.2	90.8	72.7	75.6	39.5	15.6	52.3	69.5	58.8	62.1
SFT	71.8	74.4	63.7	28.2	94.3	90.6	72.1	75.5	40.1	15.8	53.6	68.3	58.0	62.0
MPO	71.0	74.8	64.2	29.3	94.2	90.6	71.8	75.0	40.4	20.8	56.4	68.9	61.5	63.0

表5: テキストのみのベンチマークにおける結果。 MPOを通じて微調整されたモデルは、ベースラインモデルとそのSFT対応モデルと比較して、特にTheoremQAとIFEvalにおいて、テキストのみのタスクで全体的に優れた性能を示している。

ここでは、以下を含む異なる最適化アルゴリズムの有効性を経験的に比較する： (1) DPO [76]：明示的に報酬関数を構築せずに、オフラインの選好データセットでモデルを直接微調整する。 (2) RSO [54]：DPOで使用されるシグモイド損失の代わりに、正規化された尤度にヒンジ損失を適用する。 (3) IPO [4]：DPOの過学習に対処するために、対数尤度を平均化し、ベータパラメータを通じて選択された完了と拒否された完了の間のギャップを制御する修正された損失関数を導入する。 (4) cDPO [69]：選好データの潜在的なラベルノイズを考慮したDPO損失の修正版。 (5) RobustDPO [21]：データの選好ノイズを扱うように設計されたDPO損失の不偏推定量を提供する。cDPOと同様に、ラベルが一定の確率でノイズを含むと仮定する。 (6) BCO [36]：報酬値として使用されるロジットを出力するように訓練された二値分類器を導入する。 (7) SPPO [102]：ナッシュ均衡を近似するために、選択された報酬を1/2に向けて、拒否された報酬を-1/2に向けて反復的に押し上げ、データの疎性の問題を軽減することを目指す。 (8) AOT [67]：最適輸送を通じた分布的選好アライメントを適用する。 (9) TR-DPO [28]：DPO訓練中の過学習を緩和するために、数ステップごとにモデルと参照モデルの間の同期を追加する。 (10) ORPO [32]：NLL損失に対数オッズ比ペナルティを付加した参照モデルフリーの選好最適化アルゴリズムで、追加の選好アライメントフェーズなしに選好に沿った微調整を可能にする。全てのアルゴリズムについて、学習率を $5e\text{-}6$ に設定し、それぞれの論文で提案されているハイパーパラメータを使用する。さらに、これらのアルゴリズムをSFT損失で拡張し、その影響を分析する。推論選好データの選択された応答で訓練されたSFTモデルもベースラインとして含まれる。

特筆すべきは、現在のほとんどのベンチマークには対応する分布内訓練サンプルが欠けており、我々のMMPRのデータ分布がこれらのベンチマークのものとは異なる可能性があることである。この不一致は、異なる最適化アルゴリズムの訓練結果への影響を分析する際に追加の変動性をもたらす可能性がある。したがって、我々はアブレーション実験にM3CoT [16]の訓練セットと検証セットを使用する。

可視化結果は図3に示され、数値結果は表6および7に示されている。ほぼ全ての選好最適化手法が、DirectとCoTの両設定において、対応するSFTを上回る性能を示していることが観察できる。しかし、DPOとその変種は、CoT推論応答で回答する際に直接回答と比較して些細な改善または改善なしを示すため、モデルのCoT推論能力の向上に苦戦している。一方、これらのDPO変種にSFT損失を組み合わせると、全てのアルゴリズムがモデルのCoT推論能力を向上させることができ、SFT損失がCoT推論能力の向上に重要な要素であることを示している。さらに、数ステップごとに参照モデルを更新するDPO変種であるTR-DPOで訓練されたモデルは、直接回答と比較してCoT推論を使用した場合に性能が大幅に低下する。同様に、参照モデルフリーの手法であるODPOで訓練されたモデルは、SFT損失で拡張された他の手法と比較して全体的な性能が低下している。これらの結果は、方策更新に対する参照モデルの制約が全体的な推論能力の向上に重要であり、訓練中は参照モデルを固定しておくべきであることを示している。特筆すべきは、DPO+とBCO+で訓練されたモデルが既存のアルゴリズムの中で最高のCoT性能を示していることである。したがって、我々は

5.3 Effects on text-only performance

我々は、一連のベンチマーク[30, 110, 35, 40, 84, 41, 86, 23, 31, 17, 113, 15, 3]においてモデルのテキストのみの性能を評価し、それらの平均性能を報告する。表5に示すように、我々のMMPRデータセットにはテキストのみのデータが含まれていないにもかかわらず、MPOで訓練されたモデルはこれらのベンチマークにおいてベースラインモデルを上回る平均性能を達成している。最も顕著な改善はTheoremQAとIFEvalで観察された。具体的には、MPOで訓練された我々のモデルは、複雑な科学問題で構成されるベンチマークであるTheoremQAにおいて20.8の精度を達成し、ベースラインモデルを5.2ポイント、SFTカウンターパートを5.0ポイント上回っている。さらに、我々のデータセットは正確性ベースのパイプラインを用いてデータを構築する際に指示に従わない応答を負のサンプルとして考慮しているため、我々のモデルはIFEvalにおいても指示遵守能力が向上しており、ベースラインモデルを4.1ポイント、SFTカウンターパートを2.8ポイント上回っている。

6 Conclusion

本稿では、マルチモーダル言語モデル（MLLM）の推論能力を向上させるための選好最適化（PO）プロセスを導入する。データ面では、明確な正解の有無にかかわらず指示に適用可能な、選好データ構築のための自動化パイプラインを設計した。このパイプラインを使用して、高品質で大規模なマルチモーダル推論選好データセットMMPRを作成した。モデル面では、混合選好最適化（MPO）と呼ばれる単純かつ効果的な手法を提案する。このアルゴリズムは、応答ペア間の相対的な選好、個々の応答の絶対的な品質、および好ましい応答を生成するプロセスを学習することを目的としている。結果として得られたモデルInternVL2-8B-MPOは、ベースラインモデル（すなわち、InternVL2-8B）と比較して、マルチモーダル推論能力が向上し、幻覚が減少している。我々は、この研究がMLLMのさらなる進歩を促すことを期待している。

References

Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
Alayrac et al. [2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. NIPS, 35:23716–23736, 2022.
Austin et al. [2021] Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, et al. Program synthesis with large language models. arXiv preprint arXiv:2108.07732, 2021.
Azar et al. [2024] Mohammad Gheshlaghi Azar, Zhaohan Daniel Guo, Bilal Piot, Remi Munos, Mark Rowland, Michal Valko, and Daniele Calandriello. A general theoretical paradigm to understand learning from human preferences. In International Conference on Artificial Intelligence and Statistics, pages 4447–4455. PMLR, 2024.
Bai et al. [2023a] Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, et al. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023a.
Bai et al. [2023b] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023b.
Bavishi et al. [2023] Rohan Bavishi, Erich Elsen, Curtis Hawthorne, Maxwell Nye, Augustus Odena, Arushi Somani, and Sağnak Taşırlar. Introducing our multimodal models, 2023.
Biten et al. [2019] Ali Furkan Biten, Ruben Tito, Andres Mafla, Lluis Gomez, Marçal Rusinol, Ernest Valveny, CV Jawahar, and Dimosthenis Karatzas. Scene text visual question answering. In ICCV, pages 4291–4301, 2019.
Bradley and Terry [1952] Ralph Allan Bradley and Milton E Terry. Rank analysis of incomplete block designs: I. the method of paired comparisons. Biometrika, 39(3/4):324–345, 1952.
Brown et al. [2020] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. NIPS, 2020.
Cai et al. [2024] Zheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen, Xun Chen, Zehui Chen, Zhi Chen, Pei Chu, et al. Internlm2 technical report. arXiv preprint arXiv:2403.17297, 2024.
Cao and Xiao [2022] Jie Cao and Jing Xiao. An augmented benchmark dataset for geometric question answering through dual parallel text encoding. In COLING, pages 1511–1520, 2022.
Chang et al. [2022] Shuaichen Chang, David Palzer, Jialin Li, Eric Fosler-Lussier, and Ningchuan Xiao. Mapqa: A dataset for question answering on choropleth maps. arXiv preprint arXiv:2211.08545, 2022.
Chen et al. [2024a] Huayu Chen, Guande He, Hang Su, and Jun Zhu. Noise contrastive alignment of language models with explicit rewards. arXiv preprint arXiv:2402.05369, 2024a.
Chen et al. [2021] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde De Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
Chen et al. [2024b] Qiguang Chen, Libo Qin, Jin Zhang, Zhi Chen, Xiao Xu, and Wanxiang Che. M3cot: A novel benchmark for multi-domain multi-step multi-modal chain-of-thought. arXiv preprint arXiv:2405.16473, 2024b.
Chen et al. [2023a] Wenhu Chen, Ming Yin, Max Ku, Pan Lu, Yixin Wan, Xueguang Ma, Jianyu Xu, Xinyi Wang, and Tony Xia. Theoremqa: A theorem-driven question answering dataset. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 7889–7901, 2023a.
Chen et al. [2024c] Yangyi Chen, Karan Sikka, Michael Cogswell, Heng Ji, and Ajay Divakaran. Dress: Instructing large vision-language models to align and interact with humans via natural language feedback. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14239–14250, 2024c.
Chen et al. [2023b] Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Zhong Muyan, Qinglong Zhang, Xizhou Zhu, Lewei Lu, et al. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. arXiv preprint arXiv:2312.14238, 2023b.
Chen et al. [2024d] Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites. arXiv preprint arXiv:2404.16821, 2024d.
Chowdhury et al. [2024] Sayak Ray Chowdhury, Anush Kini, and Nagarajan Natarajan. Provably robust dpo: Aligning language models with noisy feedback. arXiv preprint arXiv:2403.00409, 2024.
Clark and Gardner [2018] Christopher Clark and Matt Gardner. Simple and effective multi-paragraph reading comprehension. In ACL, pages 845–855, 2018.
Cobbe et al. [2021] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
Dai et al. [2024] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale N Fung, and Steven Hoi. Instructblip: Towards general-purpose vision-language models with instruction tuning. NIPS, 36, 2024.
Dong et al. [2024] Hanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, and Tong Zhang. Rlhf workflow: From reward modeling to online rlhf. arXiv preprint arXiv:2405.07863, 2024.
Dubey et al. [2024] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
Gao et al. [2023] Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, et al. G-llava: Solving geometric problem with multi-modal large language model. arXiv preprint arXiv:2312.11370, 2023.
Gorbatovski et al. [2024] Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, and Daniil Gavrilov. Learn your reference model for real good alignment. arXiv preprint arXiv:2404.09656, 2024.
Goyal et al. [2017] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In CVPR, pages 6904–6913, 2017.
Hendrycks et al. [2020] Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.
Hendrycks et al. [2021] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874, 2021.
Hong et al. [2024] Jiwoo Hong, Noah Lee, and James Thorne. Orpo: Monolithic preference optimization without reference model. arXiv preprint arXiv:2403.07691, 2(4):5, 2024.
Huang et al. [2019] Zheng Huang, Kai Chen, Jianhua He, Xiang Bai, Dimosthenis Karatzas, Shijian Lu, and CV Jawahar. Icdar2019 competition on scanned receipt ocr and information extraction. In 2019 International Conference on Document Analysis and Recognition (ICDAR), pages 1516–1520. IEEE, 2019.
Hudson and Manning [2019] Drew A Hudson and Christopher D Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In CVPR, pages 6700–6709, 2019.
Joshi et al. [2017] Mandar Joshi, Eunsol Choi, Daniel S Weld, and Luke Zettlemoyer. Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. arXiv preprint arXiv:1705.03551, 2017.
Jung et al. [2024] Seungjae Jung, Gunsoo Han, Daniel Wontae Nam, and Kyoung-Woon On. Binary classifier optimization for large language model alignment. arXiv preprint arXiv:2404.04656, 2024.
Kafle et al. [2018] Kushal Kafle, Brian Price, Scott Cohen, and Christopher Kanan. Dvqa: Understanding data visualizations via question answering. In CVPR, pages 5648–5656, 2018.
Kazemi et al. [2023] Mehran Kazemi, Hamidreza Alvari, Ankit Anand, Jialin Wu, Xi Chen, and Radu Soricut. Geomverse: A systematic evaluation of large models for geometric reasoning. arXiv preprint arXiv:2312.12241, 2023.
Kembhavi et al. [2016] Aniruddha Kembhavi, Mike Salvato, Eric Kolve, Minjoon Seo, Hannaneh Hajishirzi, and Ali Farhadi. A diagram is worth a dozen images. In ECCV, pages 235–251, 2016.
Kwiatkowski et al. [2019] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, et al. Natural questions: a benchmark for question answering research. Transactions of the Association for Computational Linguistics, 7:453–466, 2019.
Lai et al. [2017] Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, and Eduard Hovy. Race: Large-scale reading comprehension dataset from examinations. arXiv preprint arXiv:1704.04683, 2017.
Lai et al. [2024] Xin Lai, Zhuotao Tian, Yukang Chen, Senqiao Yang, Xiangru Peng, and Jiaya Jia. Step-dpo: Step-wise preference optimization for long-chain reasoning of llms. arXiv preprint arXiv:2406.18629, 2024.
Laurençon et al. [2024] Hugo Laurençon, Lucile Saulnier, Léo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander Rush, Douwe Kiela, et al. Obelics: An open web-scale filtered dataset of interleaved image-text documents. NIPS, 36, 2024.
Li et al. [2024a] Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, and Chunyuan Li. Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:2408.03326, 2024a.
Li et al. [2022] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In ICML, pages 12888–12900, 2022.
Li et al. [2023a] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In ICML, pages 19730–19742. PMLR, 2023a.
Li et al. [2023b] Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, and Lingpeng Kong. Silkie: Preference distillation for large visual language models. arXiv preprint arXiv:2312.10665, 2023b.
Li et al. [2024b] Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, et al. Omnicorpus: An unified multimodal corpus of 10 billion-level images interleaved with text. arXiv preprint arXiv:2406.08418, 2024b.
Li et al. [2023c] Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao, and Ji-Rong Wen. Evaluating object hallucination in large vision-language models. In EMNLP, pages 292–305, 2023c.
Lin et al. [2024] Xi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, and Armen Aghajanyan. Moma: Efficient early-fusion pre-training with mixture of modality-aware experts. arXiv preprint arXiv:2407.21770, 2024.
Lindström and Abraham [2022] Adam Dahlgren Lindström and Savitha Sam Abraham. Clevr-math: A dataset for compositional language, visual and mathematical reasoning. arXiv preprint arXiv:2208.05358, 2022.
Liu et al. [2023a] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. arXiv preprint arXiv:2310.03744, 2023a.
Liu et al. [2023b] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. NIPS, 36, 2023b.
Liu et al. [2023c] Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh, Peter J Liu, and Jialu Liu. Statistical rejection sampling improves preference optimization. arXiv preprint arXiv:2309.06657, 2023c.
Liu et al. [2024] Yangzhou Liu, Yue Cao, Zhangwei Gao, Weiyun Wang, Zhe Chen, Wenhai Wang, Hao Tian, Lewei Lu, Xizhou Zhu, Tong Lu, et al. Mminstruct: A high-quality multi-modal instruction tuning dataset with extensive diversity. arXiv preprint arXiv:2407.15838, 2024.
Liu et al. [2023d] Zhaoyang Liu, Yinan He, Wenhai Wang, Weiyun Wang, Yi Wang, Shoufa Chen, Qinglong Zhang, Zeqiang Lai, Yang Yang, Qingyun Li, Jiashuo Yu, et al. Interngpt: Solving vision-centric tasks by interacting with chatgpt beyond language. arXiv preprint arXiv:2305.05662, 2023d.
Loshchilov and Hutter [2017] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017.
Lu et al. [2021a] Pan Lu, Ran Gong, Shibiao Jiang, Liang Qiu, Siyuan Huang, Xiaodan Liang, and Song-Chun Zhu. Inter-gps: Interpretable geometry problem solving with formal language and symbolic reasoning. arXiv preprint arXiv:2105.04165, 2021a.
Lu et al. [2021b] Pan Lu, Liang Qiu, Jiaqi Chen, Tony Xia, Yizhou Zhao, Wei Zhang, Zhou Yu, Xiaodan Liang, and Song-Chun Zhu. Iconqa: A new benchmark for abstract diagram understanding and visual language reasoning. arXiv preprint arXiv:2110.13214, 2021b.
Lu et al. [2022] Pan Lu, Swaroop Mishra, Tanglin Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, and Ashwin Kalyan. Learn to explain: Multimodal reasoning via thought chains for science question answering. NIPS, 35:2507–2521, 2022.
Lu et al. [2023] Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, and Jianfeng Gao. Mathvista: Evaluating mathematical reasoning of foundation models in visual contexts. arXiv preprint arXiv:2310.02255, 2023.
Luo et al. [2024] Gen Luo, Xue Yang, Wenhan Dou, Zhaokai Wang, Jifeng Dai, Yu Qiao, and Xizhou Zhu. Mono-internvl: Pushing the boundaries of monolithic multimodal large language models with endogenous visual pre-training. arXiv preprint arXiv:2410.08202, 2024.
Marino et al. [2019] Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-vqa: A visual question answering benchmark requiring external knowledge. In CVPR, pages 3195–3204, 2019.
Masry et al. [2022] Ahmed Masry, Xuan Long Do, Jia Qing Tan, Shafiq Joty, and Enamul Hoque. Chartqa: A benchmark for question answering about charts with visual and logical reasoning. In ACL, pages 2263–2279, 2022.
Mathew et al. [2021] Minesh Mathew, Dimosthenis Karatzas, and CV Jawahar. Docvqa: A dataset for vqa on document images. In WACV, pages 2200–2209, 2021.
Mathew et al. [2022] Minesh Mathew, Viraj Bagal, Rubèn Tito, Dimosthenis Karatzas, Ernest Valveny, and CV Jawahar. Infographicvqa. In WACV, pages 1697–1706, 2022.
Melnyk et al. [2024] Igor Melnyk, Youssef Mroueh, Brian Belgodere, Mattia Rigotti, Apoorva Nitsure, Mikhail Yurochkin, Kristjan Greenewald, Jiri Navratil, and Jerret Ross. Distributional preference alignment of llms via optimal transport. arXiv preprint arXiv:2406.05882, 2024.
Mishra et al. [2019] Anand Mishra, Shashank Shekhar, Ajeet Kumar Singh, and Anirban Chakraborty. Ocr-vqa: Visual question answering by reading text in images. In ICDAR, pages 947–952, 2019.
Mitchell [2023] Eric Mitchell. A note on dpo with noisy preferences & relationship to ipo, 2023.
OpenAI [2023] OpenAI. Gpt-4v(ision) system card. https://cdn.openai.com/papers/GPTV_System_Card.pdf, 2023.
OpenAI [2024] OpenAI. Gpt-4o system card. https://openai.com/index/gpt-4o-system-card/, 2024.
Ouyang et al. [2022] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.
Pal et al. [2024] Arka Pal, Deep Karkhanis, Samuel Dooley, Manley Roberts, Siddartha Naidu, and Colin White. Smaug: Fixing failure modes of preference optimisation with dpo-positive. arXiv preprint arXiv:2402.13228, 2024.
Pang et al. [2024] Richard Yuanzhe Pang, Weizhe Yuan, Kyunghyun Cho, He He, Sainbayar Sukhbaatar, and Jason Weston. Iterative reasoning preference optimization. arXiv preprint arXiv:2404.19733, 2024.
Pi et al. [2024] Renjie Pi, Tianyang Han, Wei Xiong, Jipeng Zhang, Runtao Liu, Rui Pan, and Tong Zhang. Strengthening multimodal large language model with bootstrapped preference optimization. arXiv preprint arXiv:2403.08730, 2024.
Rafailov et al. [2024] Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 2024.
Rebuffi et al. [2017] Sylvestre-Alvise Rebuffi, Hakan Bilen, and Andrea Vedaldi. Learning multiple visual domains with residual adapters. NIPS, 30, 2017.
Reid et al. [2024] Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530, 2024.
Rohrbach et al. [2018] Anna Rohrbach, Lisa Anne Hendricks, Kaylee Burns, Trevor Darrell, and Kate Saenko. Object hallucination in image captioning. arXiv preprint arXiv:1809.02156, 2018.
Schuhmann et al. [2022] Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion-5b: An open large-scale dataset for training next generation image-text models. NIPS, 35:25278–25294, 2022.
Schulman et al. [2017] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
Seo et al. [2015] Minjoon Seo, Hannaneh Hajishirzi, Ali Farhadi, Oren Etzioni, and Clint Malcolm. Solving geometry problems: Combining text and diagram interpretation. In Proceedings of the 2015 conference on empirical methods in natural language processing, pages 1466–1476, 2015.
Singh et al. [2019] Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, and Marcus Rohrbach. Towards vqa models that can read. In CVPR, pages 8317–8326, 2019.
Sun et al. [2020] Kai Sun, Dian Yu, Dong Yu, and Claire Cardie. Investigating prior knowledge for challenging chinese machine reading comprehension. Transactions of the Association for Computational Linguistics, 8:141–155, 2020.
Sun et al. [2023] Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang-Yan Gui, Yu-Xiong Wang, Yiming Yang, et al. Aligning large multimodal models with factually augmented rlhf. arXiv preprint arXiv:2309.14525, 2023.
Suzgun et al. [2022] Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V Le, Ed H Chi, Denny Zhou, , and Jason Wei. Challenging big-bench tasks and whether chain-of-thought can solve them. arXiv preprint arXiv:2210.09261, 2022.
Team [2024] Chameleon Team. Chameleon: Mixed-modal early-fusion foundation models. arXiv preprint arXiv:2405.09818, 2024.
Team et al. [2023] Gemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023.
Team [2023] InternLM Team. Internlm: A multilingual language model with progressively enhanced capabilities. https://github.com/InternLM/InternLM, 2023.
Thomee et al. [2016] Bart Thomee, David A Shamma, Gerald Friedland, Benjamin Elizalde, Karl Ni, Douglas Poland, Damian Borth, and Li-Jia Li. Yfcc100m: The new data in multimedia research. Communications of the ACM, 59(2):64–73, 2016.
Tian et al. [2024] Changyao Tian, Xizhou Zhu, Yuwen Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Yuntao Chen, Lewei Lu, Tong Lu, Jie Zhou, et al. Mm-interleaved: Interleaved image-text generative modeling via multi-modal feature synchronizer. arXiv preprint arXiv:2401.10208, 2024.
Touvron et al. [2023a] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023a.
Touvron et al. [2023b] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023b.
Wang et al. [2024a] Binghai Wang, Rui Zheng, Lu Chen, Yan Liu, Shihan Dou, Caishuang Huang, Wei Shen, Senjie Jin, Enyu Zhou, Chenyu Shi, et al. Secrets of rlhf in large language models part ii: Reward modeling. arXiv preprint arXiv:2401.06080, 2024a.
Wang et al. [2024b] Ke Wang, Junting Pan, Weikang Shi, Zimu Lu, Mingjie Zhan, and Hongsheng Li. Measuring multimodal mathematical reasoning with math-vision dataset. arXiv preprint arXiv:2402.14804, 2024b.
Wang et al. [2024c] Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, et al. Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution. arXiv preprint arXiv:2409.12191, 2024c.
Wang et al. [2023] Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, et al. Cogvlm: Visual expert for pretrained language models. arXiv preprint arXiv:2311.03079, 2023.
Wang et al. [2024d] Weiyun Wang, Yiming Ren, Haowen Luo, Tiantong Li, Chenxiang Yan, Zhe Chen, Wenhai Wang, Qingyun Li, Lewei Lu, Xizhou Zhu, et al. The all-seeing project v2: Towards general relation comprehension of the open world. arXiv preprint arXiv:2402.19474, 2024d.
Wang et al. [2024e] Weiyun Wang, Min Shi, Qingyun Li, Wenhai Wang, Zhenhang Huang, Linjie Xing, Zhe Chen, Hao Li, Xizhou Zhu, Zhiguo Cao, et al. The all-seeing project: Towards panoptic visual recognition and understanding of the open world. In ICLR, 2024e.
Wang et al. [2024f] Weiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, et al. Needle in a multimodal haystack. arXiv preprint arXiv:2406.07230, 2024f.
Wang et al. [2024g] Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, et al. Emu3: Next-token prediction is all you need. arXiv preprint arXiv:2409.18869, 2024g.
Wu et al. [2024] Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, and Quanquan Gu. Self-play preference optimization for language model alignment. arXiv preprint arXiv:2405.00675, 2024.
Xi et al. [2024] Zhiheng Xi, Wenxiang Chen, Boyang Hong, Senjie Jin, Rui Zheng, Wei He, Yiwen Ding, Shichun Liu, Xin Guo, Junzhe Wang, et al. Training large language models for reasoning through reverse curriculum reinforcement learning. arXiv preprint arXiv:2402.05808, 2024.
Yang et al. [2024] Zhen Yang, Jinhao Chen, Zhengxiao Du, Wenmeng Yu, Weihan Wang, Wenyi Hong, Zhihuan Jiang, Bin Xu, Yuxiao Dong, and Jie Tang. Mathglm-vision: Solving mathematical problems with multi-modal large language model. arXiv preprint arXiv:2409.13729, 2024.
Yao et al. [2024] Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, et al. Minicpm-v: A gpt-4v level mllm on your phone. arXiv preprint arXiv:2408.01800, 2024.
Yu et al. [2024a] Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han, Ganqu Cui, Jinyi Hu, Zhiyuan Liu, Hai-Tao Zheng, Maosong Sun, et al. Rlhf-v: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13807–13816, 2024a.
Yu et al. [2024b] Tianyu Yu, Haoye Zhang, Yuan Yao, Yunkai Dang, Da Chen, Xiaoman Lu, Ganqu Cui, Taiwen He, Zhiyuan Liu, Tat-Seng Chua, et al. Rlaif-v: Aligning mllms through open-source ai feedback for super gpt-4v trustworthiness. arXiv preprint arXiv:2405.17220, 2024b.
Yu et al. [2023] Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, and Lijuan Wang. Mm-vet: Evaluating large multimodal models for integrated capabilities. arXiv preprint arXiv:2308.02490, 2023.
Zhang et al. [2024a] Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, et al. Mavis: Mathematical visual instruction tuning. arXiv preprint arXiv:2407.08739, 2024a.
Zhang et al. [2023] Xiaotian Zhang, Chunyang Li, Yi Zong, Zhengyu Ying, Liang He, and Xipeng Qiu. Evaluating the performance of large language models on gaokao benchmark. arXiv preprint arXiv:2305.12474, 2023.
Zhang et al. [2024b] Yongting Zhang, Lu Chen, Guodong Zheng, Yifeng Gao, Rui Zheng, Jinlan Fu, Zhenfei Yin, Senjie Jin, Yu Qiao, Xuanjing Huang, et al. Spa-vl: A comprehensive safety preference alignment dataset for vision language model. arXiv preprint arXiv:2406.12030, 2024b.
Zheng et al. [2023] Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, et al. Secrets of rlhf in large language models part i: Ppo. arXiv preprint arXiv:2307.04964, 2023.
Zhou et al. [2023] Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, and Le Hou. Instruction-following evaluation for large language models. arXiv preprint arXiv:2311.07911, 2023.
Zhu et al. [2024] Wanrong Zhu, Jack Hessel, Anas Awadalla, Samir Yitzhak Gadre, Jesse Dodge, Alex Fang, Youngjae Yu, Ludwig Schmidt, William Yang Wang, and Yejin Choi. Multimodal c4: An open, billion-scale corpus of images interleaved with text. NIPS, 36, 2024.

7 Implementation Details

明確な正解を持つサンプルの構築において、我々は各クエリに対して最大 $32$ の推論プロセスをサンプリングし、最大 $15$ の選好ペアを構築する。 DropoutNTPを使用してデータを構築する際、我々は元の応答を半分に切り詰め、InternVL2-8Bに画像入力なしで応答を完成させるよう要求する。セクション8.2の我々の追加実験では、元の応答を25%または75%切り詰めることが最終的なパフォーマンスに悪影響を与えることを示している。応答の多様性を確保するため、サンプリング時の温度を $1.0$ に設定する。さらに、動的解像度の最大タイル数は、一般的なVQAドメインでは $6$ に、OCR、文書、およびチャート関連のドメインでは $12$ に設定される。

MPOプロセス中、トレーニング時のグローバルバッチサイズは $256$ に設定される。我々はAdamWオプティマイザ[57]を採用し、 $\beta_{1}$ を $0.9$ 、 $\beta_{2}$ を $0.999$ 、重み減衰を $0.05$ に設定する。学習率は $5e\text{-}6$ で初期化される。トレーニングフェーズには、トレーニングステップの最初の5%まで続く線形ウォームアップが含まれる。ウォームアップ後は、最小学習率0のコサイン減衰戦略が続く。 KLペナルティ係数 $\beta$ は $0.1$ に設定される。式3について、我々は $w_{p}$ を $0.8$ に、 $w_{q}$ を $0.2$ に、 $w_{g}$ を $1$ に設定する。モデルはInternVL2-8B[20]から初期化され、トレーニング中はすべてのパラメータが学習可能である。我々はモデルを1エポックトレーニングする。

8 More Ablation Studies

8.1 Ablation Studies about DPO variants

本節では、異なる選好最適化アルゴリズムの効果に関するアブレーション研究の数値実験結果を表6と表7に示す。我々は $\Delta$ をCoT推論応答と直接回答応答の間のパフォーマンスギャップと定義し、異なる選好最適化アルゴリズムがCoT推論能力に与える効果を定量的に評価する。我々の結果は、追加のSFT損失を導入することで、各アルゴリズムのバニラ版と比較してCoTのパフォーマンスが大幅に向上することを示している。なお、計算コストを削減するため、表6でDPOと比較して優れたパフォーマンスを示すDPOの変種のみをSFT損失で拡張している。

M3CoTに基づくアブレーション研究に加えて、我々のMMPRを用いてDPO+とBCO+で訓練されたモデルのパフォーマンスも表8に示す。実験結果は、MPOで訓練されたモデルが、DPO+およびBCO+で訓練されたモデルと比較して、全体的に優れたパフォーマンスを示すことを明らかにしている。

Method	Direct	CoT	$\Delta$
InternVL2-8B	59.3	57.0	-2.3
SFT	65.7	68.5	+2.8
DPO [76]	75.8	72.7	-3.1
RSO [54]	74.2	74.3	+0.1
IPO [4]	72.8	73.1	+0.3
cDPO [69]	76.2	76.8	+0.6
RobustDPO [21]	75.1	74.2	-0.9
BCO [36]	78.1	78.4	+0.3
SPPO [102]	66.2	67.4	+1.2
AOT [67]	76.7	76.0	-0.7
TR-DPO [28]	75.9	66.8	-9.1

表6: M3CoTにおいて異なる選好最適化アルゴリズムで訓練されたモデルの結果。

\Delta

はCoT応答と直接回答応答の間のパフォーマンスギャップを表す。

Method	Direct	CoT	$\Delta$
ORPO [32]	66.6	73.9	+7.3
DPO+	76.4	78.9	+2.5
cDPO+	71.6	74.2	+2.7
RobustDPO+	76.5	78.0	+1.5
BCO+	77.4	78.4	+1.0
AOT+	76.3	78.0	+1.7
MPO	77.7	79.1	+1.4

表7: M3CoTにおいてSFT損失で拡張された異なる選好最適化アルゴリズムで訓練されたモデルの結果。 SFT損失で拡張されたアルゴリズムXは、簡潔にX+と呼ぶ。例えば、DPO+はDPOとSFT損失の組み合わせである。

Model Name	Reasoning			General VQA		Hallucination Evaluation
Model Name	M3CoT	MathVista	MathVision	MMVet	LLaVA-Bench	POPE	CRPE	MMHalBench
InternVL2-8B	59.3	58.3	20.4	54.2	73.2	86.9	75.0	3.3
InternVL2-8B-DPO+	80.4	66.4	23.4	58.3	74.1	87.6	75.5	3.4
InternVL2-8B-BCO+	79.6	66.1	18.8	55.5	78.6	88.5	75.5	3.5
InternVL2-8B-MPO	79.2	67.0	25.7	56.2	76.7	88.1	75.4	3.5

表8: 我々のMMPRを用いてDPO+、BCO+、およびMPOで訓練されたモデルの結果。

8.2 Ablation Studies on DropoutNTP

ここでは、我々が提案するDropoutNTPにおけるドロップアウト比率（DR）に関する削減実験の結果を示す。デフォルトでは、DRを $0.5$ に設定しており、これは肯定的な応答を半分に切り詰めることを意味する。特筆すべきは、DRを $0.25$ に設定することは、肯定的な応答の最初の4分の1を継続に使用することを意味する。第5.2.2節の実験設定に従い、RLAIF-Vの否定的サンプルを異なるドロップアウト比率に基づく補完で置き換える。表9に示すように、DRが $0.75$ のデータで訓練されたモデルが最も性能が低い。これは、プレフィックスの最初の4分の3が同一であるため、選択された応答と拒否された応答の品質の差が不明確になり、訓練の効果が低下することに起因すると我々は考える。さらに、DRが $0.25$ で訓練されたモデルは、ドロップアウト比率が $0.5$ で訓練されたモデルよりも性能が低い。我々は、これは拒否された応答の内容の大部分が画像入力なしで生成されるため、選択された応答と比較して品質が顕著に低くなり、同様に訓練の効果を損なうためであると考える。したがって、我々はDRを $0.5$ に設定する。

Method	Object HalBench		MM HalBench
Method	Resp. (↓)	Ment. (↓)	Score	Hall. (↓)
DR=0.25	9.3	4.8	3.3	40.6
DR=0.50	7.6	4.1	3.6	31.3
DR=0.75	11.6	6.2	3.3	36.5

表9: 異なるドロップアウト比率を用いたDropNTPの結果。

8.3 Effects of data scale.

データ規模の影響を評価するため、我々はM3CoT [16]からサンプリングした異なる量の選好推論データでモデルを訓練した。 M3CoTの訓練セットには、対応する根拠が注釈付けされた7,861のサンプルが含まれている。データ量を制御するため、各サンプルに対して生成される選好ペアの最大数を調整し、10K、40K、70K、100Kの異なるサイズのデータセットを作成した。図4(a)に示されているように、モデルの精度はデータ量の増加に伴って一貫して向上している。データ量が100Kに達すると、モデルは最終回答を直接答える場合に76.4の最高精度を達成し、CoTで回答する場合には78.9の精度を達成した。さらに、直接回答とCoTの両方の性能がデータ規模と精度の間に正の相関を示し、CoTの性能がすべての規模において高い性能を達成している。これらの結果は、モデルの性能を向上させるために推論選好データのスケールアップの重要性を強調している。

8.4 Effects of hyper-parameters.

我々はM3CoTにおいてアブレーション実験を行い、学習率、PO係数 $w_{p},w_{q}$ 、およびSFT係数 $w_{g}$ を含むハイパーパラメータの影響を研究した。 PO係数については、 $w_{p}$ と $w_{q}$ の合計が1.0になるように制御し、異なる比率を調整した。特に言及がない限り、学習率を $5e\text{-}6$ 、 $w_{p}$ を $0.8$ 、 $w_{q}$ を $0.2$ 、 $w_{g}$ を $1$ に設定した。図4(b)に示すように、学習率はモデルの性能に大きな影響を与える。比較的低い学習率 $5e\text{-}7$ では、モデルは適度な改善を示す。学習率が $5e\text{-}6$ に増加すると、モデルの性能はさらに向上し、テストした学習率の中で最適な結果を達成し、ベースラインを19.6ポイント上回った。しかし、学習率をさらに $5e\text{-}5$ に増加させると、性能が大幅に低下し、より高い学習率が過学習や訓練の不安定性につながる可能性があることを示唆している。さらに、PO係数 $w_{0},w_{1}$ とSFT係数 $w_{2}$ も重要である。図4(c)および4(d)に示すように、モデルは $w_{p}$ を $0.8$ に、 $w_{q}$ を $0.2$ に、 $w_{g}$ を $1$ に設定した場合に最適な性能を達成する。特筆すべきは、 $w_{g}$ を $0.01$ に設定した場合、CoTアプローチの性能が最終的な回答を直接答える場合よりも劣っており、直接選好最適化中のSFT損失の重要性を示している。