arXiv	https://arxiv.org/abs/2411.09213
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering

Nghia Trung Ngo¹, Chien Van Nguyen¹, Franck Dernoncourt², Thien Huu Nguyen ¹

Abstract

検索拡張生成（RAG）は、医療分野のような知識集約型タスクにおいて大規模言語モデル（LLM）の性能を向上させる有望なアプローチとして注目されている。しかし、医療分野の機微な性質上、完全に正確で信頼できるシステムが必要とされる。既存のRAGベンチマークは主に標準的な検索-回答設定に焦点を当てているが、信頼性の高い医療システムの重要な側面を測定する多くの実践的なシナリオを見落としている。本稿は、この課題に対処するため、十分性、統合、堅牢性などの状況に対するRAG設定での医療質問応答（QA）システムの包括的な評価フレームワークを提供する。我々は、Medical Retrieval-Augmented Generation Benchmark（MedRGB）を導入し、4つの医療QAデータセットに対して、これらの特定のシナリオを扱うLLMの能力をテストするための様々な補足要素を提供する。 MedRGBを活用し、最先端の商用LLMとオープンソースモデルの両方について、複数の検索条件下で広範な評価を実施する。我々の実験結果は、検索された文書内のノイズや誤情報を扱う現在のモデルの能力の限界を明らかにしている。さらに、LLMの推論プロセスを分析し、この重要な医療分野におけるRAGシステムの開発に向けた貴重な洞察と今後の方向性を提供する。

Introduction

大規模言語モデル（LLM）は、複雑な医療問題を解決する上で顕著な能力を示し、様々なベンチマークで最先端の性能を達成している。しかし、人工知能（AI）医療システムの信頼性と真実性を確保することは、特に医療応用において重要な課題であり続けている。検索拡張生成（RAG）は、外部知識源を統合することでLLMの幻覚問題を軽減する有望なアプローチとして登場した。

Refer to caption — 図1: 青色のテキストは回答の決定に役立つ有用な情報であり、抽出されるべきである。赤色のテキストは、LLMを潜在的に誤導する事実誤認である。

RAGはLLMの応答の事実的正確性を向上させる可能性がある一方で、情報検索機能を組み込むことで新たな複雑さも生じ、慎重な評価が必要となる。図1の例を考えてみよう。検索された文書には、正解を決定するのに役立つ有用な知識だけでなく、ノイズ情報、さらには深刻な場合、LLMを誤導する可能性のある事実誤認も含まれる可能性がある。医療QAにRAGを意識的に適用するためには、これらの実践的なシナリオを考慮し、LLMが検索された文書と信頼性高く相互作用する能力を評価しなければならない。

最近、医療分野におけるLLMを用いたAIシステムを評価する取り組みがなされている(Nori et al. 2023; He et al. 2023; Xiong et al. 2024)。例えば、MedEval (He et al. 2023)は、様々な医療タスクと領域をカバーする大規模な専門家注釈付きベンチマークを提示している。 (Xiong et al. 2024)は、5つの医療QAデータセットをカバーするMIRAGEベンチマークに基づいてRAGを広範に評価している。しかし、これらは目標精度に対するRAGモジュールの効果のみに焦点を当てており、AIメディカルシステムの他の重要な側面を見逃している。

近年、いくつかの研究が一般領域におけるRAG評価をより包括的に探究している(Es et al. 2023; Chen et al. 2024b)。 RAGAS (Es et al. 2023)は、QAタスクにおけるRAGの出力の3つの品質を評価している。これには以下が含まれる：忠実性 - 応答が提供されたコンテキストにどの程度一致しているか、回答の関連性 - 生成された応答が実際に提起された質問にどの程度対応しているか、コンテキストの精度と再現率 - 検索されたコンテキストの質。我々は(Chen et al. 2024b)の研究に従い、RAGに必要な4つの能力（ノイズに対する頑健性、否定的情報の拒否、情報統合、反事実的頑健性）を測定するための検索拡張生成ベンチマーク（RGB）を確立している。特に、MIRAGEの4つの医療QAデータセットからの質問を基に、我々は医療検索拡張生成ベンチマーク（MedRGB）を作成し、以下の4つのテストシナリオでRAGシステムを評価する：

•

標準RAG: 複数の検索されたシグナル文書が提示された際に、質問に答えるためのコンテキストを作成するLLMのパフォーマンスを評価する。
•

十分性: 検索されたコンテキスト内にノイズ文書が存在する場合のLLMの信頼性を評価する。「情報不足」を追加の回答オプションとして加えることで、LLMは正しい回答を決定するのに十分な情報があると確信できる場合にのみ回答すべきである。これにはLLMが自身の内部知識を認識するだけでなく、外部文書からのノイズ情報をフィルタリングする能力も必要とされる。
•

統合: LLMが複数の補助質問に答え、抽出した情報を統合して主要な質問に対処する能力を評価する。
•

頑健性: 検索されたコンテキスト内の事実誤認に対するLLMの回復力を評価する。信頼できるAI医療システムは、事実的に不正確な文書を検出し、修正された情報を提供できるべきである。

MedRGBは全体で4つのテストシナリオに対して3480のインスタンスで構成されており、これはRGBの5倍以上である。 MedRGBを用いて、我々は最先端の商用LLMとオープンソースモデルの両方を含む7つのLLMを評価した。要約すると、本稿の貢献は以下の3点である：

•

我々は、RAG設定における医療QAタスクのためのLLMを評価するために、4つのテストシナリオを持つMedRGBを確立した。我々の知る限り、これは実践的な設定でこれらの医療RAGシステムを包括的に評価する最初のベンチマークである。
•

MedRGBを使用して、我々は最先端の商用LLMとオープンソースモデルの両方を含む7つのLLMを、複数のRAG条件にわたって広範に評価した。実験結果は、より複雑なシナリオに対処する上での彼らの限界を示している。
•

我々はLLMのエラーとその推論プロセスを分析し、より信頼性が高く信頼できる医療RAGシステムを開発するための洞察を提供し、将来の方向性を示唆した。

Related Work

Medical Retrieval-augmented Generation

医療分野におけるLLMの応用は高度な精度と信頼性を要求するが、現在のほとんどのLLMはこれらの点でまだ課題を抱えている(Zhou et al. 2023)。検索拡張生成（RAG）(Lewis et al. 2020)は、LLMが生成プロセスに外部の知識源を統合することを支援することでこの問題に対処している。最近の研究では、知識集約型タスクにおいてRAGを活用することで成功を収めている(Cui et al. 2023; Peng et al. 2023; Ram et al. 2023)。特に医療分野においては、(Hiesinger et al. 2023; Wang et al. 2024; Xiong et al. 2024)がヘルスケアおよび臨床タスクにおけるRAGの探索を行っている。

Medical Benchmarks

これまでの医療ベンチマークは、通常、QAペアのみで構成される医療問題の目標性能にのみ焦点を当てていた(Jin et al. 2020a, 2019; Krithara et al. 2023)。最近のベンチマークの中には、LLMが推論を行うための証拠も含めているものもある(Chen et al. 2024a)。現在の医療分野におけるLLMの体系的評価のほとんどはRAGを含んでいない(He et al. 2023; Nori et al. 2023)。 (Xiong et al. 2024)は医療分野におけるRAGシステムの体系的評価を提供しようと試みている。我々は彼らの研究を基に、様々な実践的設定における医療RAGシステムの重要な基準をさらに評価する。

あなたは医療の専門家です。医療に関する質問に答えるのに役立つランク付けされた検索トピックを生成してください。以下のガイドラインに従ってください： 1. 質問に対する重要性でトピックをランク付けする。 2. 質問と回答選択肢に関連性があることを確認する。 3. トピックは区別可能で、情報検索に効率的であるべきである。

図3: 検索トピック生成プロンプト（短縮版）。

あなたは提供された文書を使用して多肢選択問題に答える医療の専門家です。以下の指示に従ってください： 1. 提供された文書と質問を分析する。 2. ステップバイステップで考え、正解を決定する。

図4: 標準RAGテスト推論プロンプト（短縮版）。

あなたは提供された文書を使用して多肢選択問題に答える医療の専門家です。一部の文書は関連性がない可能性があります。以下の指示に従ってください： 1. 関連する文書を特定する。 2. ステップバイステップで考え、正解を決定する。すべての文書が関連性がない場合： 1. 確信がある場合は自身の知識に基づいて回答する。 2. 不確かな場合はinsufficient informationを返す。

図5: 十分性テスト推論プロンプト（短縮版）。

あなたは医学研究の専門家です。主要な医療質問に関連する各提供文書について、以下のガイドラインに従ってサブQ-Aペアを作成してください： 1. 主要な質問に関連する異なる側面を探る。 2. サブ質問は特定の文書に固有のものでなければならない。 3. サブ回答は対応する文書から抽出された短い文字列でなければならない。

図6: 統合テストデータ生成プロンプト（短縮版）。

あなたは提供された文書を使用して多肢選択の主要質問と関連するサブ質問に答える医療の専門家です。一部の文書は関連性がない可能性があります。以下の指示に従ってください： 1. すべての文書を分析する。 2. 最も関連性の高い文書を使用して各サブ質問に答える。各サブ回答は対応する文書からの簡潔な文字列であるべきである。 3. ステップバイステップで考え、サブ質問の情報を使用して主要質問の正解を決定する。

図7: 統合テスト推論プロンプト（短縮版）。

あなたは与えられた医療質問に対して意図的に不正確な回答-文書ペアを作成する任務を負った医療の専門家です。以下の指示に従ってください： 1. 提供された質問、元の回答、文書を分析する。 2. 意図的に不正確な新しい回答を生成する。 3. 元の文書を最小限に編集して、不正確な回答を支持する説得力があるが事実上不正確な新しい文書を作成する。

図8: ロバストネステストデータ生成プロンプト（短縮版）。

あなたは提供された文書を使用して多肢選択の主要質問とサブ質問に答える医療の専門家です。一部の文書には事実誤認が含まれている可能性があります。以下の指示に従ってください： 1. 各サブ質問について、対応する関連文書を特定する。 2. 文書に事実誤認が含まれているかどうかを判断する。 2.1. 事実上正確な文書からサブ回答を抽出する。 2.2. 文書に事実誤認が含まれている場合は、事実上正確な回答を提供する。 3. ステップバイステップで考え、サブ質問の情報を使用して主要質問に答える。

図9: ロバストネステスト推論プロンプト（短縮版）。

あなたは医療質問応答評価の専門家です。質問、モデルの予測、および正解が与えられた場合、予測が意味的に正解と一致するかどうかを判断してください。以下の指示に従ってください： 1. 予測が完全に正解と意味的に一致する場合、スコア1を付ける。 2. 予測が正解の一部と意味的に一致し、質問に関連している場合、スコア0.5を付ける。 3. 予測が完全に間違っているか、質問と無関係である場合、スコア0を付ける。

図10: GPTベースのスコアリングプロンプト（短縮版）。

Medical Retrieval-Augmented Generation Benchmark

MedRGBの作成プロセスは図2に示されており、検索トピックの生成、文書検索、ベンチマークの作成という3つの主要なステップを含んでいる。

Medical QA Dataset

MedRGBの基礎は、MIRAGEからの4つの医療QAデータセットの多肢選択問題であり、医学試験から2つ（MMLUとMedQA）、生物医学研究から2つ（PubMedQA、BioASQ）が含まれる。

MMLU

（(Xiong et al. 2024)のMMLU-Med）MMLUの57タスクから6つのタスクのサブセット(Hendrycks et al. 2021)であり、解剖学、臨床知識、専門医学、人類遺伝学、大学医学、大学生物学が含まれる。4つの回答選択肢を持つ1089の質問がある。

MedQA

（(Xiong et al. 2024)のMedQA-US）MedQA(Jin et al. 2020a)の英語部分であり、専門医学委員会試験から収集された多肢選択QAデータセットである。これらは4つの回答選択肢を持つ1273の実世界の質問である。

PubMedQA

（(Xiong et al. 2024)のPubMedQA*）PubMedQA(Jin et al. 2019)の専門家によって注釈付けされた500のテストサンプルで構成される。各質問はPubMedの要約から構築され、はい/いいえ/おそらくの回答選択肢がある。

BioASQ

（(Xiong et al. 2024)のBioASQ-Y/N）2019年から2023年までの最近の生物医学QAの年次コンペティションのテストセット(Krithara et al. 2023)。合計で618のはい/いいえの質問があり、機械読解トラックのための生物医学文献に基づいて構築されている。

Topic Generation

従来のQAタスクにおけるRAGセットアップでは、密なリトリーバーが入力質問を高次元ベクトルにエンコードし、外部コーパスから意味的に類似した段落を見つける。コサイン類似度などの類似度指標に基づいて上位k個の文書が選択され、それらが結合されてLLMが元の質問に答えるためのコンテキストが作成される。この手法では、類似度指標を使用する際の多様性の欠如により、検索されたセットに冗長性が生じることが多い。この制限に対処するため、我々はまず図3のプロンプトを用いてLLMに多様な検索（サブ）トピックのセットを生成させる。各トピックは上記のプロセスに従って、より小さな関連文書のセットを作成する。これらのセットは集約され、元のQAペアに対する最終的な検索セットが作成される。

Document Retrieval

我々はMedRGBに2つの検索プロセスを組み込み、専門家と非専門家の使用ケースにおける現実世界の違いをシミュレートしている。

Offline Retrieval Process

専門家の使用ケースでは、検索コーパスには一般に公開されるべきではない高度に専門的な情報が含まれているべきである。我々は、PubMed、StatPearls、教科書、Wikipediaを含む4つの異なるソースからの医療文書を含むMedCorp (Xiong et al. 2024) をオフラインコーパスとして使用している。前のステップからの検索トピックは、生物医学領域の密な検索器であるMedCPT (Jin et al. 2023) によってエンコードされ、関連文書のコーパスを検索するために使用される。我々は、一般領域の検索器であるContriever (Izacard et al. 2021) や語彙的検索器であるBM25 (Robertson and Zaragoza 2009) ではなく、MedCPTを選択した。これは、(Xiong et al. 2024) で示されているように、医療領域からの検索において一貫したパフォーマンスを示すためである。各検索トピックに対して上位3つの文書が収集され、検索セットが作成される。

Online Retrieval Process

非専門家の使用ケースでは、ユーザーは単に一般的なLLMに質問し、LLMはユーザーの質問に答えるためにオンライン検索エンジンを通じて文書を検索する。元の医療質問それぞれに対して、生成されたサブトピックはGoogle Custom Search API¹¹1https://developers.google.com/custom-search/v1/overviewを通じてインターネットに問い合わせるために使用され、最高スコアのリンクが返される。各検索されたリンクからのコンテンツは抽出され、要約され（LLMによって）、対応するトピックの単一文書が作成される。

Benchmark Creation

本節では、4つのテストシナリオそれぞれの構築プロセスについて説明する。標準RAGテスト以外の3つの設定では、検索されたコンテキスト内のシグナル文書の割合を示す変数 $p$ によって指定される複数のノイズレベルにわたって評価が行われる。

Standard-RAG Test

この設定では、検索されたコンテキストは、シグナルセットからサンプリングされた事前に定義された数のシグナル文書で構成される。 LLMは、図4のプロンプトを用いて、まず段階的な推論を生成し、その後回答オプションを出力するよう指示される。

Sufficiency Test

各質問に対して、我々はシグナル文書と無関係なノイズ文書の両方をサンプリングし、 $p$ が $[0,20,40,60,80,100]$ の範囲内にある検索セットを作成する。混合されたコンテキストが与えられると、LLMは図5に従ってプロンプトされ、「情報不足」というオプションを追加して質問に答えるよう指示される。 LLMは、まずノイズ文書を検出し、その後関連文書のみに基づいて段階的な推論を進めるよう指示される。

Integration Test

複雑な医療質問では、LLMが主要な質問に取り組む前に、まず複数の副問題に対処する必要がある場合がある。我々は、図6のデータ生成プロンプトに従って各シグナル文書に基づいて副質問を生成することで、このLLMの能力を測定する。 LLMは、図7のプロンプトに従って、ノイズの多いコンテキスト内で各副質問に関連する特定の文書を見つけ、次に対応する文書から副回答を抽出するよう指示される。このテストは、LLMが増加する数の副質問に答える能力と、これらの情報を推論に統合して主要な質問の答えを推論する能力を測定する。

Robustness Test

ロバストネステストは、特に誤情報を引き起こすように敵対的に設計された事実誤認に対するLLMの耐性を測定することを目的としている。統合テストの副質問に基づいて、我々は図8のプロンプトを使用して、副回答と対応する文書の両方を変更し、反事実的な例を作成する。敵対的な回答は、元の回答と意味的に矛盾するべきであり、関連文書は説得力のある方法で最小限に編集されるべきである。このテストでは、検索されたコンテキスト内のすべての文書が関連しており、 $p$ は事実的に正しい文書の割合である。 LLMは、図8のプロンプトに従って、副質問と主要な質問に答える前に、事実的に不正確な情報を含む文書を検出するよう指示される。

	BioASQ					PubmedQA					MedQA					MMLU
		Offline Retrieval		Online Retrieval			Offline Retrieval		Online Retrieval			Offline Retrieval		Online Retrieval			Offline Retrieval		Online Retrieval
LLMs	No Retrieval	5 doc	20 doc	5 doc	20 doc	No Retrieval	5 doc	20 doc	5 doc	20 doc	No Retrieval	5 doc	20 doc	5 doc	20 doc	No Retrieval	5 doc	20 doc	5 doc	20 doc
GPT-3.5	77.7	81.2	87.2	87.2	87.9	49.8	59.6	71.0	58.4	60.6	68.3	63.0	67.3	68.0	68.4	76.3	70.3	73.0	75.7	74.8
GPT-4o-mini	82.9	85.3	90.5	89.0	90.0	47.0	60.8	71.8	60.6	61.2	79.2	77.1	79.5	79.0	80.6	88.3	84.6	87.3	86.0	87.1
GPT-4o	87.9	86.1	90.8	87.4	87.4	52.6	59.2	71.2	53.2	54.4	89.5	83.7	86.9	84.6	86.9	93.4	88.3	90.1	89.5	89.1
PMC-LLAMA-13b	64.2	64.6	64.6	63.9	64.1	55.4	54.0	54.0	54.8	54.6	44.5	38.9	38.8	43.4	43.7	49.7	43.7	44.0	48.4	48.2
MEDITRON-70b	68.8	74.0	74.8	79.8	79.2	53.0	53.4	47.8	58.8	46.8	51.7	56.0	57.4	61.8	62.9	65.3	65.1	66.3	67.6	69.3
GEMMA-2-27b	80.3	83.3	88.7	88.7	89.2	41.0	52.0	59.0	52.6	49.4	71.2	69.8	71.7	75.9	76.9	83.5	77.9	82.5	82.2	83.6
Llama-3-70b	82.9	84.6	89.3	89.3	89.3	59.2	77.6	70.8	59.4	59.2	82.9	73.6	79.4	76.1	78.3	85.2	77.6	83.4	81.8	83.8

表1: 標準RAGテストの正確性。

Experiments

本節では、MedRGBの4つのシナリオにおいて様々なLLMを評価し、その推論プロセスを分析し、実験結果から得られた主要な知見について議論する。

Evaluation Setting

我々は、MedRGBを用いて最先端のLLMを幅広く評価する。非公開の商用LLMについては、OpenAIのGPT-3.5²²2https://platform.openai.com/docs/models/gpt-3-5-turboとGPT-4o³³3https://platform.openai.com/docs/models/gpt-4oの両方を評価する。さらに、最近のGPT-4o-mini⁴⁴4https://platform.openai.com/docs/models/gpt-4o-miniも評価対象とする。これはフルサイズの対応モデルとほぼ同等の性能を達成している⁵⁵5https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/。オープンソースカテゴリーでは、汎用LLMとドメイン特化型の微調整モデルの両方を検討する。前者には、MicrosoftのGemma-2-27b⁶⁶6https://huggingface.co/google/gemma-2-27b-it-pytorchとMetaのLlama-3-70b⁷⁷7https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instructが含まれる。ドメイン特化型モデルについては、医療分野で事前学習されたMEDITRON-70b (Chen et al. 2023)とPMC-Llama-13b (Wu et al. 2023)を含める。これらは医療応用に特化したモデルである。

Standard-RAG Evaluation

表1は、全ての検討対象LLMの3つの設定における精度を示している：ベースラインの「検索なし」と、コンテキストとして5つおよび20の信号文書を検索する標準RAG設定である。

Results

GPT-4oは、ほとんどの設定において最高の性能を示し、パラメータと学習データの両方のスケーリングの正の効果を実証している。驚くべきことに、GPT-4o-miniは報告されているパラメータ数が80億に過ぎないにもかかわらず、より大規模なモデルに匹敵する結果を達成した。オープンソースモデルの中では、Gemma-2-27bとLlama-3-70bが強力な性能を示し、ゼロショット設定における一般領域の指示調整モデルの有効性を強調している。対照的に、PMC-Llama-13やMEDITRON-70bのような領域特化型の微調整モデルは、両者とも混在した結果を生み出している。

RAGの有効性は様々な要因によって異なる。 GPT-4oやLlama-3-70bのような強力な内部知識を持つ大規模モデルは、GPT-4o-miniやGemma-2-27bのような小規模モデルと比較してRAGの恩恵を受けにくい。一般的に、検索される文書を増やすことで性能は向上するが、コンテキスト長が短いモデル（例：PMC-Llama-13b、MEDITRON-70b）はこの追加情報を十分に活用することが困難であり、わずかな改善にとどまっている。

Analysis

興味深いことに、文書量の影響は2つの検索ソース間で異なる。検索ベースのオンライン検索は、少ない文書数で最高の性能を発揮することが多いが、MedCorpを使用したオフライン検索は文書数が増えるほど改善される傾向にある。この差異は、各検索アルゴリズムと検索ソースの性質に起因する可能性が高い。Google検索は上位の結果で高品質な情報を提供する傾向があるが、結果数が増えるにつれてノイズも増加する。対照的に、MedCPTを用いたMedCorpからの検索は、より一貫して関連性の高い高品質な文書を提供し、より多くの量でも潜在的に価値がある可能性がある。我々は、GPT-4oとLlama-3-70bにRAGを適用した際、MMMLUとMedQAにおいてわずかな悪影響も観察した。これは、これらのモデルの強力な内部知識と、より一般的なデータセットにおける潜在的なデータ漏洩の問題に起因する可能性がある。

以下の評価では、RAG設定におけるLLMのより具体的な能力に焦点を当てる。計算とコストの制約により、商用LLMについてはGPT-3.5とGPT-4o-mini（GPT-4oの100分の1のコストでありながら、比較的同等の結果を達成する）に、そしてオープンソースモデルについては最良のモデルであるLlama-3-70bに焦点を当てる。

Sufficiency Evaluation

我々は、検索された文書におけるノイズの様々なレベルに対するモデルの処理能力と、質問に信頼性をもって回答するための十分な情報がないことを認識する能力を評価する。結果は図11および12に示されている。

Result

$p=0$ において、モデルは主に「情報不足」を返すことが観察される。しかし、シグナルの割合 $p$ が0から20に増加するにつれて、すべてのデータセットで精度が大幅に向上する。これは、わずかな量のシグナルでもモデルの回答に対する自信が大きく向上することを示している。ただし、シグナル文書がさらに追加されても改善は減少する。検索されたコンテキストがすべてシグナル文書を含む場合（ $p=100$ ）でも、標準的なRAG設定と比較して性能は劇的に低下する。これは、標準的なRAGテストでは、モデルが完全に自信がない場合や十分なコンテキストがない場合でも質問に回答しようとする可能性があることを示唆しており、医療応用においては望ましくない特性となり得る。

Llama-3-70bは、すべてのデータセットと設定において、ノイズ検出で一貫して他のモデルを上回る性能を示す。検索文書を増やすと、一般的にコンテキストが増えるため、「情報不足」の応答が減少し、性能が向上する。しかし、これによってノイズ検出の精度も低下し、モデルがノイズ文書をシグナルの一部として誤って解釈することがある。これは、正確な回答のための十分なコンテキストを提供することと、関連情報をノイズから識別する能力を維持することのバランスの難しさを浮き彫りにしている。

Analysis

図12は、 $p$ の低い値ではすべてのモデルがノイズ検出の精度が高いが、シグナルの割合が上昇するにつれてこの精度が低下することを示している。特に、 $p=0$ では、モデルは文書を完全に無視し、内部知識のみに依存する傾向がある。これによりノイズ文書の検出は容易になるが、モデルが回答するための内部知識を持っている場合でも「情報不足」の応答につながる可能性がある。驚くべきことに、コンテキストがシグナル文書のみで構成される場合（ $p=100$ ）、モデルはそれらを関連性があるものとして識別することに苦戦する。我々は、関連文書の「具体的な説明」がない場合、シグナル文書のみが存在する時にモデルの内部的な関連性の基準がはるかに厳しくなると仮説を立てている。対照的に、検索されたコンテキストにノイズとシグナルが混在している場合、モデルはノイズ文書とシグナル文書の内容を区別する基準をより効果的に推論できる。最後に、 $p\in[60,80]$ において、ノイズのない設定 $p=100$ と比較してわずかな性能向上が見られる場合がある。これは、少量のノイズを導入することが有益である可能性を示唆しており、ドロップアウトトレーニングの概念と類似している。ノイズは特定のパターンへの過適合を防ぐことでモデルの一般化を助けるのと同様に、この手法は、評価のためのより多様なコンテキストを提供することで、モデルの関連情報を識別する能力を向上させる可能性がある。

Integration Evaluation

図13は、モデルが副問に答えることで得た情報を統合した後の主問の正確性を示している。さらに、図14では、2つの指標を用いて副問の正確性を測定している。 1つは抽出型QAタスクに対する厳密な完全一致スコアであり、もう1つは図10のプロンプトを使用したGPTベースのより寛容なスコアである。この指標の直感的な理由は、これらが副問であるため、その厳密な正確性はそれほど重要ではないということである。比較的正確で主問の答えを推論するのに役立つ副問の回答も評価されるべきである。

我々は取得する文書数を10に制限している。これは、副タスクの含有により、以前の設定よりもはるかに長いコンテキスト長が必要とされたためである。 $p$ は20から始まっており、これは副問を問うための信号文書が少なくとも1つあることを保証している。

Result

十分性評価と比較すると、副問の導入により $p\in[20,40]$ において主問の正確性が大幅に向上している。これは、信号文書よりもノイズ文書が多い場合、特に副問が有用であることを示唆している。しかし、標準的なRAG設定と類似した検索コンテキストである $p=100$ では、モデルのパフォーマンスがわずかに低下していることが観察され、副タスクからの情報を効果的に統合する能力の不足を示している。副タスクのパフォーマンスに関しては、完全一致の正確性は比較的低く、20〜30パーセントの範囲である。対照的に、GPTベースのスコアはすべての設定で一貫して80%以上を維持している。これは、副タスクのパフォーマンスの最適化を目指すことが主タスクにとって有用でない可能性があることを示唆している。

Analysis

この評価は、特にノイズが存在する場合、副問の統合が有益であることを示している。副問はモデルが関連情報を特定する際の指針となり、それによって主問の正確性を向上させる。しかし、副問はモデルの推論を与えられた質問のみに制限し、他の関連する側面を探索する能力を制限する可能性もある。これはMMLUとMedQAデータセットで明らかであり、主問の正確性の向上があまり顕著ではない。副問/信号文書の数を大幅に増やすことでこの問題に対処できるが、それによって副タスクがはるかに困難になり、より多くのタスク失敗（例：指示に従えない、長いコンテキストに苦戦する、副問をスキップするなど）につながる可能性がある。

Robustness Evaluation

我々は、検索された文書内の誤情報を検出し処理する能力、および事実に反する情報が存在する状況下で質問に答える性能について、モデルを評価する。統合テストと同様に、図15は主要な質問の正確性を示し、図16はサブタスクのスコアとモデルの事実誤り検出率を提示している。

Results

一般に、誤情報の存在はメインタスクにおけるモデルの全体的な性能を低下させる。事実に正確な文書の数 $p$ が徐々に増加するにつれて、正確性の向上が観察される。しかし、十分性テストでの性能と比較すると、モデルは関連性のないノイズのある文書よりも誤情報の存在下でより良い性能を示すことがわかる。これは、モデルが敵対的な文書から情報を活用して正確性を向上させることができることを示しており、信頼性の高いシステムにとっては問題となる可能性がある。 $p$ が低い場合、つまり検索されたコンテキストが主に敵対的な文書である場合、モデルはすべての誤情報のインスタンスを識別するのに苦労することが観察される。興味深いことに、GPT-3.5は最も性能の低いモデルでありながら、最も高い事実誤り検出率を示している。

Analysis

我々は、モデルが偽情報の検出に失敗することが多く、その結果、高い偽陽性率を示し、ほとんどの場合、誤情報を真実として受け入れていることを観察した。したがって、 $p$ の値が小さい場合、モデルは対応する文書の情報が事実上正しいかのようにサブ質問に答えるため、サブタスクのスコアは低くなる。偽情報がモデルの推論に使用されることがあり、主要な質問に対する不正確な回答につながる。これは、事実の不正確さを見分ける能力が医療RAGシステムにとって不可欠であるため、改善が必要な重要な領域を浮き彫りにしている。興味深いことに、GPTベースのサブタスクのスコアは、統合テストでは一貫して80を超えているのに対し、 $p$ が低い場合には低いままである。これは、検索されたコンテキスト内に誤情報が存在することを示す潜在的な指標かもしれない。

Discussion

医療質問応答のための検索拡張生成（RAG）システムに関する我々の包括的な評価は、これらのモデルの能力と限界について、いくつかの重要な洞察を浮き彫りにしている。本節では、これらの発見について議論し、いくつかの重要な洞察と将来の研究の潜在的な方向性を明らかにする。

Evaluation Criteria in Medical Domain

医療応用においては、性能、十分性、統合、堅牢性を含むすべての評価基準が高水準で満たされなければならない。我々の結果は、モデルが標準的なRAG設定で高い性能を達成できる一方で、他の面ではまだ不十分であることを示している。将来の研究は、単に目標精度の最適化に焦点を当てるのではなく、これらの複雑だが実用的なシナリオに対処するLLMの能力を向上させることを目指すべきである。

Specialized Components for RAG Systems

実験結果は、単にLLMに依存するだけでは、完全に信頼できる医療システムには不十分であることを明確に示している。最先端のモデルでさえ、複雑な統合タスクに苦戦し、ノイズや誤情報に対して脆弱であった。これは、LLMの長所を補完しつつ、その弱点を軽減できる専門化されたモジュールの開発の重要性を浮き彫りにしている。

Limitation

先行研究と比較して、本稿では医療応用におけるRAGを用いたLLMを4つの異なる実践的設定で包括的に評価することを目指している。その結果、多大な金銭的・計算的需要が生じ、実験の管理可能性を確保するために一部の側面を制限・簡略化せざるを得なくなった。本節では、我々が取り組んだこと、取り組めなかったことを概説し、我々の知見から導かれる有望な将来の方向性を提案する。

•

モデルアーキテクチャ：我々は限られたモデルアーキテクチャに焦点を当てている。将来の研究では、医療RAGアプリケーションにおいてより効率的なアーキテクチャ（例：アダプターベースのアーキテクチャ、量子化モデルなど）を探求することができる。さらに、最近の文献で提案されているような先進的なRAGアーキテクチャを調査することで、さらなる洞察が得られる可能性がある。
•

タスクの範囲：我々は質問応答タスクのみを扱っているが、将来の研究では他の医療NLPタスクにも拡張することができる。
•

インタラクションの複雑さ：我々の評価では単一ターンのプロンプトを使用した。マルチターンのインタラクションを用いることで、臨床現場におけるRAGシステムのより現実的な評価が可能となるであろう。

Conclusion

本稿は、医療質問応答（QA）タスクにおける検索拡張生成（RAG）設定での大規模言語モデル（LLMs）の評価を、信頼性の高い医療AI システムの重要な側面である十分性、統合性、堅牢性にまで拡張するものである。我々は、4つの医療QAデータセットに対して、検索トピック、シグナル文書、サブQAペア、および敵対的文書を提供する Medical Retrieval-Augmented Generation Benchmark (MedRGB) を作成した。 MedRGBを用いて、クローズドな商用LLMとオープンソースモデルの両方を含む幅広いLLMを評価し、各テストシナリオにおけるそれらの推論プロセスを評価した。我々の実験結果は、これらの実用的ではあるが複雑な状況に対処する上での現在のRAGシステムの限界を明らかにしている。我々の分析から得られた知見は、より信頼性が高く信頼できる医療RAGシステムを開発するための実践的なガイドラインと将来の方向性を提供している。

References

Chen et al. (2024a) Chen, H.; Fang, Z.; Singla, Y.; and Dredze, M. 2024a. Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions. arXiv:2402.18060.
Chen et al. (2024b) Chen, J.; Lin, H.; Han, X.; and Sun, L. 2024b. Benchmarking Large Language Models in Retrieval-Augmented Generation. In Wooldridge, M. J.; Dy, J. G.; and Natarajan, S., eds., Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI 2024, Thirty-Sixth Conference on Innovative Applications of Artificial Intelligence, IAAI 2024, Fourteenth Symposium on Educational Advances in Artificial Intelligence, EAAI 2014, February 20-27, 2024, Vancouver, Canada, 17754–17762. AAAI Press.
Chen et al. (2023) Chen, Z.; Hernández-Cano, A.; Romanou, A.; Bonnet, A.; Matoba, K.; Salvi, F.; Pagliardini, M.; Fan, S.; Köpf, A.; Mohtashami, A.; Sallinen, A.; Sakhaeirad, A.; Swamy, V.; Krawczuk, I.; Bayazit, D.; Marmet, A.; Montariol, S.; Hartley, M.; Jaggi, M.; and Bosselut, A. 2023. MEDITRON-70B: Scaling Medical Pretraining for Large Language Models. CoRR, abs/2311.16079.
Cui et al. (2023) Cui, J.; Li, Z.; Yan, Y.; Chen, B.; and Yuan, L. 2023. ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases. CoRR, abs/2306.16092.
Es et al. (2023) Es, S.; James, J.; Espinosa-Anke, L.; and Schockaert, S. 2023. RAGAS: Automated Evaluation of Retrieval Augmented Generation. arXiv:2309.15217.
He et al. (2023) He, Z.; Wang, Y.; Yan, A.; Liu, Y.; Chang, E. Y.; Gentili, A.; McAuley, J. J.; and Hsu, C. 2023. MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation. In Bouamor, H.; Pino, J.; and Bali, K., eds., Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, EMNLP 2023, Singapore, December 6-10, 2023, 8725–8744. Association for Computational Linguistics.
Hendrycks et al. (2021) Hendrycks, D.; Burns, C.; Basart, S.; Zou, A.; Mazeika, M.; Song, D.; and Steinhardt, J. 2021. Measuring Massive Multitask Language Understanding. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net.
Hiesinger et al. (2023) Hiesinger, W.; Zakka, C.; Chaurasia, A.; Shad, R.; Dalal, A.; Kim, J.; Moor, M.; Alexander, K.; Ashley, E.; Boyd, J.; Boyd, K.; Hirsch, K.; Langlotz, C.; and Nelson, J. 2023. Almanac: Retrieval-Augmented Language Models for Clinical Medicine.
Izacard et al. (2021) Izacard, G.; Caron, M.; Hosseini, L.; Riedel, S.; Bojanowski, P.; Joulin, A.; and Grave, E. 2021. Towards Unsupervised Dense Information Retrieval with Contrastive Learning. CoRR, abs/2112.09118.
Jin et al. (2020a) Jin, D.; Pan, E.; Oufattole, N.; Weng, W.; Fang, H.; and Szolovits, P. 2020a. What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams. CoRR, abs/2009.13081.
Jin et al. (2020b) Jin, D.; Pan, E.; Oufattole, N.; Weng, W.; Fang, H.; and Szolovits, P. 2020b. What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams. CoRR, abs/2009.13081.
Jin et al. (2019) Jin, Q.; Dhingra, B.; Liu, Z.; Cohen, W. W.; and Lu, X. 2019. PubMedQA: A Dataset for Biomedical Research Question Answering. In Inui, K.; Jiang, J.; Ng, V.; and Wan, X., eds., Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, EMNLP-IJCNLP 2019, Hong Kong, China, November 3-7, 2019, 2567–2577. Association for Computational Linguistics.
Jin et al. (2023) Jin, Q.; Kim, W.; Chen, Q.; Comeau, D. C.; Yeganova, L.; Wilbur, W. J.; and Lu, Z. 2023. MedCPT: Contrastive Pre-trained Transformers with large-scale PubMed search logs for zero-shot biomedical information retrieval. Bioinform., 39(10).
Krithara et al. (2023) Krithara, A.; Nentidis, A.; Bougiatiotis, K.; and Paliouras, G. 2023. BioASQ-QA: A manually curated corpus for Biomedical Question Answering. Scientific Data, 10: 170.
Lewis et al. (2020) Lewis, P. S. H.; Perez, E.; Piktus, A.; Petroni, F.; Karpukhin, V.; Goyal, N.; Küttler, H.; Lewis, M.; Yih, W.; Rocktäschel, T.; Riedel, S.; and Kiela, D. 2020. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.; and Lin, H., eds., Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual.
Lu (2011) Lu, Z. 2011. PubMed and beyond: a survey of web tools for searching biomedical literature. Database J. Biol. Databases Curation, 2011.
Nori et al. (2023) Nori, H.; King, N.; McKinney, S. M.; Carignan, D.; and Horvitz, E. 2023. Capabilities of GPT-4 on Medical Challenge Problems. CoRR, abs/2303.13375.
Peng et al. (2023) Peng, B.; Galley, M.; He, P.; Cheng, H.; Xie, Y.; Hu, Y.; Huang, Q.; Liden, L.; Yu, Z.; Chen, W.; and Gao, J. 2023. Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback. CoRR, abs/2302.12813.
Ram et al. (2023) Ram, O.; Levine, Y.; Dalmedigos, I.; Muhlgay, D.; Shashua, A.; Leyton-Brown, K.; and Shoham, Y. 2023. In-Context Retrieval-Augmented Language Models. Trans. Assoc. Comput. Linguistics, 11: 1316–1331.
Robertson and Zaragoza (2009) Robertson, S. E.; and Zaragoza, H. 2009. The Probabilistic Relevance Framework: BM25 and Beyond. Found. Trends Inf. Retr., 3(4): 333–389.
Wang et al. (2024) Wang, J.; Yang, Z.; Yao, Z.; and Yu, H. 2024. JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability. arXiv:2402.17887.
Wu et al. (2023) Wu, C.; Lin, W.; Zhang, X.; Zhang, Y.; Wang, Y.; and Xie, W. 2023. PMC-LLaMA: Towards Building Open-source Language Models for Medicine. arXiv:2304.14454.
Xiong et al. (2024) Xiong, G.; Jin, Q.; Lu, Z.; and Zhang, A. 2024. Benchmarking Retrieval-Augmented Generation for Medicine. CoRR, abs/2402.13178.
Zhou et al. (2023) Zhou, H.; Liu, F.; Gu, B.; Zou, X.; Huang, J.; Wu, J.; Li, Y.; Chen, S. S.; Zhou, P.; Liu, J.; Hua, Y.; Mao, C.; You, C.; Wu, X.; Zheng, Y.; Clifton, L.; Li, Z.; Luo, J.; and Clifton, D. A. 2023. A Survey of Large Language Models in Medicine: Progress, Application, and Challenge. arXiv:2311.05112.

Appendix A Experiment Details

Offline Retrieval

我々のオフライン検索プロセスでは、密な検索モデル（MedCPT）を使用して、オフラインコーパス（MedCorp）から関連文書を検索する。

MedCPT

(Jin et al. 2023) 対照的に事前学習された生物医学埋め込みモデルであり、クエリエンコーダー⁸⁸8https://huggingface.co/ncbi/MedCPT-Query-Encoderと記事エンコーダー⁹⁹9https://huggingface.co/ncbi/MedCPT-Article-Encoderから構成される。

MedCorp

(Xiong et al. 2024)はMedCorpを構成しているが、これは以下の4つの個別コーパスの組み合わせである：

•

Wikipedia 大規模なオープンソースの百科事典。処理されたデータはHuggingfaceからダウンロードされている¹⁰¹⁰10https://huggingface.co/datasets/wikipedia。
•

Textbooks (Jin et al. 2020b) 米国医師免許試験（USLME）のための18の人気のある参考教科書。
•

StatPearls (Xiong et al. 2024) NCBI Bookshelfから公開されている9,330のStatPearl記事¹¹¹¹11https://www.ncbi.nlm.nih.gov/books/NBK430685/。
•

Pubmed Pubmed (Lu 2011)のサブセットで、有効なタイトルと要約を持つ2390万の記事。

各コーパスは検索のために短いスニペットに分割されており、その統計は図2に示されている。

Corpus	Number of Docs	Number of Snippets	Average Length	Domain
PubMed	23.9 M	23.9 M	296	Biomedical
StatPearls	9.3 k	301.2 k	119	Clinics
Textbooks	18	125.8 k	182	Medicine
Wikipedia	6.5 M	29.9 M	162	General

表2: MedCorpコーパスの統計（(Xiong et al. 2024)より適用）。

Online Retrieval

我々のオンライン検索プロセスは、ResearchGPTリポジトリ¹²¹²12https://github.com/pbj224/ResearchGPTの類似プロセスに従っている。まず、前段階で得られた各検索トピックをクエリとして、Google Custom Search JSON API¹³¹³13https://developers.google.com/custom-search/v1/overviewを用いてウェブ検索を実行する。検索エンジンは、関連性スコアの高いウェブページのリンクの（未整列）リストを返す（ページスコアは、ページコンテンツの質、ページの人気度、他のサイトからのリンク数など、多数の要因によって決定される）。返されたリンクは、図21のプロンプトを用いてGPT-4oによってさらに評価され、与えられたメインの質問に対する関連性の順にランク付けされ、並べ替えられる。最後に、選択された各リンクのコンテンツが抽出され、図22のプロンプトに従ってGPT-4oによって要約され、メインの質問に対する最も重要な情報のみを含む単一の文書にまとめられる。

Retrieval Context Composition:

医療QAデータセットの各質問について、まず文書の総数と $p$ の値に基づいて、必要なシグナル文書とノイズ文書の数を決定する。次に、シグナル文書はその質問のシグナルセットからランダムにサンプリングされる。同様に、ノイズ文書は他の質問からのすべてのシグナル文書のセットからランダムにサンプリングされる。検索コンテキストは、シグナル文書とノイズ文書のIDとコンテンツをランダムな順序で集めることで構成される。

LLMs Details

表3は、本稿で評価したLLMの詳細を示している。非公開の商用LLM（GPT-3.5-turbo、GPT-4o、GPT-4o-mini）については、OpenAI Chat Completions API¹⁴¹⁴14https://platform.openai.com/docs/guides/text-generationを使用して応答を取得し、決定論的な出力を得るために温度を0に設定した。オープンソースモデル（PMC-Llama-13b、MEDITRON-70b、Gemma-2-27b、およびLlama-3-70b）は、2台のNVIDIA A100 80GB GPUを使用して実行した。 PyTorch 2.1.2¹⁵¹⁵15https://pytorch.org/get-started/pytorch-2.0/とHuggingface-Transformer 4.42.3 ¹⁶¹⁶16https://github.com/huggingface/transformersを使用してモデルを実装した。

Source code with specification of all dependencies, including external libraries:

我々のデータとソースコードは、本稿が採択された後に公開される予定である。

LLMs	Availability	Knowledge Cutoff	Number of Parameters	Context Length	Domain
GPT-3.5-turbo	Closed	Sep, 2021	20 billions*	16384	General
GPT-4o-mini	Closed	Oct, 2023	8 billions*	128000	General
GPT-4o	Closed	Oct, 2023	200 billions*	128000	General
PMC-Llama-13b	Open	Sep, 2023	13 billions	2048	Medical
MEDITRON-70b	Open	Aug, 2023*	70 billions	4096	Medical
Gemma-2-27b	Open	June, 2024*	27 billions	4096	General
Llama-3-70b	Open	Dec, 2023	70 billions	8192	General

表3: 我々の実験で使用したLLMの統計。*付きの数値は報告されているが確認されていない。

Experimental Results

我々は、十分性テスト、統合テスト、および頑健性テストの完全な実験結果の表を、それぞれ表4、5、および6に示す。

Step-by-step Reasoning Examples

図 17、18、および 19 において、我々は十分性テスト、統合テスト、および堅牢性テストにおけるモデルの段階的推論プロセスの例を示している。

5 doc	BioASQ						PubmedQA						MedQA						MMLU
Main Acc	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5	10.2	61.5	70.2	75.4	77.2	76.9	7.8	50.6	56.8	59.6	63.0	63.0	43.8	48.6	51.9	53.6	55.2	55.3	40.9	57.5	61.6	64.8	66.8	64.1
GPT-4o-mini	9.4	60.8	70.9	76.5	80.6	81.6	0.8	35.2	51.2	51.8	57.6	60.6	54.6	68.1	72.4	72.6	74.0	73.3	43.5	66.5	72.5	75.9	77.0	80.0
Llama-3-70b	6.0	54.1	67.5	74.3	78.3	80.1	0.2	34.2	49.8	52.0	58.2	60.2	56.0	63.2	66.3	67.6	69.1	70.8	40.5	65.5	73.1	74.8	74.3	75.6

Noise Acc	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5	78.4	99.2	91.5	83.7	71.2	58.3	78.0	99.2	93.0	82.5	68.5	52.9	74.6	96.5	90.7	76.7	63.3	46.4	72.5	94.9	91.4	80.0	65.1	48.8
GPT-4o-mini	94.5	99.0	85.8	80.5	72.8	61.7	77.1	98.0	91.2	82.5	73.1	62.9	93.8	80.0	68.9	58.1	49.2	50.1	99.1	84.0	70.4	59.7	50.9	46.6
Llama-3-70b	97.1	99.0	93.9	89.8	79.6	67.9	75.0	99.5	93.9	90.8	81.0	64.7	96.7	93.9	89.8	85.2	75.1	62.0	96.7	94.1	88.1	81.8	71.2	56.0
Num Insuf (%)	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5	82.2	16.5	7.8	5.7	5.3	5.2	83.8	5.6	2.6	3.8	2.2	1.8	24.4	6.7	2.8	2.4	2.7	2.3	40.2	11.9	5.1	4.3	3.3	1.9
GPT-4o-mini	90.0	25.9	14.2	8.9	6.8	6.2	97.2	14.2	2.8	2.2	1.4	1.8	31.7	10.1	3.6	1.8	1.2	1.1	52.4	20.6	13.3	7.7	7.1	5.1
Llama-3-70b	93.2	34.8	21.0	13.9	11.3	9.9	99.2	36.6	14.0	8.2	6.4	4.6	26.6	4.6	3.4	3.1	2.3	1.3	52.7	15.5	8.6	7.6	6.3	5.7

20 doc	BioASQ						PubmedQA						MedQA						MMLU
Main Acc	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5	20.6	76.9	76.4	79.6	79.9	81.9	11.2	58.6	62.8	64.8	68.0	70.4	48.2	55.1	55.8	56.1	57.1	59.1	32.1	66.1	67.1	67.2	67.9	66.8
GPT-4o-mini	16.8	75.6	84.5	85.8	85.9	85.3	2.0	54.2	64.8	66.4	69.0	69.0	73.4	74.0	72.4	74.6	76.1	76.8	73.7	79.6	78.7	81.6	83.6	84.3
Llama-3-70b	7.6	73.0	65.2	66.7	73.5	68.5	3.4	55.4	53.4	51.2	42.2	40.2	74.2	72.6	70.3	65.9	72.7	71.3	55.6	78.2	80.1	80.0	83.8	78.3

Noise Acc	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5	62.6	74.2	57.6	51.5	45.5	39.5	74.4	74.2	59.0	48.5	44.4	36.1	61.8	68.0	55.2	43.4	33.3	18.7	69.6	73.1	61.1	45.9	34.3	20.6
GPT-4o-mini	81.3	47.5	39.0	40.3	42.2	45.5	24.1	51.1	32.2	38.1	36.9	41.4	88.2	22.4	17.0	17.4	15.9	12.5	87.6	32.0	24.1	21.0	15.2	13.4
Llama-3-70b	95.3	77.7	57.9	55.3	61.6	48.1	91.2	77.4	61.2	53.4	46.0	33.5	82.3	77.9	65.5	56.9	54.8	40.3	91.1	84.3	70.6	63.9	58.7	39.3

Num Insuf	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5	66.3	2.6	1.3	2.1	1.3	1.9	74.2	1.6	0.4	0.2	0.0	0.6	17.3	2.3	1.7	1.0	1.6	0.9	53.3	4.2	2.9	1.9	1.7	1.6
GPT-4o-mini	79.1	2.8	1.6	1.3	1.5	1.5	82.8	0.6	0.6	0.2	0.2	0.2	3.0	0.9	0.4	0.3	0.5	0.5	15.9	2.1	1.4	1.5	1.0	1.2
Llama-3-70b	85.3	3.7	1.3	1.6	1.3	1.5	80.6	0.8	0.2	0.2	0.0	0.0	3.6	0.5	0.3	0.2	0.2	0.3	35.5	2.9	2.4	1.6	1.5	2.0

表 4: 十分性テストの完全な結果表。主要質問の正確性、ノイズ検出の正確性、および不十分な情報応答の数（データセットの割合）を含む。

5 doc	BioASQ						PubmedQA						MedQA						MMLU
Main Acc	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5		66.3	72.2	78.2	79.0	82.9		45.2	52.4	58.6	60.6	63.4		57.3	55.9	55.7	56.3	56.4		66.0	66.8	68.5	67.8	66.9
GPT-4o-mini		73.0	78.2	82.4	83.5	85.6		40.6	52.0	55.0	57.2	60.2		72.2	72.7	72.9	73.1	72.6		80.5	81.7	81.7	81.3	82.5
Llama-3-70b		59.4	72.2	79.9	82.7	84.8		35.8	53.0	57.6	61.2	63.2		66.5	68.0	68.1	68.7	70.1		71.9	74.0	75.1	74.7	75.7

Sub Acc (exact)	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5		26.9	28.2	28.6	29.1	30.6		28.4	30.8	31.7	32.9	33.0		29.6	31.0	31.4	31.7	33.2		28.2	29.0	29.8	29.9	30.1
GPT-4o-mini		21.0	21.8	23.8	25.0	26.3		25.6	25.4	27.9	29.2	29.6		25.2	26.3	27.6	28.2	28.9		21.7	23.3	24.0	24.0	25.7
Llama-3-70b		24.9	26.1	27.3	28.8	29.6		29.4	31.1	33.1	33.6	35.2		27.3	30.3	31.3	32.1	32.6		23.6	26.3	27.5	27.7	28.8

Sub Acc (gpt)	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5		80.9	80.9	80.3	79.8	80.9		82.0	82.4	82.5	81.6	82.6		80.2	81.1	81.6	81.3	81.8		78.6	79.4	79.8	80.0	79.4
GPT-4o-mini		80.4	81.3	82.4	81.6	81.7		81.3	81.9	82.6	82.1	82.8		81.3	81.9	82.4	82.1	82.2		79.0	79.9	80.1	79.9	80.3
Llama-3-70b		80.1	80.2	80.7	80.4	81.0		82.0	82.9	83.2	82.9	83.5		81.3	82.0	82.4	82.9	82.7		80.0	80.8	81.1	80.6	81.0

10 doc	BioASQ						PubmedQA						MedQA						MMLU
Main Acc	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5		73.5	80.3	82.7	83.2	83.8		56.6	62.8	65.0	67.6	69.0		55.7	55.0	58.3	58.6	59.6		67.2	67.9	67.6	68.9	68.3
GPT-4o-mini		79.5	83.8	86.1	89.0	89.6		51.6	58.6	62.6	65.6	66.2		73.1	73.7	74.2	75.2	74.0		82.4	82.3	82.2	82.4	84.1
Llama-3-70b		74.0	83.0	84.3	89.2	89.6		54.2	63.6	65.0	68.6	69.4		71.2	70.7	72.4	74.0	74.0		75.8	77.1	78.5	78.2	80.8

Sub Acc (exact)	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5		28.0	29.0	27.9	27.2	27.9		30.8	32.8	33.1	32.8	33.4		30.8	31.5	31.5	32.1	32.8		28.2	29.4	29.3	30.0	30.7
GPT-4o-mini		21.2	25.2	26.1	25.9	26.8		25.6	28.3	30.5	30.9	32.9		25.7	27.4	28.7	30.1	30.3		23.1	24.0	25.9	26.8	27.2
Llama-3-70b		26.0	27.7	28.7	29.8	31.0		30.6	34.0	36.3	37.9	38.9		30.7	32.1	32.4	33.4	33.2		25.9	27.5	29.3	29.8	30.8

Sub Acc (gpt)	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5		80.3	79.2	76.2	75.9	78.2		82.2	81.8	81.2	80.6	81.1		81.1	81.0	80.5	80.4	81.4		78.5	78.4	77.8	77.7	79.0
GPT-4o-mini		81.0	81.6	80.7	80.2	80.7		82.6	81.5	82.3	81.6	82.4		81.7	81.8	82.0	82.1	82.2		79.6	79.7	79.8	80.2	80.4
Llama-3-70b		79.8	79.8	80.1	79.7	80.6		82.7	82.6	82.8	82.5	83.2		81.9	82.1	82.6	82.8	83.1		79.7	79.9	80.4	80.9	81.3

表 5: 統合テストの完全な結果表。主要質問の正確性および副質問の正確性（完全一致およびGPTベース）を含む。

5 doc	BioASQ						PubmedQA						MedQA						MMLU
Main Acc	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5	63.3	67.8	72.3	76.2	77.0	79.8	41.6	45.2	48.2	54.6	56.6	64.4	50.4	51.7	53.3	53.3	55.2	56.7	60.1	61.8	62.4	64.5	65.8	65.8
GPT-4o-mini	70.6	76.1	78.5	81.1	84.3	85.3	40.8	45.4	48.4	50.2	53.6	59.4	71.4	70.8	71.1	71.9	72.6	71.4	80.4	80.5	80.9	80.6	80.9	81.4
Llama-3-70b	68.3	70.4	75.6	80.6	81.4	84.0	42.2	44.8	49.4	51.4	57.0	62.8	67.3	67.1	66.4	69.8	70.2	71.9	69.9	72.9	71.9	75.0	73.9	76.0

Sub Acc (exact)	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5	0.7	8.2	14.1	23.4	28.5	35.5	0.2	9.2	17.9	27.7	36.3	46.1	0.3	8.7	15.8	24.1	30.8	38.4	0.3	7.7	14.0	21.5	27.5	34.4
GPT-4o-mini	0.9	6.2	10.7	17.1	22.5	27.9	0.3	7.1	13.2	21.0	27.0	35.0	0.8	6.9	12.6	19.7	25.4	31.9	1.1	5.9	11.0	17.3	21.5	27.0
Llama-3-70b	0.8	8.2	14.0	20.9	28.0	35.1	0.2	9.8	18.1	27.8	35.7	45.9	0.7	8.7	15.6	23.8	30.1	37.8	0.9	8.1	13.9	20.9	26.9	33.7

Sub Acc (gpt)	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5	4.5	20.4	33.8	50.3	64.0	79.7	1.8	17.9	33.1	50.5	65.2	81.3	2.0	18.8	34.5	50.1	66.0	82.1	2.5	18.5	33.3	49.7	64.7	80.0
GPT-4o-mini	9.1	24.9	38.6	53.8	67.2	82.0	3.0	19.9	35.0	52.0	66.9	83.4	6.9	23.1	38.6	54.5	69.6	84.6	8.0	23.1	37.9	53.3	67.8	82.4
Llama-3-70b	6.9	22.9	36.3	52.0	66.2	82.0	2.6	19.3	34.6	51.5	67.6	83.8	4.6	21.7	37.6	53.2	68.7	85.2	6.0	21.8	37.2	52.6	67.5	83.4

Fact Detect	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%	0%	20%	40%	60%	80%	100%
GPT-3.5	28.8	45.2	55.1	67.7	76.0	88.1	15.3	33.4	49.6	64.4	78.7	94.4	16.2	36.3	51.1	64.5	79.0	93.2	17.9	37.0	50.6	63.8	77.5	92.0
GPT-4o-mini	13.6	33.1	50.0	66.7	81.4	96.8	10.0	29.5	48.0	64.6	80.6	98.2	14.4	35.2	49.8	66.0	79.4	94.7	14.3	33.9	49.5	65.6	79.9	95.0
Llama-3-70b	8.3	27.4	44.6	63.5	80.1	99.5	8.2	27.8	45.2	63.3	81.1	99.9	13.9	32.4	49.7	65.6	82.3	99.5	13.2	32.3	49.0	64.9	82.0	99.3

10 doc	BioASQ						PubmedQA						MedQA						MMLU
Main Acc	0%	20%	40%