Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering
Abstract
検索拡張生成(RAG)は、医療分野のような知識集約型タスクにおいて大規模言語モデル(LLM)の性能を向上させる有望なアプローチとして注目されている。 しかし、医療分野の機微な性質上、完全に正確で信頼できるシステムが必要とされる。 既存のRAGベンチマークは主に標準的な検索-回答設定に焦点を当てているが、信頼性の高い医療システムの重要な側面を測定する多くの実践的なシナリオを見落としている。 本稿は、この課題に対処するため、十分性、統合、堅牢性などの状況に対するRAG設定での医療質問応答(QA)システムの包括的な評価フレームワークを提供する。 我々は、Medical Retrieval-Augmented Generation Benchmark(MedRGB)を導入し、4つの医療QAデータセットに対して、これらの特定のシナリオを扱うLLMの能力をテストするための様々な補足要素を提供する。 MedRGBを活用し、最先端の商用LLMとオープンソースモデルの両方について、複数の検索条件下で広範な評価を実施する。 我々の実験結果は、検索された文書内のノイズや誤情報を扱う現在のモデルの能力の限界を明らかにしている。 さらに、LLMの推論プロセスを分析し、この重要な医療分野におけるRAGシステムの開発に向けた貴重な洞察と今後の方向性を提供する。
Introduction
大規模言語モデル(LLM)は、複雑な医療問題を解決する上で顕著な能力を示し、様々なベンチマークで最先端の性能を達成している。 しかし、人工知能(AI)医療システムの信頼性と真実性を確保することは、特に医療応用において重要な課題であり続けている。 検索拡張生成(RAG)は、外部知識源を統合することでLLMの幻覚問題を軽減する有望なアプローチとして登場した。
RAGはLLMの応答の事実的正確性を向上させる可能性がある一方で、情報検索機能を組み込むことで新たな複雑さも生じ、慎重な評価が必要となる。 図1の例を考えてみよう。検索された文書には、正解を決定するのに役立つ有用な知識だけでなく、ノイズ情報、さらには深刻な場合、LLMを誤導する可能性のある事実誤認も含まれる可能性がある。 医療QAにRAGを意識的に適用するためには、これらの実践的なシナリオを考慮し、LLMが検索された文書と信頼性高く相互作用する能力を評価しなければならない。
最近、医療分野におけるLLMを用いたAIシステムを評価する取り組みがなされている(Nori et al. 2023; He et al. 2023; Xiong et al. 2024)。 例えば、MedEval (He et al. 2023)は、様々な医療タスクと領域をカバーする大規模な専門家注釈付きベンチマークを提示している。 (Xiong et al. 2024)は、5つの医療QAデータセットをカバーするMIRAGEベンチマークに基づいてRAGを広範に評価している。 しかし、これらは目標精度に対するRAGモジュールの効果のみに焦点を当てており、AIメディカルシステムの他の重要な側面を見逃している。
近年、いくつかの研究が一般領域におけるRAG評価をより包括的に探究している(Es et al. 2023; Chen et al. 2024b)。 RAGAS (Es et al. 2023)は、QAタスクにおけるRAGの出力の3つの品質を評価している。これには以下が含まれる: 忠実性 - 応答が提供されたコンテキストにどの程度一致しているか、 回答の関連性 - 生成された応答が実際に提起された質問にどの程度対応しているか、 コンテキストの精度と再現率 - 検索されたコンテキストの質。 我々は(Chen et al. 2024b)の研究に従い、RAGに必要な4つの能力(ノイズに対する頑健性、否定的情報の拒否、情報統合、反事実的頑健性)を測定するための検索拡張生成ベンチマーク(RGB)を確立している。 特に、MIRAGEの4つの医療QAデータセットからの質問を基に、我々は医療検索拡張生成ベンチマーク(MedRGB)を作成し、以下の4つのテストシナリオでRAGシステムを評価する:
-
•
標準RAG: 複数の検索されたシグナル文書が提示された際に、質問に答えるためのコンテキストを作成するLLMのパフォーマンスを評価する。
-
•
十分性: 検索されたコンテキスト内にノイズ文書が存在する場合のLLMの信頼性を評価する。「情報不足」を追加の回答オプションとして加えることで、LLMは正しい回答を決定するのに十分な情報があると確信できる場合にのみ回答すべきである。これにはLLMが自身の内部知識を認識するだけでなく、外部文書からのノイズ情報をフィルタリングする能力も必要とされる。
-
•
統合: LLMが複数の補助質問に答え、抽出した情報を統合して主要な質問に対処する能力を評価する。
-
•
頑健性: 検索されたコンテキスト内の事実誤認に対するLLMの回復力を評価する。信頼できるAI医療システムは、事実的に不正確な文書を検出し、修正された情報を提供できるべきである。
MedRGBは全体で4つのテストシナリオに対して3480のインスタンスで構成されており、これはRGBの5倍以上である。 MedRGBを用いて、我々は最先端の商用LLMとオープンソースモデルの両方を含む7つのLLMを評価した。 要約すると、本稿の貢献は以下の3点である:
-
•
我々は、RAG設定における医療QAタスクのためのLLMを評価するために、4つのテストシナリオを持つMedRGBを確立した。我々の知る限り、これは実践的な設定でこれらの医療RAGシステムを包括的に評価する最初のベンチマークである。
-
•
MedRGBを使用して、我々は最先端の商用LLMとオープンソースモデルの両方を含む7つのLLMを、複数のRAG条件にわたって広範に評価した。実験結果は、より複雑なシナリオに対処する上での彼らの限界を示している。
-
•
我々はLLMのエラーとその推論プロセスを分析し、より信頼性が高く信頼できる医療RAGシステムを開発するための洞察を提供し、将来の方向性を示唆した。
Related Work
Medical Retrieval-augmented Generation
医療分野におけるLLMの応用は高度な精度と信頼性を要求するが、現在のほとんどのLLMはこれらの点でまだ課題を抱えている(Zhou et al. 2023)。 検索拡張生成(RAG)(Lewis et al. 2020)は、LLMが生成プロセスに外部の知識源を統合することを支援することでこの問題に対処している。 最近の研究では、知識集約型タスクにおいてRAGを活用することで成功を収めている(Cui et al. 2023; Peng et al. 2023; Ram et al. 2023)。 特に医療分野においては、(Hiesinger et al. 2023; Wang et al. 2024; Xiong et al. 2024)がヘルスケアおよび臨床タスクにおけるRAGの探索を行っている。
Medical Benchmarks
これまでの医療ベンチマークは、通常、QAペアのみで構成される医療問題の目標性能にのみ焦点を当てていた(Jin et al. 2020a, 2019; Krithara et al. 2023)。 最近のベンチマークの中には、LLMが推論を行うための証拠も含めているものもある(Chen et al. 2024a)。 現在の医療分野におけるLLMの体系的評価のほとんどはRAGを含んでいない(He et al. 2023; Nori et al. 2023)。 (Xiong et al. 2024)は医療分野におけるRAGシステムの体系的評価を提供しようと試みている。 我々は彼らの研究を基に、様々な実践的設定における医療RAGシステムの重要な基準をさらに評価する。
Medical Retrieval-Augmented Generation Benchmark
MedRGBの作成プロセスは図2に示されており、検索トピックの生成、文書検索、ベンチマークの作成という3つの主要なステップを含んでいる。
Medical QA Dataset
MedRGBの基礎は、MIRAGEからの4つの医療QAデータセットの多肢選択問題であり、医学試験から2つ(MMLUとMedQA)、生物医学研究から2つ(PubMedQA、BioASQ)が含まれる。
MMLU
MedQA
PubMedQA
BioASQ
Topic Generation
従来のQAタスクにおけるRAGセットアップでは、密なリトリーバーが入力質問を高次元ベクトルにエンコードし、外部コーパスから意味的に類似した段落を見つける。 コサイン類似度などの類似度指標に基づいて上位k個の文書が選択され、それらが結合されてLLMが元の質問に答えるためのコンテキストが作成される。 この手法では、類似度指標を使用する際の多様性の欠如により、検索されたセットに冗長性が生じることが多い。 この制限に対処するため、我々はまず図3のプロンプトを用いてLLMに多様な検索(サブ)トピックのセットを生成させる。 各トピックは上記のプロセスに従って、より小さな関連文書のセットを作成する。 これらのセットは集約され、元のQAペアに対する最終的な検索セットが作成される。
Document Retrieval
我々はMedRGBに2つの検索プロセスを組み込み、専門家と非専門家の使用ケースにおける現実世界の違いをシミュレートしている。
Offline Retrieval Process
専門家の使用ケースでは、検索コーパスには一般に公開されるべきではない高度に専門的な情報が含まれているべきである。 我々は、PubMed、StatPearls、教科書、Wikipediaを含む4つの異なるソースからの医療文書を含むMedCorp (Xiong et al. 2024) をオフラインコーパスとして使用している。 前のステップからの検索トピックは、生物医学領域の密な検索器であるMedCPT (Jin et al. 2023) によってエンコードされ、関連文書のコーパスを検索するために使用される。 我々は、一般領域の検索器であるContriever (Izacard et al. 2021) や語彙的検索器であるBM25 (Robertson and Zaragoza 2009) ではなく、MedCPTを選択した。これは、(Xiong et al. 2024) で示されているように、医療領域からの検索において一貫したパフォーマンスを示すためである。各検索トピックに対して上位3つの文書が収集され、検索セットが作成される。
Online Retrieval Process
非専門家の使用ケースでは、ユーザーは単に一般的なLLMに質問し、LLMはユーザーの質問に答えるためにオンライン検索エンジンを通じて文書を検索する。 元の医療質問それぞれに対して、生成されたサブトピックはGoogle Custom Search API111https://developers.google.com/custom-search/v1/overviewを通じてインターネットに問い合わせるために使用され、最高スコアのリンクが返される。 各検索されたリンクからのコンテンツは抽出され、要約され(LLMによって)、対応するトピックの単一文書が作成される。
Benchmark Creation
本節では、4つのテストシナリオそれぞれの構築プロセスについて説明する。標準RAGテスト以外の3つの設定では、検索されたコンテキスト内のシグナル文書の割合を示す変数によって指定される複数のノイズレベルにわたって評価が行われる。
Standard-RAG Test
この設定では、検索されたコンテキストは、シグナルセットからサンプリングされた事前に定義された数のシグナル文書で構成される。 LLMは、図4のプロンプトを用いて、まず段階的な推論を生成し、その後回答オプションを出力するよう指示される。
Sufficiency Test
各質問に対して、我々はシグナル文書と無関係なノイズ文書の両方をサンプリングし、がの範囲内にある検索セットを作成する。 混合されたコンテキストが与えられると、LLMは図5に従ってプロンプトされ、「情報不足」というオプションを追加して質問に答えるよう指示される。 LLMは、まずノイズ文書を検出し、その後関連文書のみに基づいて段階的な推論を進めるよう指示される。
Integration Test
Robustness Test
ロバストネステストは、特に誤情報を引き起こすように敵対的に設計された事実誤認に対するLLMの耐性を測定することを目的としている。 統合テストの副質問に基づいて、我々は図8のプロンプトを使用して、副回答と対応する文書の両方を変更し、反事実的な例を作成する。 敵対的な回答は、元の回答と意味的に矛盾するべきであり、関連文書は説得力のある方法で最小限に編集されるべきである。 このテストでは、検索されたコンテキスト内のすべての文書が関連しており、は事実的に正しい文書の割合である。 LLMは、図8のプロンプトに従って、副質問と主要な質問に答える前に、事実的に不正確な情報を含む文書を検出するよう指示される。
BioASQ | PubmedQA | MedQA | MMLU | |||||||||||||||||
Offline Retrieval | Online Retrieval | Offline Retrieval | Online Retrieval | Offline Retrieval | Online Retrieval | Offline Retrieval | Online Retrieval | |||||||||||||
LLMs | No Retrieval | 5 doc | 20 doc | 5 doc | 20 doc | No Retrieval | 5 doc | 20 doc | 5 doc | 20 doc | No Retrieval | 5 doc | 20 doc | 5 doc | 20 doc | No Retrieval | 5 doc | 20 doc | 5 doc | 20 doc |
GPT-3.5 | 77.7 | 81.2 | 87.2 | 87.2 | 87.9 | 49.8 | 59.6 | 71.0 | 58.4 | 60.6 | 68.3 | 63.0 | 67.3 | 68.0 | 68.4 | 76.3 | 70.3 | 73.0 | 75.7 | 74.8 |
GPT-4o-mini | 82.9 | 85.3 | 90.5 | 89.0 | 90.0 | 47.0 | 60.8 | 71.8 | 60.6 | 61.2 | 79.2 | 77.1 | 79.5 | 79.0 | 80.6 | 88.3 | 84.6 | 87.3 | 86.0 | 87.1 |
GPT-4o | 87.9 | 86.1 | 90.8 | 87.4 | 87.4 | 52.6 | 59.2 | 71.2 | 53.2 | 54.4 | 89.5 | 83.7 | 86.9 | 84.6 | 86.9 | 93.4 | 88.3 | 90.1 | 89.5 | 89.1 |
PMC-LLAMA-13b | 64.2 | 64.6 | 64.6 | 63.9 | 64.1 | 55.4 | 54.0 | 54.0 | 54.8 | 54.6 | 44.5 | 38.9 | 38.8 | 43.4 | 43.7 | 49.7 | 43.7 | 44.0 | 48.4 | 48.2 |
MEDITRON-70b | 68.8 | 74.0 | 74.8 | 79.8 | 79.2 | 53.0 | 53.4 | 47.8 | 58.8 | 46.8 | 51.7 | 56.0 | 57.4 | 61.8 | 62.9 | 65.3 | 65.1 | 66.3 | 67.6 | 69.3 |
GEMMA-2-27b | 80.3 | 83.3 | 88.7 | 88.7 | 89.2 | 41.0 | 52.0 | 59.0 | 52.6 | 49.4 | 71.2 | 69.8 | 71.7 | 75.9 | 76.9 | 83.5 | 77.9 | 82.5 | 82.2 | 83.6 |
Llama-3-70b | 82.9 | 84.6 | 89.3 | 89.3 | 89.3 | 59.2 | 77.6 | 70.8 | 59.4 | 59.2 | 82.9 | 73.6 | 79.4 | 76.1 | 78.3 | 85.2 | 77.6 | 83.4 | 81.8 | 83.8 |
Experiments
本節では、MedRGBの4つのシナリオにおいて様々なLLMを評価し、その推論プロセスを分析し、実験結果から得られた主要な知見について議論する。
Evaluation Setting
我々は、MedRGBを用いて最先端のLLMを幅広く評価する。非公開の商用LLMについては、OpenAIのGPT-3.5222https://platform.openai.com/docs/models/gpt-3-5-turboとGPT-4o333https://platform.openai.com/docs/models/gpt-4oの両方を評価する。さらに、最近のGPT-4o-mini444https://platform.openai.com/docs/models/gpt-4o-miniも評価対象とする。これはフルサイズの対応モデルとほぼ同等の性能を達成している555https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/。 オープンソースカテゴリーでは、汎用LLMとドメイン特化型の微調整モデルの両方を検討する。前者には、MicrosoftのGemma-2-27b666https://huggingface.co/google/gemma-2-27b-it-pytorchとMetaのLlama-3-70b777https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instructが含まれる。 ドメイン特化型モデルについては、医療分野で事前学習されたMEDITRON-70b (Chen et al. 2023)とPMC-Llama-13b (Wu et al. 2023)を含める。これらは医療応用に特化したモデルである。
Standard-RAG Evaluation
表1は、全ての検討対象LLMの3つの設定における精度を示している:ベースラインの「検索なし」と、コンテキストとして5つおよび20の信号文書を検索する標準RAG設定である。
Results
GPT-4oは、ほとんどの設定において最高の性能を示し、パラメータと学習データの両方のスケーリングの正の効果を実証している。 驚くべきことに、GPT-4o-miniは報告されているパラメータ数が80億に過ぎないにもかかわらず、より大規模なモデルに匹敵する結果を達成した。 オープンソースモデルの中では、Gemma-2-27bとLlama-3-70bが強力な性能を示し、ゼロショット設定における一般領域の指示調整モデルの有効性を強調している。対照的に、PMC-Llama-13やMEDITRON-70bのような領域特化型の微調整モデルは、両者とも混在した結果を生み出している。
RAGの有効性は様々な要因によって異なる。 GPT-4oやLlama-3-70bのような強力な内部知識を持つ大規模モデルは、GPT-4o-miniやGemma-2-27bのような小規模モデルと比較してRAGの恩恵を受けにくい。 一般的に、検索される文書を増やすことで性能は向上するが、コンテキスト長が短いモデル(例:PMC-Llama-13b、MEDITRON-70b)はこの追加情報を十分に活用することが困難であり、わずかな改善にとどまっている。
Analysis
興味深いことに、文書量の影響は2つの検索ソース間で異なる。 検索ベースのオンライン検索は、少ない文書数で最高の性能を発揮することが多いが、MedCorpを使用したオフライン検索は文書数が増えるほど改善される傾向にある。 この差異は、各検索アルゴリズムと検索ソースの性質に起因する可能性が高い。Google検索は上位の結果で高品質な情報を提供する傾向があるが、結果数が増えるにつれてノイズも増加する。対照的に、MedCPTを用いたMedCorpからの検索は、より一貫して関連性の高い高品質な文書を提供し、より多くの量でも潜在的に価値がある可能性がある。 我々は、GPT-4oとLlama-3-70bにRAGを適用した際、MMMLUとMedQAにおいてわずかな悪影響も観察した。これは、これらのモデルの強力な内部知識と、より一般的なデータセットにおける潜在的なデータ漏洩の問題に起因する可能性がある。
以下の評価では、RAG設定におけるLLMのより具体的な能力に焦点を当てる。計算とコストの制約により、商用LLMについてはGPT-3.5とGPT-4o-mini(GPT-4oの100分の1のコストでありながら、比較的同等の結果を達成する)に、そしてオープンソースモデルについては最良のモデルであるLlama-3-70bに焦点を当てる。
Sufficiency Evaluation
Result
において、モデルは主に「情報不足」を返すことが観察される。 しかし、シグナルの割合が0から20に増加するにつれて、すべてのデータセットで精度が大幅に向上する。 これは、わずかな量のシグナルでもモデルの回答に対する自信が大きく向上することを示している。 ただし、シグナル文書がさらに追加されても改善は減少する。 検索されたコンテキストがすべてシグナル文書を含む場合()でも、標準的なRAG設定と比較して性能は劇的に低下する。 これは、標準的なRAGテストでは、モデルが完全に自信がない場合や十分なコンテキストがない場合でも質問に回答しようとする可能性があることを示唆しており、医療応用においては望ましくない特性となり得る。
Llama-3-70bは、すべてのデータセットと設定において、ノイズ検出で一貫して他のモデルを上回る性能を示す。 検索文書を増やすと、一般的にコンテキストが増えるため、「情報不足」の応答が減少し、性能が向上する。 しかし、これによってノイズ検出の精度も低下し、モデルがノイズ文書をシグナルの一部として誤って解釈することがある。これは、正確な回答のための十分なコンテキストを提供することと、関連情報をノイズから識別する能力を維持することのバランスの難しさを浮き彫りにしている。
Analysis
図12は、の低い値ではすべてのモデルがノイズ検出の精度が高いが、シグナルの割合が上昇するにつれてこの精度が低下することを示している。 特に、では、モデルは文書を完全に無視し、内部知識のみに依存する傾向がある。 これによりノイズ文書の検出は容易になるが、モデルが回答するための内部知識を持っている場合でも「情報不足」の応答につながる可能性がある。 驚くべきことに、コンテキストがシグナル文書のみで構成される場合()、モデルはそれらを関連性があるものとして識別することに苦戦する。 我々は、関連文書の「具体的な説明」がない場合、シグナル文書のみが存在する時にモデルの内部的な関連性の基準がはるかに厳しくなると仮説を立てている。 対照的に、検索されたコンテキストにノイズとシグナルが混在している場合、モデルはノイズ文書とシグナル文書の内容を区別する基準をより効果的に推論できる。 最後に、において、ノイズのない設定と比較してわずかな性能向上が見られる場合がある。 これは、少量のノイズを導入することが有益である可能性を示唆しており、ドロップアウトトレーニングの概念と類似している。ノイズは特定のパターンへの過適合を防ぐことでモデルの一般化を助けるのと同様に、この手法は、評価のためのより多様なコンテキストを提供することで、モデルの関連情報を識別する能力を向上させる可能性がある。
Integration Evaluation
図13は、モデルが副問に答えることで得た情報を統合した後の主問の正確性を示している。 さらに、図14では、2つの指標を用いて副問の正確性を測定している。 1つは抽出型QAタスクに対する厳密な完全一致スコアであり、もう1つは図10のプロンプトを使用したGPTベースのより寛容なスコアである。 この指標の直感的な理由は、これらが副問であるため、その厳密な正確性はそれほど重要ではないということである。比較的正確で主問の答えを推論するのに役立つ副問の回答も評価されるべきである。
我々は取得する文書数を10に制限している。これは、副タスクの含有により、以前の設定よりもはるかに長いコンテキスト長が必要とされたためである。 は20から始まっており、これは副問を問うための信号文書が少なくとも1つあることを保証している。
Result
十分性評価と比較すると、副問の導入によりにおいて主問の正確性が大幅に向上している。 これは、信号文書よりもノイズ文書が多い場合、特に副問が有用であることを示唆している。 しかし、標準的なRAG設定と類似した検索コンテキストであるでは、モデルのパフォーマンスがわずかに低下していることが観察され、副タスクからの情報を効果的に統合する能力の不足を示している。 副タスクのパフォーマンスに関しては、完全一致の正確性は比較的低く、20〜30パーセントの範囲である。 対照的に、GPTベースのスコアはすべての設定で一貫して80%以上を維持している。 これは、副タスクのパフォーマンスの最適化を目指すことが主タスクにとって有用でない可能性があることを示唆している。
Analysis
この評価は、特にノイズが存在する場合、副問の統合が有益であることを示している。副問はモデルが関連情報を特定する際の指針となり、それによって主問の正確性を向上させる。 しかし、副問はモデルの推論を与えられた質問のみに制限し、他の関連する側面を探索する能力を制限する可能性もある。 これはMMLUとMedQAデータセットで明らかであり、主問の正確性の向上があまり顕著ではない。 副問/信号文書の数を大幅に増やすことでこの問題に対処できるが、それによって副タスクがはるかに困難になり、より多くのタスク失敗(例:指示に従えない、長いコンテキストに苦戦する、副問をスキップするなど)につながる可能性がある。
Robustness Evaluation
我々は、検索された文書内の誤情報を検出し処理する能力、および事実に反する情報が存在する状況下で質問に答える性能について、モデルを評価する。 統合テストと同様に、図15は主要な質問の正確性を示し、図16はサブタスクのスコアとモデルの事実誤り検出率を提示している。
Results
一般に、誤情報の存在はメインタスクにおけるモデルの全体的な性能を低下させる。事実に正確な文書の数が徐々に増加するにつれて、正確性の向上が観察される。 しかし、十分性テストでの性能と比較すると、モデルは関連性のないノイズのある文書よりも誤情報の存在下でより良い性能を示すことがわかる。これは、モデルが敵対的な文書から情報を活用して正確性を向上させることができることを示しており、信頼性の高いシステムにとっては問題となる可能性がある。 が低い場合、つまり検索されたコンテキストが主に敵対的な文書である場合、モデルはすべての誤情報のインスタンスを識別するのに苦労することが観察される。 興味深いことに、GPT-3.5は最も性能の低いモデルでありながら、最も高い事実誤り検出率を示している。
Analysis
我々は、モデルが偽情報の検出に失敗することが多く、その結果、高い偽陽性率を示し、ほとんどの場合、誤情報を真実として受け入れていることを観察した。 したがって、の値が小さい場合、モデルは対応する文書の情報が事実上正しいかのようにサブ質問に答えるため、サブタスクのスコアは低くなる。 偽情報がモデルの推論に使用されることがあり、主要な質問に対する不正確な回答につながる。 これは、事実の不正確さを見分ける能力が医療RAGシステムにとって不可欠であるため、改善が必要な重要な領域を浮き彫りにしている。 興味深いことに、GPTベースのサブタスクのスコアは、統合テストでは一貫して80を超えているのに対し、が低い場合には低いままである。 これは、検索されたコンテキスト内に誤情報が存在することを示す潜在的な指標かもしれない。
Discussion
医療質問応答のための検索拡張生成(RAG)システムに関する我々の包括的な評価は、これらのモデルの能力と限界について、いくつかの重要な洞察を浮き彫りにしている。 本節では、これらの発見について議論し、いくつかの重要な洞察と将来の研究の潜在的な方向性を明らかにする。
Evaluation Criteria in Medical Domain
医療応用においては、性能、十分性、統合、堅牢性を含むすべての評価基準が高水準で満たされなければならない。 我々の結果は、モデルが標準的なRAG設定で高い性能を達成できる一方で、他の面ではまだ不十分であることを示している。 将来の研究は、単に目標精度の最適化に焦点を当てるのではなく、これらの複雑だが実用的なシナリオに対処するLLMの能力を向上させることを目指すべきである。
Specialized Components for RAG Systems
実験結果は、単にLLMに依存するだけでは、完全に信頼できる医療システムには不十分であることを明確に示している。 最先端のモデルでさえ、複雑な統合タスクに苦戦し、ノイズや誤情報に対して脆弱であった。 これは、LLMの長所を補完しつつ、その弱点を軽減できる専門化されたモジュールの開発の重要性を浮き彫りにしている。
Limitation
先行研究と比較して、本稿では医療応用におけるRAGを用いたLLMを4つの異なる実践的設定で包括的に評価することを目指している。 その結果、多大な金銭的・計算的需要が生じ、実験の管理可能性を確保するために一部の側面を制限・簡略化せざるを得なくなった。 本節では、我々が取り組んだこと、取り組めなかったことを概説し、我々の知見から導かれる有望な将来の方向性を提案する。
-
•
モデルアーキテクチャ: 我々は限られたモデルアーキテクチャに焦点を当てている。将来の研究では、医療RAGアプリケーションにおいてより効率的なアーキテクチャ(例:アダプターベースのアーキテクチャ、量子化モデルなど)を探求することができる。さらに、最近の文献で提案されているような先進的なRAGアーキテクチャを調査することで、さらなる洞察が得られる可能性がある。
-
•
タスクの範囲: 我々は質問応答タスクのみを扱っているが、将来の研究では他の医療NLPタスクにも拡張することができる。
-
•
インタラクションの複雑さ: 我々の評価では単一ターンのプロンプトを使用した。マルチターンのインタラクションを用いることで、臨床現場におけるRAGシステムのより現実的な評価が可能となるであろう。
Conclusion
本稿は、医療質問応答(QA)タスクにおける検索拡張生成(RAG)設定での大規模言語モデル(LLMs)の評価を、信頼性の高い医療AI システムの重要な側面である十分性、統合性、堅牢性にまで拡張するものである。 我々は、4つの医療QAデータセットに対して、検索トピック、シグナル文書、サブQAペア、および敵対的文書を提供する Medical Retrieval-Augmented Generation Benchmark (MedRGB) を作成した。 MedRGBを用いて、クローズドな商用LLMとオープンソースモデルの両方を含む幅広いLLMを評価し、各テストシナリオにおけるそれらの推論プロセスを評価した。 我々の実験結果は、これらの実用的ではあるが複雑な状況に対処する上での現在のRAGシステムの限界を明らかにしている。 我々の分析から得られた知見は、より信頼性が高く信頼できる医療RAGシステムを開発するための実践的なガイドラインと将来の方向性を提供している。
References
- Chen et al. (2024a) Chen, H.; Fang, Z.; Singla, Y.; and Dredze, M. 2024a. Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions. arXiv:2402.18060.
- Chen et al. (2024b) Chen, J.; Lin, H.; Han, X.; and Sun, L. 2024b. Benchmarking Large Language Models in Retrieval-Augmented Generation. In Wooldridge, M. J.; Dy, J. G.; and Natarajan, S., eds., Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI 2024, Thirty-Sixth Conference on Innovative Applications of Artificial Intelligence, IAAI 2024, Fourteenth Symposium on Educational Advances in Artificial Intelligence, EAAI 2014, February 20-27, 2024, Vancouver, Canada, 17754–17762. AAAI Press.
- Chen et al. (2023) Chen, Z.; Hernández-Cano, A.; Romanou, A.; Bonnet, A.; Matoba, K.; Salvi, F.; Pagliardini, M.; Fan, S.; Köpf, A.; Mohtashami, A.; Sallinen, A.; Sakhaeirad, A.; Swamy, V.; Krawczuk, I.; Bayazit, D.; Marmet, A.; Montariol, S.; Hartley, M.; Jaggi, M.; and Bosselut, A. 2023. MEDITRON-70B: Scaling Medical Pretraining for Large Language Models. CoRR, abs/2311.16079.
- Cui et al. (2023) Cui, J.; Li, Z.; Yan, Y.; Chen, B.; and Yuan, L. 2023. ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases. CoRR, abs/2306.16092.
- Es et al. (2023) Es, S.; James, J.; Espinosa-Anke, L.; and Schockaert, S. 2023. RAGAS: Automated Evaluation of Retrieval Augmented Generation. arXiv:2309.15217.
- He et al. (2023) He, Z.; Wang, Y.; Yan, A.; Liu, Y.; Chang, E. Y.; Gentili, A.; McAuley, J. J.; and Hsu, C. 2023. MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation. In Bouamor, H.; Pino, J.; and Bali, K., eds., Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, EMNLP 2023, Singapore, December 6-10, 2023, 8725–8744. Association for Computational Linguistics.
- Hendrycks et al. (2021) Hendrycks, D.; Burns, C.; Basart, S.; Zou, A.; Mazeika, M.; Song, D.; and Steinhardt, J. 2021. Measuring Massive Multitask Language Understanding. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net.
- Hiesinger et al. (2023) Hiesinger, W.; Zakka, C.; Chaurasia, A.; Shad, R.; Dalal, A.; Kim, J.; Moor, M.; Alexander, K.; Ashley, E.; Boyd, J.; Boyd, K.; Hirsch, K.; Langlotz, C.; and Nelson, J. 2023. Almanac: Retrieval-Augmented Language Models for Clinical Medicine.
- Izacard et al. (2021) Izacard, G.; Caron, M.; Hosseini, L.; Riedel, S.; Bojanowski, P.; Joulin, A.; and Grave, E. 2021. Towards Unsupervised Dense Information Retrieval with Contrastive Learning. CoRR, abs/2112.09118.
- Jin et al. (2020a) Jin, D.; Pan, E.; Oufattole, N.; Weng, W.; Fang, H.; and Szolovits, P. 2020a. What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams. CoRR, abs/2009.13081.
- Jin et al. (2020b) Jin, D.; Pan, E.; Oufattole, N.; Weng, W.; Fang, H.; and Szolovits, P. 2020b. What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams. CoRR, abs/2009.13081.
- Jin et al. (2019) Jin, Q.; Dhingra, B.; Liu, Z.; Cohen, W. W.; and Lu, X. 2019. PubMedQA: A Dataset for Biomedical Research Question Answering. In Inui, K.; Jiang, J.; Ng, V.; and Wan, X., eds., Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, EMNLP-IJCNLP 2019, Hong Kong, China, November 3-7, 2019, 2567–2577. Association for Computational Linguistics.
- Jin et al. (2023) Jin, Q.; Kim, W.; Chen, Q.; Comeau, D. C.; Yeganova, L.; Wilbur, W. J.; and Lu, Z. 2023. MedCPT: Contrastive Pre-trained Transformers with large-scale PubMed search logs for zero-shot biomedical information retrieval. Bioinform., 39(10).
- Krithara et al. (2023) Krithara, A.; Nentidis, A.; Bougiatiotis, K.; and Paliouras, G. 2023. BioASQ-QA: A manually curated corpus for Biomedical Question Answering. Scientific Data, 10: 170.
- Lewis et al. (2020) Lewis, P. S. H.; Perez, E.; Piktus, A.; Petroni, F.; Karpukhin, V.; Goyal, N.; Küttler, H.; Lewis, M.; Yih, W.; Rocktäschel, T.; Riedel, S.; and Kiela, D. 2020. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.; and Lin, H., eds., Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual.
- Lu (2011) Lu, Z. 2011. PubMed and beyond: a survey of web tools for searching biomedical literature. Database J. Biol. Databases Curation, 2011.
- Nori et al. (2023) Nori, H.; King, N.; McKinney, S. M.; Carignan, D.; and Horvitz, E. 2023. Capabilities of GPT-4 on Medical Challenge Problems. CoRR, abs/2303.13375.
- Peng et al. (2023) Peng, B.; Galley, M.; He, P.; Cheng, H.; Xie, Y.; Hu, Y.; Huang, Q.; Liden, L.; Yu, Z.; Chen, W.; and Gao, J. 2023. Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback. CoRR, abs/2302.12813.
- Ram et al. (2023) Ram, O.; Levine, Y.; Dalmedigos, I.; Muhlgay, D.; Shashua, A.; Leyton-Brown, K.; and Shoham, Y. 2023. In-Context Retrieval-Augmented Language Models. Trans. Assoc. Comput. Linguistics, 11: 1316–1331.
- Robertson and Zaragoza (2009) Robertson, S. E.; and Zaragoza, H. 2009. The Probabilistic Relevance Framework: BM25 and Beyond. Found. Trends Inf. Retr., 3(4): 333–389.
- Wang et al. (2024) Wang, J.; Yang, Z.; Yao, Z.; and Yu, H. 2024. JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability. arXiv:2402.17887.
- Wu et al. (2023) Wu, C.; Lin, W.; Zhang, X.; Zhang, Y.; Wang, Y.; and Xie, W. 2023. PMC-LLaMA: Towards Building Open-source Language Models for Medicine. arXiv:2304.14454.
- Xiong et al. (2024) Xiong, G.; Jin, Q.; Lu, Z.; and Zhang, A. 2024. Benchmarking Retrieval-Augmented Generation for Medicine. CoRR, abs/2402.13178.
- Zhou et al. (2023) Zhou, H.; Liu, F.; Gu, B.; Zou, X.; Huang, J.; Wu, J.; Li, Y.; Chen, S. S.; Zhou, P.; Liu, J.; Hua, Y.; Mao, C.; You, C.; Wu, X.; Zheng, Y.; Clifton, L.; Li, Z.; Luo, J.; and Clifton, D. A. 2023. A Survey of Large Language Models in Medicine: Progress, Application, and Challenge. arXiv:2311.05112.
Appendix A Experiment Details
Offline Retrieval
我々のオフライン検索プロセスでは、密な検索モデル(MedCPT)を使用して、オフラインコーパス(MedCorp)から関連文書を検索する。
MedCPT
(Jin et al. 2023) 対照的に事前学習された生物医学埋め込みモデルであり、クエリエンコーダー888https://huggingface.co/ncbi/MedCPT-Query-Encoderと記事エンコーダー999https://huggingface.co/ncbi/MedCPT-Article-Encoderから構成される。
MedCorp
(Xiong et al. 2024)はMedCorpを構成しているが、これは以下の4つの個別コーパスの組み合わせである:
-
•
Wikipedia 大規模なオープンソースの百科事典。処理されたデータはHuggingfaceからダウンロードされている101010https://huggingface.co/datasets/wikipedia。
-
•
Textbooks (Jin et al. 2020b) 米国医師免許試験(USLME)のための18の人気のある参考教科書。
-
•
StatPearls (Xiong et al. 2024) NCBI Bookshelfから公開されている9,330のStatPearl記事111111https://www.ncbi.nlm.nih.gov/books/NBK430685/。
-
•
Pubmed Pubmed (Lu 2011)のサブセットで、有効なタイトルと要約を持つ2390万の記事。
各コーパスは検索のために短いスニペットに分割されており、その統計は図2に示されている。
Corpus | Number of Docs | Number of Snippets | Average Length | Domain |
---|---|---|---|---|
PubMed | 23.9 M | 23.9 M | 296 | Biomedical |
StatPearls | 9.3 k | 301.2 k | 119 | Clinics |
Textbooks | 18 | 125.8 k | 182 | Medicine |
Wikipedia | 6.5 M | 29.9 M | 162 | General |
Online Retrieval
我々のオンライン検索プロセスは、ResearchGPTリポジトリ121212https://github.com/pbj224/ResearchGPTの類似プロセスに従っている。 まず、前段階で得られた各検索トピックをクエリとして、Google Custom Search JSON API131313https://developers.google.com/custom-search/v1/overviewを用いてウェブ検索を実行する。 検索エンジンは、関連性スコアの高いウェブページのリンクの(未整列)リストを返す(ページスコアは、ページコンテンツの質、ページの人気度、他のサイトからのリンク数など、多数の要因によって決定される)。 返されたリンクは、図21のプロンプトを用いてGPT-4oによってさらに評価され、与えられたメインの質問に対する関連性の順にランク付けされ、並べ替えられる。 最後に、選択された各リンクのコンテンツが抽出され、図22のプロンプトに従ってGPT-4oによって要約され、メインの質問に対する最も重要な情報のみを含む単一の文書にまとめられる。
Retrieval Context Composition:
医療QAデータセットの各質問について、まず文書の総数との値に基づいて、必要なシグナル文書とノイズ文書の数を決定する。次に、シグナル文書はその質問のシグナルセットからランダムにサンプリングされる。同様に、ノイズ文書は他の質問からのすべてのシグナル文書のセットからランダムにサンプリングされる。検索コンテキストは、シグナル文書とノイズ文書のIDとコンテンツをランダムな順序で集めることで構成される。
LLMs Details
表3は、本稿で評価したLLMの詳細を示している。
非公開の商用LLM(GPT-3.5-turbo、GPT-4o、GPT-4o-mini)については、OpenAI Chat Completions API141414https://platform.openai.com/docs/guides/text-generationを使用して応答を取得し、決定論的な出力を得るために温度を0に設定した。
オープンソースモデル(PMC-Llama-13b、MEDITRON-70b、Gemma-2-27b、およびLlama-3-70b)は、2台のNVIDIA A100 80GB GPUを使用して実行した。
PyTorch 2.1.2151515https://pytorch.org/get-started/pytorch-2.0/とHuggingface-Transformer 4.42.3 161616https://github.com/huggingface/transformersを使用してモデルを実装した。
Source code with specification of all dependencies, including external libraries:
我々のデータとソースコードは、本稿が採択された後に公開される予定である。
LLMs | Availability | Knowledge Cutoff | Number of Parameters | Context Length | Domain |
GPT-3.5-turbo | Closed | Sep, 2021 | 20 billions* | 16384 | General |
GPT-4o-mini | Closed | Oct, 2023 | 8 billions* | 128000 | General |
GPT-4o | Closed | Oct, 2023 | 200 billions* | 128000 | General |
PMC-Llama-13b | Open | Sep, 2023 | 13 billions | 2048 | Medical |
MEDITRON-70b | Open | Aug, 2023* | 70 billions | 4096 | Medical |
Gemma-2-27b | Open | June, 2024* | 27 billions | 4096 | General |
Llama-3-70b | Open | Dec, 2023 | 70 billions | 8192 | General |
Experimental Results
Step-by-step Reasoning Examples
5 doc | BioASQ | PubmedQA | MedQA | MMLU | ||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Main Acc | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 10.2 | 61.5 | 70.2 | 75.4 | 77.2 | 76.9 | 7.8 | 50.6 | 56.8 | 59.6 | 63.0 | 63.0 | 43.8 | 48.6 | 51.9 | 53.6 | 55.2 | 55.3 | 40.9 | 57.5 | 61.6 | 64.8 | 66.8 | 64.1 |
GPT-4o-mini | 9.4 | 60.8 | 70.9 | 76.5 | 80.6 | 81.6 | 0.8 | 35.2 | 51.2 | 51.8 | 57.6 | 60.6 | 54.6 | 68.1 | 72.4 | 72.6 | 74.0 | 73.3 | 43.5 | 66.5 | 72.5 | 75.9 | 77.0 | 80.0 |
Llama-3-70b | 6.0 | 54.1 | 67.5 | 74.3 | 78.3 | 80.1 | 0.2 | 34.2 | 49.8 | 52.0 | 58.2 | 60.2 | 56.0 | 63.2 | 66.3 | 67.6 | 69.1 | 70.8 | 40.5 | 65.5 | 73.1 | 74.8 | 74.3 | 75.6 |
Noise Acc | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 78.4 | 99.2 | 91.5 | 83.7 | 71.2 | 58.3 | 78.0 | 99.2 | 93.0 | 82.5 | 68.5 | 52.9 | 74.6 | 96.5 | 90.7 | 76.7 | 63.3 | 46.4 | 72.5 | 94.9 | 91.4 | 80.0 | 65.1 | 48.8 |
GPT-4o-mini | 94.5 | 99.0 | 85.8 | 80.5 | 72.8 | 61.7 | 77.1 | 98.0 | 91.2 | 82.5 | 73.1 | 62.9 | 93.8 | 80.0 | 68.9 | 58.1 | 49.2 | 50.1 | 99.1 | 84.0 | 70.4 | 59.7 | 50.9 | 46.6 |
Llama-3-70b | 97.1 | 99.0 | 93.9 | 89.8 | 79.6 | 67.9 | 75.0 | 99.5 | 93.9 | 90.8 | 81.0 | 64.7 | 96.7 | 93.9 | 89.8 | 85.2 | 75.1 | 62.0 | 96.7 | 94.1 | 88.1 | 81.8 | 71.2 | 56.0 |
Num Insuf (%) | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 82.2 | 16.5 | 7.8 | 5.7 | 5.3 | 5.2 | 83.8 | 5.6 | 2.6 | 3.8 | 2.2 | 1.8 | 24.4 | 6.7 | 2.8 | 2.4 | 2.7 | 2.3 | 40.2 | 11.9 | 5.1 | 4.3 | 3.3 | 1.9 |
GPT-4o-mini | 90.0 | 25.9 | 14.2 | 8.9 | 6.8 | 6.2 | 97.2 | 14.2 | 2.8 | 2.2 | 1.4 | 1.8 | 31.7 | 10.1 | 3.6 | 1.8 | 1.2 | 1.1 | 52.4 | 20.6 | 13.3 | 7.7 | 7.1 | 5.1 |
Llama-3-70b | 93.2 | 34.8 | 21.0 | 13.9 | 11.3 | 9.9 | 99.2 | 36.6 | 14.0 | 8.2 | 6.4 | 4.6 | 26.6 | 4.6 | 3.4 | 3.1 | 2.3 | 1.3 | 52.7 | 15.5 | 8.6 | 7.6 | 6.3 | 5.7 |
20 doc | BioASQ | PubmedQA | MedQA | MMLU | ||||||||||||||||||||
Main Acc | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 20.6 | 76.9 | 76.4 | 79.6 | 79.9 | 81.9 | 11.2 | 58.6 | 62.8 | 64.8 | 68.0 | 70.4 | 48.2 | 55.1 | 55.8 | 56.1 | 57.1 | 59.1 | 32.1 | 66.1 | 67.1 | 67.2 | 67.9 | 66.8 |
GPT-4o-mini | 16.8 | 75.6 | 84.5 | 85.8 | 85.9 | 85.3 | 2.0 | 54.2 | 64.8 | 66.4 | 69.0 | 69.0 | 73.4 | 74.0 | 72.4 | 74.6 | 76.1 | 76.8 | 73.7 | 79.6 | 78.7 | 81.6 | 83.6 | 84.3 |
Llama-3-70b | 7.6 | 73.0 | 65.2 | 66.7 | 73.5 | 68.5 | 3.4 | 55.4 | 53.4 | 51.2 | 42.2 | 40.2 | 74.2 | 72.6 | 70.3 | 65.9 | 72.7 | 71.3 | 55.6 | 78.2 | 80.1 | 80.0 | 83.8 | 78.3 |
Noise Acc | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 62.6 | 74.2 | 57.6 | 51.5 | 45.5 | 39.5 | 74.4 | 74.2 | 59.0 | 48.5 | 44.4 | 36.1 | 61.8 | 68.0 | 55.2 | 43.4 | 33.3 | 18.7 | 69.6 | 73.1 | 61.1 | 45.9 | 34.3 | 20.6 |
GPT-4o-mini | 81.3 | 47.5 | 39.0 | 40.3 | 42.2 | 45.5 | 24.1 | 51.1 | 32.2 | 38.1 | 36.9 | 41.4 | 88.2 | 22.4 | 17.0 | 17.4 | 15.9 | 12.5 | 87.6 | 32.0 | 24.1 | 21.0 | 15.2 | 13.4 |
Llama-3-70b | 95.3 | 77.7 | 57.9 | 55.3 | 61.6 | 48.1 | 91.2 | 77.4 | 61.2 | 53.4 | 46.0 | 33.5 | 82.3 | 77.9 | 65.5 | 56.9 | 54.8 | 40.3 | 91.1 | 84.3 | 70.6 | 63.9 | 58.7 | 39.3 |
Num Insuf | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 66.3 | 2.6 | 1.3 | 2.1 | 1.3 | 1.9 | 74.2 | 1.6 | 0.4 | 0.2 | 0.0 | 0.6 | 17.3 | 2.3 | 1.7 | 1.0 | 1.6 | 0.9 | 53.3 | 4.2 | 2.9 | 1.9 | 1.7 | 1.6 |
GPT-4o-mini | 79.1 | 2.8 | 1.6 | 1.3 | 1.5 | 1.5 | 82.8 | 0.6 | 0.6 | 0.2 | 0.2 | 0.2 | 3.0 | 0.9 | 0.4 | 0.3 | 0.5 | 0.5 | 15.9 | 2.1 | 1.4 | 1.5 | 1.0 | 1.2 |
Llama-3-70b | 85.3 | 3.7 | 1.3 | 1.6 | 1.3 | 1.5 | 80.6 | 0.8 | 0.2 | 0.2 | 0.0 | 0.0 | 3.6 | 0.5 | 0.3 | 0.2 | 0.2 | 0.3 | 35.5 | 2.9 | 2.4 | 1.6 | 1.5 | 2.0 |
5 doc | BioASQ | PubmedQA | MedQA | MMLU | ||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Main Acc | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 66.3 | 72.2 | 78.2 | 79.0 | 82.9 | 45.2 | 52.4 | 58.6 | 60.6 | 63.4 | 57.3 | 55.9 | 55.7 | 56.3 | 56.4 | 66.0 | 66.8 | 68.5 | 67.8 | 66.9 | ||||
GPT-4o-mini | 73.0 | 78.2 | 82.4 | 83.5 | 85.6 | 40.6 | 52.0 | 55.0 | 57.2 | 60.2 | 72.2 | 72.7 | 72.9 | 73.1 | 72.6 | 80.5 | 81.7 | 81.7 | 81.3 | 82.5 | ||||
Llama-3-70b | 59.4 | 72.2 | 79.9 | 82.7 | 84.8 | 35.8 | 53.0 | 57.6 | 61.2 | 63.2 | 66.5 | 68.0 | 68.1 | 68.7 | 70.1 | 71.9 | 74.0 | 75.1 | 74.7 | 75.7 | ||||
Sub Acc (exact) | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 26.9 | 28.2 | 28.6 | 29.1 | 30.6 | 28.4 | 30.8 | 31.7 | 32.9 | 33.0 | 29.6 | 31.0 | 31.4 | 31.7 | 33.2 | 28.2 | 29.0 | 29.8 | 29.9 | 30.1 | ||||
GPT-4o-mini | 21.0 | 21.8 | 23.8 | 25.0 | 26.3 | 25.6 | 25.4 | 27.9 | 29.2 | 29.6 | 25.2 | 26.3 | 27.6 | 28.2 | 28.9 | 21.7 | 23.3 | 24.0 | 24.0 | 25.7 | ||||
Llama-3-70b | 24.9 | 26.1 | 27.3 | 28.8 | 29.6 | 29.4 | 31.1 | 33.1 | 33.6 | 35.2 | 27.3 | 30.3 | 31.3 | 32.1 | 32.6 | 23.6 | 26.3 | 27.5 | 27.7 | 28.8 | ||||
Sub Acc (gpt) | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 80.9 | 80.9 | 80.3 | 79.8 | 80.9 | 82.0 | 82.4 | 82.5 | 81.6 | 82.6 | 80.2 | 81.1 | 81.6 | 81.3 | 81.8 | 78.6 | 79.4 | 79.8 | 80.0 | 79.4 | ||||
GPT-4o-mini | 80.4 | 81.3 | 82.4 | 81.6 | 81.7 | 81.3 | 81.9 | 82.6 | 82.1 | 82.8 | 81.3 | 81.9 | 82.4 | 82.1 | 82.2 | 79.0 | 79.9 | 80.1 | 79.9 | 80.3 | ||||
Llama-3-70b | 80.1 | 80.2 | 80.7 | 80.4 | 81.0 | 82.0 | 82.9 | 83.2 | 82.9 | 83.5 | 81.3 | 82.0 | 82.4 | 82.9 | 82.7 | 80.0 | 80.8 | 81.1 | 80.6 | 81.0 | ||||
10 doc | BioASQ | PubmedQA | MedQA | MMLU | ||||||||||||||||||||
Main Acc | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 73.5 | 80.3 | 82.7 | 83.2 | 83.8 | 56.6 | 62.8 | 65.0 | 67.6 | 69.0 | 55.7 | 55.0 | 58.3 | 58.6 | 59.6 | 67.2 | 67.9 | 67.6 | 68.9 | 68.3 | ||||
GPT-4o-mini | 79.5 | 83.8 | 86.1 | 89.0 | 89.6 | 51.6 | 58.6 | 62.6 | 65.6 | 66.2 | 73.1 | 73.7 | 74.2 | 75.2 | 74.0 | 82.4 | 82.3 | 82.2 | 82.4 | 84.1 | ||||
Llama-3-70b | 74.0 | 83.0 | 84.3 | 89.2 | 89.6 | 54.2 | 63.6 | 65.0 | 68.6 | 69.4 | 71.2 | 70.7 | 72.4 | 74.0 | 74.0 | 75.8 | 77.1 | 78.5 | 78.2 | 80.8 | ||||
Sub Acc (exact) | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 28.0 | 29.0 | 27.9 | 27.2 | 27.9 | 30.8 | 32.8 | 33.1 | 32.8 | 33.4 | 30.8 | 31.5 | 31.5 | 32.1 | 32.8 | 28.2 | 29.4 | 29.3 | 30.0 | 30.7 | ||||
GPT-4o-mini | 21.2 | 25.2 | 26.1 | 25.9 | 26.8 | 25.6 | 28.3 | 30.5 | 30.9 | 32.9 | 25.7 | 27.4 | 28.7 | 30.1 | 30.3 | 23.1 | 24.0 | 25.9 | 26.8 | 27.2 | ||||
Llama-3-70b | 26.0 | 27.7 | 28.7 | 29.8 | 31.0 | 30.6 | 34.0 | 36.3 | 37.9 | 38.9 | 30.7 | 32.1 | 32.4 | 33.4 | 33.2 | 25.9 | 27.5 | 29.3 | 29.8 | 30.8 | ||||
Sub Acc (gpt) | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 80.3 | 79.2 | 76.2 | 75.9 | 78.2 | 82.2 | 81.8 | 81.2 | 80.6 | 81.1 | 81.1 | 81.0 | 80.5 | 80.4 | 81.4 | 78.5 | 78.4 | 77.8 | 77.7 | 79.0 | ||||
GPT-4o-mini | 81.0 | 81.6 | 80.7 | 80.2 | 80.7 | 82.6 | 81.5 | 82.3 | 81.6 | 82.4 | 81.7 | 81.8 | 82.0 | 82.1 | 82.2 | 79.6 | 79.7 | 79.8 | 80.2 | 80.4 | ||||
Llama-3-70b | 79.8 | 79.8 | 80.1 | 79.7 | 80.6 | 82.7 | 82.6 | 82.8 | 82.5 | 83.2 | 81.9 | 82.1 | 82.6 | 82.8 | 83.1 | 79.7 | 79.9 | 80.4 | 80.9 | 81.3 |
5 doc | BioASQ | PubmedQA | MedQA | MMLU | ||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Main Acc | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 63.3 | 67.8 | 72.3 | 76.2 | 77.0 | 79.8 | 41.6 | 45.2 | 48.2 | 54.6 | 56.6 | 64.4 | 50.4 | 51.7 | 53.3 | 53.3 | 55.2 | 56.7 | 60.1 | 61.8 | 62.4 | 64.5 | 65.8 | 65.8 |
GPT-4o-mini | 70.6 | 76.1 | 78.5 | 81.1 | 84.3 | 85.3 | 40.8 | 45.4 | 48.4 | 50.2 | 53.6 | 59.4 | 71.4 | 70.8 | 71.1 | 71.9 | 72.6 | 71.4 | 80.4 | 80.5 | 80.9 | 80.6 | 80.9 | 81.4 |
Llama-3-70b | 68.3 | 70.4 | 75.6 | 80.6 | 81.4 | 84.0 | 42.2 | 44.8 | 49.4 | 51.4 | 57.0 | 62.8 | 67.3 | 67.1 | 66.4 | 69.8 | 70.2 | 71.9 | 69.9 | 72.9 | 71.9 | 75.0 | 73.9 | 76.0 |
Sub Acc (exact) | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 0.7 | 8.2 | 14.1 | 23.4 | 28.5 | 35.5 | 0.2 | 9.2 | 17.9 | 27.7 | 36.3 | 46.1 | 0.3 | 8.7 | 15.8 | 24.1 | 30.8 | 38.4 | 0.3 | 7.7 | 14.0 | 21.5 | 27.5 | 34.4 |
GPT-4o-mini | 0.9 | 6.2 | 10.7 | 17.1 | 22.5 | 27.9 | 0.3 | 7.1 | 13.2 | 21.0 | 27.0 | 35.0 | 0.8 | 6.9 | 12.6 | 19.7 | 25.4 | 31.9 | 1.1 | 5.9 | 11.0 | 17.3 | 21.5 | 27.0 |
Llama-3-70b | 0.8 | 8.2 | 14.0 | 20.9 | 28.0 | 35.1 | 0.2 | 9.8 | 18.1 | 27.8 | 35.7 | 45.9 | 0.7 | 8.7 | 15.6 | 23.8 | 30.1 | 37.8 | 0.9 | 8.1 | 13.9 | 20.9 | 26.9 | 33.7 |
Sub Acc (gpt) | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 4.5 | 20.4 | 33.8 | 50.3 | 64.0 | 79.7 | 1.8 | 17.9 | 33.1 | 50.5 | 65.2 | 81.3 | 2.0 | 18.8 | 34.5 | 50.1 | 66.0 | 82.1 | 2.5 | 18.5 | 33.3 | 49.7 | 64.7 | 80.0 |
GPT-4o-mini | 9.1 | 24.9 | 38.6 | 53.8 | 67.2 | 82.0 | 3.0 | 19.9 | 35.0 | 52.0 | 66.9 | 83.4 | 6.9 | 23.1 | 38.6 | 54.5 | 69.6 | 84.6 | 8.0 | 23.1 | 37.9 | 53.3 | 67.8 | 82.4 |
Llama-3-70b | 6.9 | 22.9 | 36.3 | 52.0 | 66.2 | 82.0 | 2.6 | 19.3 | 34.6 | 51.5 | 67.6 | 83.8 | 4.6 | 21.7 | 37.6 | 53.2 | 68.7 | 85.2 | 6.0 | 21.8 | 37.2 | 52.6 | 67.5 | 83.4 |
Fact Detect | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% | 0% | 20% | 40% | 60% | 80% | 100% |
GPT-3.5 | 28.8 | 45.2 | 55.1 | 67.7 | 76.0 | 88.1 | 15.3 | 33.4 | 49.6 | 64.4 | 78.7 | 94.4 | 16.2 | 36.3 | 51.1 | 64.5 | 79.0 | 93.2 | 17.9 | 37.0 | 50.6 | 63.8 | 77.5 | 92.0 |
GPT-4o-mini | 13.6 | 33.1 | 50.0 | 66.7 | 81.4 | 96.8 | 10.0 | 29.5 | 48.0 | 64.6 | 80.6 | 98.2 | 14.4 | 35.2 | 49.8 | 66.0 | 79.4 | 94.7 | 14.3 | 33.9 | 49.5 | 65.6 | 79.9 | 95.0 |
Llama-3-70b | 8.3 | 27.4 | 44.6 | 63.5 | 80.1 | 99.5 | 8.2 | 27.8 | 45.2 | 63.3 | 81.1 | 99.9 | 13.9 | 32.4 | 49.7 | 65.6 | 82.3 | 99.5 | 13.2 | 32.3 | 49.0 | 64.9 | 82.0 | 99.3 |
10 doc | BioASQ | PubmedQA | MedQA | MMLU | ||||||||||||||||||||
Main Acc | 0% | 20% | 40% |