arXiv	https://arxiv.org/abs/2411.13025
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

ORID: Organ-Regional Information Driven Framework for
Radiology Report Generation

Tiancheng Gu

{}^{\text{\char 170}}

¹¹1Equal contribution., Kaicheng Yang

{}^{\text{\char 171}}

¹¹1Equal contribution.
Xiang An

{}^{\text{\char 171}}

, Ziyong Feng

{}^{\text{\char 171}}

, Dongnan Liu

{}^{\text{\char 170}}

, Weidong Cai

{}^{\text{\char 170}}

²²2Corresponding author.

{}^{\text{\char 170}}

University of Sydney

{}^{\text{\char 171}}

DeepGlint
tigu8498@uni.sydney.edu.au, kaichengyang@deepglint.com

Abstract

放射線科レポート生成（RRG）の目的は、放射線画像に基づいて疾患の一貫性のあるテキスト分析を自動的に生成し、放射線科医の作業負担を軽減することである。RRGに対する現在のAIベースの手法は、主にエンコーダー-デコーダーモデルアーキテクチャの修正に焦点を当てている。これらのアプローチを進展させるため、本稿ではOrgan-Regional Information Driven（ORID）フレームワークを導入する。このフレームワークは、マルチモーダル情報を効果的に統合し、関連のない臓器からのノイズの影響を軽減することができる。具体的には、LLaVA-Medに基づいて、まず臓器領域の診断記述能力を向上させるためのRRG関連の指示データセットを構築し、LLaVA-Med-RRGを得る。その後、臓器領域の診断記述と放射線画像からの情報を効果的に組み合わせるために、臓器ベースのクロスモーダル融合モジュールを提案する。さらに、関連のない臓器からのノイズが放射線科レポート生成に与える影響を軽減するために、臓器重要度係数分析モジュールを導入する。このモジュールは、グラフニューラルネットワーク（GNN）を活用して、各臓器領域のクロスモーダル情報の相互接続を検証する。様々な評価指標にわたる広範な実験と最先端の手法との比較により、我々の提案手法の優れた性能が実証される。

1 Introduction

Refer to caption — 図1: 臓器別の放射線画像と診断説明の可視化。対象レポートに関連するセグメントが異なる色で強調表示されている。

放射線画像の分析は、疾病の特定において極めて重要な役割を果たしている。正確な放射線レポートの自動生成は、放射線科医が直面する膨大な作業負荷を大幅に軽減することができる[55]。放射線画像の手動分析は複雑で高コストであるだけでなく、放射線科医が多数の画像を検査し、それぞれに詳細なレポートを作成する必要があるため、エラーが発生しやすい[7]。近年、画像キャプションなどの画像に対するテキスト説明の生成に深層学習技術が広く適用されており[2, 8, 33]、これが多くのRRG手法に影響を与えている[46, 34, 24]。しかしながら、放射線レポート生成は、通常の画像キャプション生成とは異なる。これは、放射線画像が複雑な性質を持ち、通常、疾患に特有の小さな領域を強調するためである[10]。さらに、放射線画像は主に疾患に関連する特定の領域で変化する。この複雑さはRRGのテキスト説明にも及び、主な相違点は疾患所見の分析にあり、健常組織の説明は比較的均一である[53]。

これらの課題に対処するため、MIMIC-CXR [26] とIU-Xray [10] が導入された。これらはそれぞれ約400,000組と7,000組の画像-レポートペアを含んでいる。その結果、多様なRRG手法が提案されており [7, 6, 43, 34, 47, 25, 62, 20, 21, 16]、それぞれが異なる角度から問題に取り組み、性能の顕著な向上を示している。既存の手法は大きく2つのカテゴリーに分類できる。第一のカテゴリー [7, 6, 43] は、放射線レポート生成のために画像とテキストのモダリティを効果的に融合するモデルアーキテクチャの改善に焦点を当てている。第二のカテゴリー [34, 47, 46] は、外部モダリティ情報と既存の知識を利用して、結論的なレポートを生成するエンコーダ-デコーダモデルを強化している。これらの手法は顕著な成果を上げているにもかかわらず、包括的な放射線レポートの生成を導くために重要な詳細な臓器領域情報を組み込んでいない [11, 29]。

本稿では、オフラインで生成された臓器別の放射線画像と診断説明（図1に示す通り）に基づき、正確で信頼性の高い放射線レポートを生成するための臓器別情報駆動型（ORID）フレームワークを提案する。ORIDフレームワークは主に、臓器ベースのクロスモーダル融合モジュールと臓器重要度係数分析モジュールから構成される。具体的には、医療診断におけるLLaVA-Medの優れた性能[32]に動機づけられ、我々は4,000枚の放射線画像に関連する10,000の質問-回答ペアを含む放射線画像ベースの指示データセットを構築した。その後、このデータセットを用いて臓器別診断説明能力を向上させ、下流タスクの説明生成に使用されるLLaVA-Med-RRGモデルの開発を促進した。次に、我々は臓器別の放射線画像と診断説明からの情報を統合するための臓器ベースのクロスモーダル融合モジュールを提案する。関連のない臓器からのノイズの影響を軽減するために、事前知識グラフ[24]を利用して各臓器領域の関係に基づく隣接行列を構築する。最後に、融合されたクロスモーダル特徴を生の放射線画像特徴と組み合わせ、エンコーダ-デコーダモデルに入力して最終的な放射線レポートを生成する。本稿の貢献は以下のようにまとめられる：

•

我々は、臓器別診断説明能力を向上させるためのRRG関連指示データセットを構築し、下流タスクの説明生成に使用されるLLaVA-Med-RRGモデルを得た。
•

我々は、正確で信頼性の高い放射線レポートを生成するための臓器別情報駆動型（ORID）フレームワークを提案する。これは、臓器ベースのマルチモーダル融合モジュールと臓器重要度係数分析モジュールで構成され、マルチモーダル情報を効果的に統合し、関連のない臓器からのノイズの影響を軽減することができる。
•

我々は広範な実験を行い、その結果、提案するORIDフレームワークが2つの公開放射線レポート生成ベンチマークにおいて最新の最先端性能を達成したことを証明した。

2 Related Works

2.1 Image Captioning

従来の画像キャプション生成技術は、画像-テキストのペアをエンコーダ-デコーダモデルに入力し、入力画像に基づいてテキスト説明を生成することに依存している。初期の研究[12, 15, 52]では、主に言語コンポーネントにLong Short-Term Memory Network (LSTM)を、画像コンポーネントにConvolutional Neural Network (CNN)を使用している。最近では、Vision Transformer (ViT) [13]を触媒として、注意機構ベースのモデル[50]が画像キャプション生成の分野で注目を集めている。その後の研究[3, 9, 22]では、関連する画像領域を特定し抽出するために物体検出器を組み込むことに焦点を当てている。さらに、他の研究[9, 40, 41]では、画像とテキストのモダリティ間の相互作用と整合性を向上させるために、基礎となるモデルのアーキテクチャを改善している。一般的な視覚言語タスクとは対照的に、放射線画像は微妙で詳細な違いのために独特の課題を提示する。これらの微妙な違いは、放射線画像の複雑な情報を正確に捉えて記述するために、専門的なアプローチを必要とする。例えば、事前知識に基づいた研究[34]などがある。

2.2 Radiology Report Generation

医療レポート生成は画像キャプション生成タスクを拡張したものであり、より高度な複雑性と高い精度・正確性が要求される。この分野では多くの研究[7, 43, 34, 47, 17, 16, 60, 59]が行われ、著しい進歩がもたらされた。アテンションメカニズム[50]に触発され、R2Gen[7]とR2GenCMN[6]は、LSTM[19]のゲートメカニズムとクロスモーダルメモリネットワーク[6]を用いて、画像特徴とテキスト特徴を個別にフィルタリングおよび融合することで、エンコーダ-デコーダアーキテクチャを強化している。これらを基に、R2GenCMM-RL[43]は強化学習ベースの報酬メカニズム[27]を組み込むことで、R2GenCMN[6]をさらに改良している。これらのモデルとは対照的に、DCL[34]は構造的な改善に焦点を当て、目標レポート単語の相関行列を持つ事前生成された知識グラフを活用している。RGRG[46]はバウンディングボックスを使用して、モデルが異常領域により注意を向けるよう誘導し、疾患検出とレポート生成を促進している。さらに、RepsNet[47]は視覚的質問応答の知識[31]を組み込むことで、最終的なレポート生成プロセスを強化している。しかしながら、既存の手法は臓器レベルの分析記述を正確に得ることに苦心しており、放射線科レポートの生成における精度と関連性を向上させるための臓器領域情報の活用が不十分である。

2.3 Multimodal Large Language Model

大規模言語モデル（LLMs）[1, 49]の出現、特に指示調整を通じて強化されたもの[37, 39]は、言語関連タスクの多目的インターフェースとして大きな可能性を示している。LLMsの能力を言語認識を超えて拡張するため、最近の研究[58, 64, 32, 36]では、指示調整を通じて様々なモダリティを組み込むことで、これらのモデルをマルチモーダル大規模言語モデル（MLLMs）に拡張している[23, 57]。これらの進展を踏まえ、LLaVA-Med[32]は、自己構築した医療指向の広範な指示データセットを用いてLLaVA[36]を指示調整することで形成されている。LLaVA-Medは様々な医療分野で強力な性能を示すが、放射線学の分野に特化した専門性が欠けている。臓器領域の診断記述能力を向上させるため、我々は1万組の質問-回答ペアを含む臓器レベルのRRG関連指示データセットを構築し、LLaVA-Med-RRGを開発した。

3 Method

我々が提案するOrgan-Regional Information Driven（ORID）フレームワークの全体的なアーキテクチャを図2に示す。本節では、我々の主要な方法論について紹介する。これには、LLaVA-Med-RRGの開発（第3.1節）、Organ-based Cross-modal Fusion（OCF）モジュールの詳細（第3.2節）、Organ Importance Coefficient Analysis（OICA）モジュール（第3.3節）、および放射線レポート生成モジュール（第3.4節）が含まれる。

3.1 LLaVA-Med-RRG

LLaVA-Medは一般的な医療画像の分析において優れた性能を示しているものの[32]、放射線画像に関してはその性能が比較的満足のいくものではなかった。指示チューニングの費用対効果の高さと高性能に動機づけられ[23]、我々は臓器レベルのRRG関連の指示データセットを作成し、LLaVA-Medに対して指示チューニングを行い、LLaVA-Med-RRGを開発した。この強化は、放射線画像の臓器レベルの分析能力を向上させることを目的としている。具体的には、指示データセットはIU-Xray [10]とMIMIC-CXR [26]から転移されている。Disease Symptom Graph (DS-Graph)の事前知識[24]（詳細は補足資料参照）に基づき、放射線画像におけるすべての疾患が骨、胸膜、肺、心臓、縦隔の5つの臓器に直接関連していることを特定した。この事前知識に基づき、我々はNLTKツール^*^**https://github.com/nltk/nltkを使用してキャプションを文に分割し、DS-Graphを参照して対応する臓器に割り当てた。指示チューニングプロセス中の入力と出力の型を図3に示す。

図3: 指示チューニング中の入力と出力の型。

指示データセットの品質と多様性を確保するため、データ構築プロセスにおいて以下の4つのルールを遵守した：(1) 疾患分析の強化：モデルの疾患分析能力を向上させるため、疾患分析に関する質問回答（QA）ペアの数を増やし、疾患のないもの（標準的な臓器の記述）を減らす。(2) 冗長性の最小化：類似の質問に対する多様な回答を促進するため、同一の回答を持つ冗長な例を減らす。(3) 豊富な診断を含む画像例の優先：より多くの臓器特有のQAペアを含む画像例に集中する。(4) 臓器分析能力のバランス：モデルが特定の臓器分析に偏らないよう、5つの臓器にわたってQAペアの公平な分布を維持する。データセットの構築後、我々はLLaMA-Factory [63]を使用して事前学習済みのLLaVA-Medに標準的な指示チューニングを行い、LLaVA-Med-RRGを開発した。

3.2 Organ-based Cross-modal Fusion Module

Data Flow.

LLaVA-Med-RRGモデルを取得した後、我々はそれを使用して臓器領域ごとの診断説明を生成する。各放射線画像は、肺、心臓、胸膜、骨、縦隔という5つの異なる解剖学的領域に対応する5つの説明テキストを持つ。その後、これらの説明をトークン化し、特徴量 $x^{D}_{\text{o}}$ として埋め込む。ここで、o $\in\{\text{mediastinum},\text{pleural},\text{lung},\text{heart},\text{bone}\}$ である。

放射線画像は、しばしば画像内の小さな特定の領域を強調する [53]。この特性に対処するため、我々は臓器領域の情報を利用して、モデルの放射線画像分析能力を向上させる。具体的には、CXAS [45] モデルを使用して、放射線画像内の特定の関心領域（左肺、肺肋骨、肩甲骨など）を識別し、セグメント化する。放射線レポートがしばしば5つの特定の臓器領域に焦点を当てるという事前知識に基づき [24]、我々は関連するセグメント化されたマスク画像を選択し、心臓、骨、肺、胸膜、縦隔を表す5つの異なるセットに分類し、各セット内でチャンネル次元で連結する（詳細は補足資料参照）。その後、これらのマスクを元の画像情報と統合して、臓器領域の画像情報 $x^{I}_{\text{o}}$ を以下のように抽出する：

		$\displaystyle x^{I_{m}}_{\text{o}}=E_{m}(I_{m}),x^{I_{r}}=\hat{E_{r}}(I_{r}),$		(1)
		$\displaystyle x^{I}_{\text{o}}=x^{I_{m}}_{\text{o}}\odot x^{I_{r}},$		(1)

ここで、 $\odot$ は要素ごとの乗算である。我々はマスク特徴抽出器 $E_{m}$ （ResNet18）を使用して、元の放射線画像 $I_{m}$ から臓器マスク特徴 $x^{I_{m}}_{\text{o}}$ を抽出する。同時に、生の放射線画像 $I_{r}$ を画像特徴抽出器 $E_{r}$ （ResNet101）に入力し、中間層の出力 $\hat{E_{r}}$ を生の放射線画像特徴として抽出する。

Modality Fusion.

対応する臓器領域の画像情報 $x^{I}_{\text{o}}$ と診断説明特徴 $x^{D}_{\text{o}}$ を取得した後、我々は臓器ベースのクロスモーダル融合モジュールを提案し、画像モダリティとテキストモダリティを融合して、臓器レベルで単一の細粒度クロスモーダル特徴 $x^{C}_{o}$ を得る。このプロセスは形式的に以下の通りである：

		$\displaystyle Q=x^{I}_{\text{o}}W^{Q},K=x^{D}_{\text{o}}W^{K},V=x^{D}_{\text{o% }}W^{V},$		(2)
		$\displaystyle x^{C}_{\text{o}}=\text{MHA}(x^{I}_{\text{o}},x^{D}_{\text{o}})=% \text{Softmax}(\frac{QK^{T}}{\sqrt{d_{n}}})V,$		(2)

ここで、MHAはマルチヘッドクロスアテンション [50] であり、 $W^{Q},W^{K},W^{K}$ は学習可能な行列である。

個々の臓器画像特徴を独立して分析することで、細粒度の臓器レベルの差異を捉え、臓器疾患分析のパフォーマンスを向上させることができる。同時に、このアプローチはモデルの協調分析能力を制限し、複数の臓器に依存する疾患の分析において最適でない結果をもたらす可能性がある [55]。この制限に対処するため、我々はすべての臓器画像特徴を加算することで、粗粒度の臓器レベル画像特徴 $x^{I}_{T}$ を生成する。これは以下のように示すことができる：

\small x^{I}_{T}=\sum_{i\in\phi}x_{i}^{I},

(3)

ここで、 $\phi$ は臓器セット {縦隔、胸膜、肺、心臓、骨} である。我々はさらに、以下の手順を用いて対応する粗粒度の臓器診断説明特徴 $x^{D}_{T}$ を生成する：

\small x^{D}_{T}=\text{Concat}(x^{D}_{\text{o}})+\text{T}_{\text{p}}+\text{T}_% {\text{o}},

(4)

ここで、 $\text{Concat}(\cdot)$ は連結操作、 $\text{T}_{\text{p}}$ は位置埋め込みトークン、 $\text{T}_{\text{o}}$ は異なる臓器を区別するための臓器埋め込みトークンである。その後、粗粒度の臓器画像特徴 $x^{I}_{T}$ とその対応する説明特徴 $x^{D}_{T}$ を統合して、以下のように臓器領域のクロスモーダル情報 $x^{C}_{T}$ を得る：

x^{C}_{T}=\text{MHA}(x^{I}_{T},x^{D}_{T}).

(5)

Dataset	Method	NLG Metric
Dataset	Method	BLUE@1	BLUE@2	BLUE@3	BLUE@4	METOR	ROUGE-L
	DCL [34]	-	-	-	0.163	0.193	0.383
	MMTN [5]	0.486	0.321	0.232	0.175	-	0.375
IU-	M2KT [61]	0.497	0.319	0.230	0.174	-	0.399
Xray	C2M-DOT [54]	0.475	0.309	0.222	0.170	0.191	0.375
	CMMRL [44]	0.494	0.321	0.235	0.181	0.201	0.384
	XPRONET^∗ [53]	0.501	0.324	0.224	0.165	0.204	0.380
	R2GenCMN^∗ [43]	0.475	0.309	0.222	0.165	0.187	0.371
	ORID(Ours)	0.501	0.351	0.261	0.198	0.211	0.400
	DCL [34]	-	-	-	0.109	0.150	0.284
	MMTN [5]	0.379	0.238	0.159	0.116	0.160	0.283
MIMIC	M2KT [61]	0.386	0.237	0.157	0.111	-	0.274
CXR	Lgi-MIMIC [65]	0.343	0.210	0.140	0.099	0.137	0.271
	CMMRL [44]	0.353	0.218	0.148	0.106	0.142	0.278
	XPRONET [53]	0.344	0.215	0.146	0.105	0.138	0.279
	R2GenCMN^∗ [43]	0.347	0.221	0.139	0.097	0.138	0.274
	ORID(Ours)	0.386	0.238	0.163	0.117	0.150	0.284

表1: IU-XrayおよびMIMIC-CXRベンチマークにおけるORIDモデルと他のテストモデルの結果。

*

は我々が再現したことを示す。他のモデルの結果は、それぞれの原論文から得られたものである。最良の結果は太字で表示されている。最も重要な指標は灰色でマークされている。

3.3 Organ Importance Coefficient Analysis Module

多数の放射線科レポートを検討した結果、ほとんどのレポートが2〜4の特定の臓器領域の分析に集中しており、一部の臓器は正常と報告されていることが分かった[10, 26]。我々は、5つの臓器領域すべてを含めることで、重大なノイズが導入され、最終的な放射線科レポートの精度と特異性が損なわれる可能性があると仮定している。この問題に対処するため、我々は各臓器領域のクロスモーダル情報の重要度係数を評価する。さらに、我々はGNNの異なる項目（ノード）間の関係を分析する強みを活用する[51]。臓器領域のクロスモーダル情報の重要度係数 $\alpha_{\text{o}}$ は以下のように定義される：

\displaystyle\alpha_{\text{o}}=\text{MLP}\left(\sum_{u\in\mathcal{N}(v)}% \mathbf{W}^{(k)}\mathbf{h}_{u}^{(k-1)}+\mathbf{b}^{(k)}\right),

(6)

ここで、 $W$ は事前に生成された隣接行列であり、知識グラフから得られる[24]。 $\mathcal{N}(v)$ はノード $\mathcal{N}(v)\in\{x^{C}_{T},x^{C}_{\text{o}}\}$ の集合である。 $\mathbf{h}_{u}^{k-1}$ は最後の層のノード $u$ の値である。 $k$ は層の数、 $b$ は学習可能なバイアスであり、MLPは多層パーセプトロンである[48]。

そして、最終的なクロスモーダル特徴 $x^{C}_{F}$ は以下のプロセスから得られる：

x^{C}_{F}=x^{C}_{\text{o}}\sum_{i\in\phi}x^{C}_{i}\alpha_{i},

(7)

ここで、 $\phi$ は臓器集合{縦隔、胸膜、肺、心臓、骨}であり、 $\oplus$ は要素ごとの加算である。最終的に、我々は最終的な入力画像特徴 $x_{I}=x^{C}_{F}+x^{I_{r}}_{F}$ を得ることができる。ここで、 $x^{I_{r}}_{F}=E_{r}(I_{r})$ は画像特徴抽出器 $E_{r}$ の出力層から抽出された細粒度の生の画像特徴である。

3.4 Radiology Report Generation Module

[6]に従い、最終的な入力画像特徴 $x_{I}$ はエンコーダ-デコーダモデル[50]に入力され、最終的な放射線科レポートを生成する。具体的には、エンコーダモデルがまず画像特徴を抽出し、これがデコーダモデルで使用されて最終的な放射線科レポートが生成される。訓練過程において、我々はさらに一貫性制約損失を導入し、エンコーダ後の画像特徴 $\hat{x_{I}}$ とデコーダの埋め込み層後の放射線科レポート $x_{T}$ を整合させる。損失関数は以下のように定義される：

\small\mathcal{L}_{CS}=1-\frac{\hat{x_{I}}^{\top}x_{T}}{||\hat{x_{I}}||% \leavevmode\nobreak\ ||x_{T}||}.

(8)

全体の損失関数は以下のように定義される：

\small\mathcal{L}_{T}=\mathcal{L}_{CE}+\beta\times\mathcal{L}_{CS},

(9)

ここで、 $\mathcal{L}_{CE}$ はレポート生成のためのクロスエントロピー損失[38]であり、 $\mathcal{L}_{CS}$ はクロスモーダル一貫性損失であり、その係数 $\beta$ は通常0.1に設定される。

4 Experiment Settings

4.1 Datasets

我々の提案手法の有効性を厳密に評価するため、広く認知された2つの公開ベンチマークであるIU-Xray [10]とMIMIC-CXR [26]で実験を行った。IU-Xrayデータセット^†^††https://openi.nlm.nih.gov/faqは7,470枚の胸部X線画像と3,955件の対応する報告書を含んでいる。一方、MIMIC-CXRデータセット^‡^‡‡https://physionet.org/content/mimic-cxr/2.0.0/は、はるかに大規模であり、473,057枚の胸部X線画像と206,563件の関連報告書で構成されている。[6]で概説された方法論と一致させ、両データセットは訓練セット、検証セット、テストセットに7:2:1の比率で分割された。

4.2 Baseline and Evaluation Metrics

Baseline.

放射線科レポート生成タスクにおける我々のORIDフレームワークの性能を厳密に評価するため、我々は複数の最先端モデルとの比較分析を行う。具体的には、我々の手法をDCL [34]、MMTN [5]、M2KT [61]、C2M-DOT [54]、Lgi-MIMIC [65]、CMMRL [44]、R2GenCMN [6]、およびXRONET [53]と比較する。一部のモデルは明確な理由により評価から除外されている。RGRG [46]は、24層のデコーダーを含む非常に大規模なアーキテクチャを採用しており、他の研究者による再現性に大きな課題があるため除外された。同様に、RepsNet [47]とMETransformer [56]は、評価とテストに異なるデータセット分割を使用しているため除外された。さらに、KiUT [24]はソースコードが入手できず、結果の再現性が妨げられるため除外された。この厳密な選択プロセスにより、公平で一貫性のある比較が保証され、我々の評価の信頼性と結論の妥当性が強化される。

Evaluation Metrics.

本稿では、我々のモデルを評価するために、BLEU [42]、ROUGE-L [35]、METEOR [4]などの自然言語生成（NLG）指標を使用する。BLEUは単語n-gramの重複を測定し、ROUGE-Lは最長共通部分列を通じて文レベルの一貫性を評価し、METEORは精度、再現率、意味分析を用いてテキストの類似性を評価する。これらの指標は、生成された放射線科レポートの正確性と一貫性を堅牢に評価する。さらに、先行研究 [6, 43] に従い、我々はMIMIC-CXRデータセット [26] で生成されたレポートの品質を評価するために臨床的有効性指標を使用する。これらの指標は、事前に定義された臨床的に重要な所見の存在を評価することができ、それによって生成されたレポートの診断的正確性と関連性を対応する目標レポートと比較して測定することができる。

4.3 Implement Details

我々のアプローチでは、画像特徴抽出器としてResNet101 [18]を、マスク特徴抽出器としてResNet18 [18]を使用し、これらはImageNetで事前学習された重みで初期化される。放射線画像から臓器マスクをセグメンテーションするためにCXAS [45]モデルを使用する。異なる臓器間の関係を分析するために、8つのヘッドを持つグラフ注意ネットワーク [51]を採用する。LLaVA-Med-RRGと我々が提案するORIDフレームワークは、それぞれ4台と1台のNVIDIA A100 GPU（80G）で訓練される。画像抽出器には学習率 $1e-4$ 、他のコンポーネントには $5e-4$ で初期化されたAdamオプティマイザ [28]を使用する。放射線レポート生成モジュールのエンコーダ-デコーダは、教師強制法 [30]を用いて訓練される。推論時には、幅3のビームサーチ [14]を利用する。我々のモデルは、IU-Xray [10]データセットで100エポック、MIMIC-CXR [26]データセットで30エポック訓練される。モデルの堅牢性を高めるために、画像とマスクにはランダムクロッピングやランダム水平フリッピングなどのデータ拡張技術が適用される。両ベンチマークにおいて、心臓、肺、骨、胸膜、縦隔のマスク数はそれぞれ6、15、70、10、9である。上記5つの臓器の診断説明トークン長は39、53、48、43、41である。さらに、データセットに関連する最終的な放射線レポートは前処理され、句読点の削除や低頻度語（3回未満の出現）の $\mathtt{[UNK]}$ トークンへの変換が行われる。

5 Experiments

Method	CE Metric
Method	Precision	Recall	F1-Score
R2Gen [7]	0.333	0.273	0.276
CMMRL [43]	0.342	0.294	0.292
R2GenCMN [6]	0.334	0.275	0.278
METransformer [56]	0.364	0.309	0.311
ORID(Ours)	0.435	0.295	0.352

表2: MIMIC-CXRデータセットにおける臨床効果指標の比較。最良の結果は太字で表示されている。重要な指標は灰色で網掛けされている。

5.1 Comparison with State-of-the-art models

Descriptive Accuracy.

我々の記述正確性分析の結果を表1に示す。提案するORIDフレームワークは、両データセットにおいて評価されたすべての指標で最先端モデルと比較して優れた性能を示している。特に、IU-Xrayデータセットでは、ORIDがすべての指標で優れている。同様に、MIMIC-CXRデータセットでも、ORIDはすべてのBLEU指標とROUGE-Lで優れた性能を示している。我々の手法がMMTN [5]よりもわずかに低いMETEORスコアを得ていることが注目される。これは、我々のフレームワークが疾患の検出と分析に焦点を当てているため、レポートの多様性がわずかに減少したことに起因する可能性がある。

Clinical Correctness.

表2に、我々が提案するORIDモデルと4つの最先端モデル（R2Gen [7]、CMMRL [43]、METransformer [56]、R2GenCMN [6]）のMIMIC-CXRデータセット [26]における比較分析を示す。実験結果は、我々のモデルがすべての指標で優れた性能を示していることを示している。特に、METransformerと比較して、我々のモデルは精度で19.5%、F1スコアで13.2%の改善を達成している。これは、我々のフレームワークが臓器領域の情報を十分に活用し、臓器レベルの疾患分析能力を大幅に向上させたことに起因する。さらに、我々のフレームワークは、幅広い疾患の検出に優れた複数の専門家を活用するMETransformerと比較して、再現率で競争力のある結果を得ている。

5.2 Ablation Study and Analysis

Diagnosis Model	B@1	B@4	MTR.	RGL.
LLaVA-Med [32]	0.441	0.158	0.179	0.378
LLaVA-Med-RRG	0.501	0.198	0.211	0.400

表3: LLaVA-Med-RRGとLLaVA-Medの実験比較。最良の結果は太字で表示されている。最も重要な指標は灰色でマークされている。

Analysis on LLaVA-Med-RRG.

LLaVA-Med-RRGは、我々が構築した臓器レベルのRRG関連指示データセットに基づいて指示調整されている。このデータセットは、約4,000組の放射線画像-レポートペアから派生した約10,000組のQAペアで構成されている。具体的には、図5に示されているように、データセットには胸膜、心臓、肺、骨、縦隔について、それぞれ2.2k、2.1k、2.2k、2.1k、2.1kのペアが含まれている。すべての臓器領域の診断記述は簡潔で、20トークン未満である。さらに、図6に異なる臓器と全データセットのワードクラウド分析を示す。この分析は、各臓器に対するQAの多様性が大きいことを示しており、疾患関連のクエリ（胸水、肋骨骨折、肺水腫など）に主に焦点を当て、正常状態の分析にはあまり重点を置いていない。特筆すべきは、心臓疾患の相対的な希少性により、ほとんどの領域診断記述が心臓サイズに焦点を当てていることである。

我々は表3でLLaVA-Med-RRGとLLaVA-Medの比較実験を行っている。実験結果は、LLaVA-Med-RRGが下流のRRGタスクにおいて、評価されたすべての指標でLLaVA-Medを大きく上回ることを示している。図4は、LLaVA-Medと我々のモデルによって生成された臓器領域の記述の視覚的比較を提供している。この図は、LLaVA-Medによって生成された診断記述が過度に長く、しばしばノイズと不正確さを導入していることを示している。これらの問題は最終的に生成されるレポートに悪影響を与え、エラーの含有と長いトークンの処理による計算リソースの非効率的な使用につながる。対照的に、我々のモデルであるLLaVA-Med-RRGによって生成された記述は簡潔で、より関連性が高く、より正確で効率的な放射線レポート生成につながっている。

#	BL.	Mask	OCF		OICA	Dataset: IU-Xray [10]
#	BL.	Mask	F	C	OICA	B@1	B@4	MTR.	RGL.
1	✓					0.475	0.165	0.187	0.371
2	✓	✓				0.498	0.159	0.187	0.374
3	✓	✓	✓			0.501	0.170	0.206	0.360
4	✓	✓	✓	✓		0.503	0.172	0.211	0.354
5	✓	✓	✓	✓	✓	0.501	0.198	0.211	0.400

表4: ORIDの異なるモジュールに関するアブレーション実験。最良の結果は太字で表示されている。最も重要な指標は灰色でマークされている。

Ablation on Different Modules.

MIMIC-CXRデータセットの大規模さとCO2排出量を最小限に抑えるという我々の目的を考慮し、我々のアプローチにおける各モジュールの影響を評価するためにIU-Xrayデータセットでアブレーション実験を実施する。表4において、BLはベースラインモデルを、OCFは臓器ベースのクロスモーダル情報モジュール（セクション3.2）を、FとCはそれぞれ細粒度および粗粒度の分析を、OICAは臓器重要度係数分析モジュール（セクション3.3）を表している。表4の構成#1と#2の比較は、臓器マスクの組み込みがモデルのRRG能力を適度に向上させることを示している。この限定的な改善は、画像で臓器関連領域のみが強調されている場合、異常領域の識別と疾患検出が困難であることに起因する。しかし、OCFモジュールの導入は、#2と#3の比較が示すように、キャプションの正確性を大幅に向上させる。臓器特有の診断記述からのクロスモーダル特徴と画像特徴の融合は、最終レポートの正確性をすべての評価指標で顕著に向上させる。さらに、#3と#4の比較は、粗粒度と細粒度の分析を組み合わせることによる追加の利点を明らかにしている。最終的に、提案されたすべての貢献を含む#5は、様々な指標で大幅な性能向上を示している。

5.3 Qualitative Analysis

ORIDフレームワークの有効性を包括的に評価するため、我々はMIMIC-CXRデータセットに基づいて定性分析を実施した。定性的な例を図7に示す。ここでは、放射線科レポートにおいて胸膜、心臓、肺、骨、および縦隔を異なる色で特に強調している。図7に示されているように、ベースラインと比較して、OCFモジュールの統合により、肺疾患の詳細など、ベースラインよりも関連性の高い情報を含むレポートが生成され、望ましいレポート内容とより良く一致している。さらに、OICAモジュールの追加により、心臓に関する包括的な情報を組み込むことで最終レポートが改善されている。また、図7に5つの臓器領域の重要度係数を示しており、心臓、胸膜、肺が最高スコアを達成していることがわかる。その結果、最終レポートは主にこれら3つの臓器領域に重点を置いており、目標レポートに見られる強調を反映している。

6 Conclusion

本稿では、正確で信頼性の高い放射線科レポートを生成するための新規な臓器領域情報駆動型（ORID）フレームワークを提示する。まず、LLaVA-Medを活用し、臓器領域の診断記述を強化するためのRRG指向の指示データセットを確立し、LLaVA-Med-RRGを得た。次に、臓器特異的な診断記述と放射線画像からの情報を効果的に統合するため、臓器ベースのクロスモーダル融合モジュールを導入した。放射線科レポート生成における無関係な臓器ノイズの影響を軽減するため、我々はグラフニューラルネットワークを用いた臓器重要度係数分析モジュールを提案し、各臓器領域内のクロスモーダル情報の相互関連性を分析した。我々のフレームワークは、様々なベンチマークにおいて、多様な評価指標で優れた性能を示している。我々は、本研究が放射線科レポート生成分野に洞察を提供することを期待している。

Appendix A Appendix

A.1 Disease Symptom Graph

図 8 は、過去の疾患キャプションから導出された詳細な疾患症状の知識グラフを示している。このグラフは [24] を参照しており、放射線画像で観察される臓器とそれに対応する疾患の関係の専門的な分析に基づいて構築された。我々はこのグラフを利用して、指示チューニングデータセットとグラフニューラルネットワーク（GNN）の隣接行列を開発した。

A.2 Benchmark Information

Dataset	IU-Xray [10]			MIMIC-CXR [26]
Dataset	Train	Val.	Test	Train	Val.	Test
Image	5.2K	0.7K	1.5K	369.0K	3.0K	5.2K
Report	2.8K	0.4K	0.8K	222.8K	1.8K	3.3K
Patient	2.8K	0.4K	0.8K	64.6K	0.5K	0.3K
Avg. Len.	37.6	36.8	33.6	53.0	53.1	66.4

表5: ORIDモデルのテストに使用される2つのベンチマークデータセットの仕様。

表 5 は、我々のORIDフレームワークを評価するために使用された2つのベンチマークデータセットに関する包括的な情報を示している。データによると、MIMIC-CXRデータセットはIU-Xrayデータセットと比較して、より多くのケース数を含んでいることが分かる。

A.3 Mask Information

Organ Mask	Num.	Region	Total Mask
Lung lobes	5	Lung	159
Lung zones	8
Lung halves	2
Heart region	6	Heart
Mediastinum	6	Mediastinum
Diaphragm	3	Mediastinum
Ribs	46	Bone
Ribs super	24	Bone
Trachea	2	Pleural
Vessels	6
Breast Tissue	2
…	…	…

表6: CXASモデル [45] によって生成されたマスクの具体的な情報、および我々が最終的に使用したマスク画像。

表 6 は、各臓器セットに含まれる小さな臓器マスクに関する具体的な詳細を提供している。さらに、これらのマスクセットと元の画像の可視化を図 9 に示す。

A.4 Instruction-tuning Dataset

図10は教示チューニングデータセットの例を示している。特筆すべきは、各画像に対して様々な臓器に関する4つ以上の質問-回答ペアが付随していることである。

A.5 Case Study

我々は図11において、我々のORIDフレームワークによって生成された結果と真値を比較して示した。また、胸膜、心臓、肺、骨、および縦隔を異なる色で標識した。より具体的には、例1は心臓と肺に関連する疾患症状を示しており、例2は心臓に関連する疾患症状を示している。

References

[1] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
[2] J. B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, and K. Simonyan. Flamingo: a visual language model for few-shot learning. In NeurIPS, 2022.
[3] Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2018.
[4] S. Banerjee and A. Lavie. Meteor: An automatic metric for mt evaluation with improved correlation with human judgments. In ACL, 2005.
[5] Y. Cao, L. Cui, L. Zhang, F. Yu, Z. Li, and Y. Xu. Mmtn: Multi-modal memory transformer network for image-report consistent medical report generation. In AAAI, 2024.
[6] Z. Chen, Y. Shen, Y. Song, and X. Wan. Cross-modal memory networks for radiology report generation. In ACL, 2022.
[7] Z. Chen, Y. Song, T. H. Chang, and X. Wan. Generating radiology reports via memory-driven transformer. In EMNLP, 2020.
[8] M. Cornia, M. Stefanini, L. Baraldi, and R. Cucchiara. Meshed-memory transformer for image captioning. In CVPR, 2019.
[9] Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, and Rita Cucchiara. Meshed-memory transformer for image captioning. In CVPR, 2020.
[10] D. Demner-Fushman, M. D. Kohli, M. B. Rosenman, S. E. Shooshan, L. Rodriguez, S. Antani, and C. J. McDonald. Preparing a collection of radiology examinations for distribution and retrieval. Journal of the American Medical Informatics Association, 2016.
[11] S. Dodia, B. Annappa, and P. A. Mahesh. Recent advancements in deep learning based lung cancer detection: A systematic review. Engineering Applications of Artificial Intelligence, 2022.
[12] Jeffrey Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, and Trevor Darrell. Long-term recurrent convolutional networks for visual recognition and description. In CVPR, 2015.
[13] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In ICCV, 2020.
[14] Markus Freitag and Yaser Al-Onaizan. Beam search strategies for neural machine translation. ACL, 2017.
[15] Jiuxiang Gu, Gang Wang, Jianfei Cai, and Tsuhan Chen. An empirical study of language cnn for image captioning. In CVPR, 2017.
[16] Tiancheng Gu, Dongnan Liu, Zhiyuan Li, and Weidong Cai. Complex organ mask guided radiology report generation. In WACV, 2024.
[17] Tiancheng Gu, Kaicheng Yang, Dongnan Liu, and Weidong Cai. Lapa: Latent prompt assist model for medical visual question answering. In CVPR Workshops, 2024.
[18] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2015.
[19] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 1997.
[20] Wenjun Hou, Yi Cheng, Kaishuai Xu, Wenjie Li, and Jiang Liu. RECAP: Towards precise radiology report generation via dynamic disease progression reasoning. In EMNLP, 2023.
[21] Wenjun Hou, Kaishuai Xu, Yi Cheng, Wenjie Li, and Jiang Liu. ORGAN: Observation-guided radiology report generation via tree reasoning. In ACL, 2023.
[22] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei. Attention on attention for image captioning. In CVPR, 2019.
[23] Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, et al. Language is not all you need: Aligning perception with language models. NeurIPS, 2024.
[24] Z. Huang, X. Zhang, and S. Zhang. Kiut: Knowledge-injected u-transformer for radiology report generation. In CVPR, 2023.
[25] Baoyu Jing, Pengtao Xie, and Eric Xing. On the automatic generation of medical imaging reports. In ACL, 2018.
[26] A. E. Johnson, T. J. Pollard, S. J. Berkowitz, N. R. Greenbaum, M. P. Lungren, C. Y. Deng, and S. Horng. Mimic-cxr, a de-identified publicly available database of chest radiographs with free-text reports. Scientific Data, 2019.
[27] L. P. Kaelbling, M. L. Littman, and A. W. Moore. Reinforcement learning: A survey. Journal of artificial intelligence research, 1996.
[28] D. P. Kingma and J. Ba. Adam: a method for stochastic optimization. In ICLR, 2014.
[29] Yogesh Kumar and Pekka Marttinen. Improving medical multi-modal contrastive learning with expert annotations. In ECCV, 2024.
[30] Alex M Lamb, Anirudh Goyal ALIAS PARTH GOYAL, Ying Zhang, Saizheng Zhang, Aaron C Courville, and Yoshua Bengio. Professor forcing: A new algorithm for training recurrent networks. NeurIPS, 2016.
[31] J. J. Lau, S. Gayen, A. Ben Abacha, and D. Demner-Fushman. A dataset of clinically generated visual questions and answers about radiology images. Scientific Data, 2018.
[32] C. Li, C. Wong, S. Zhang, N. Usuyama, H. Liu, and J. Yang. Llava-med: Training a large language-and-vision assistant for biomedicine in one day. In NeurIPS, 2023.
[33] J. Li, R. Selvaraju, A. Gotmare, S. Joty, C. Xiong, and S. C. H. Hoi. Align before fuse: Vision and language representation learning with momentum distillation. In NeurIPS, 2021.
[34] M. Li, B. Lin, Z. Chen, H. Lin, X. Liang, and X. Chang. Dynamic graph enhanced contrastive learning for chest x-ray report generation. In CVPR, 2023.
[35] C. Y. Lin. Rouge: A package for automatic evaluation of summaries. In Text Summarization Branches Out, 2004.
[36] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. NeurIPS, 2024.
[37] Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, Jason Wei, et al. The flan collection: Designing data and methods for effective instruction tuning. In ICML, 2023.
[38] Anqi Mao, Mehryar Mohri, and Yutao Zhong. Cross-entropy loss functions: Theoretical analysis and applications. In ICML, 2023.
[39] Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, and Ahmed Awadallah. Orca: Progressive learning from complex explanation traces of gpt-4. arXiv preprint arXiv:2306.02707, 2023.
[40] Van-Quang Nguyen, Masanori Suganuma, and Takayuki Okatani. Grit: Faster and better image captioning transformer using dual visual features. In ECCV, 2022.
[41] Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei. X-linear attention networks for image captioning. In CVPR, 2020.
[42] K. Papineni, S. Roukos, T. Ward, and W. J. Zhu. Bleu: a method for automatic evaluation of machine translation. In ACL, 2002.
[43] H. Qin and Y. Song. Reinforced cross-modal alignment for radiology report generation. In ACL, 2022.
[44] H. Qin and Y. Song. Reinforced cross-modal alignment for radiology report generation. In ACL, 2022.
[45] C. Seibold, A. Jaus, M. A. Fink, M. Kim, S. Reiß, K. Herrmann, and R. Stiefelhagen. Accurate fine-grained segmentation of human anatomy in radiographs via volumetric pseudo-labeling. arXiv preprint arXiv:2306.03934, 2023.
[46] T. Tanida, P. Müller, G. Kaissis, and D. Rueckert. Interactive and explainable region-guided radiology report generation. In CVPR, 2023.
[47] A. K. Tanwani, J. Barral, and D. Freedman. Repsnet: Combining vision with language for automated medical reports. In MICCAI, 2023.
[48] Ilya O Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, et al. Mlp-mixer: An all-mlp architecture for vision. NeurIPS, 2021.
[49] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
[50] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, and I. Polosukhin. Attention is all you need. In NeurIPS, 2017.
[51] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Liò, and Yoshua Bengio. Graph attention networks. In ICLR, 2018.
[52] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Show and tell: A neural image caption generator. In CVPR, 2015.
[53] Jun Wang, Abhir Bhalerao, and Yulan He. Cross-modal prototype driven network for radiology report generation. In ECCV, 2022.
[54] R. Wang, X. Wang, J. Zhou, T. Lukasiewicz, and Z. Xu. C2m-dot: Cross-modal consistent multi-view medical report generation with domain transfer network. MIA, 2023.
[55] S. Wang and R. M. Summers. Machine learning and radiology. MIA, 2012.
[56] Z. Wang, L. Liu, L. Wang, and L. Zhou. Metransformer: Radiology report generation by transformer with multiple learnable expert tokens. In CVPR, 2023.
[57] Penghao Wu and Saining Xie. V?: Guided visual search as a core mechanism in multimodal llms. In CVPR, 2024.
[58] Yin Xie, Kaicheng Yang, Ninghua Yang, Weimo Deng, Xiangzi Dai, Tiancheng Gu, Yumeng Wang, Xiang An, Yongle Zhao, Ziyong Feng, et al. Croc: Pretraining large multimodal models with cross-modal comprehension. arXiv preprint arXiv:2410.14332, 2024.
[59] Hao Xu, Tengfei Xue, Dongnan Liu, Fan Zhang, Carl fredrik Westin, Ron Ron Kikinis, Lauren Jean O’Donnell, and Weidong Cai. An uncertainty-distillation- and voxel-contrast-based framework for one-shot segmentation of novel white matter tracts. In MIDL, 2024.
[60] Hao Xu, Tengfei Xue, Dongnan Liu, Fan Zhang, Carl-Fredrik Westin, Ron Kikinis, Lauren J. O’Donnell, and Weidong Cai. A registration- and uncertainty-based framework for white matter tract segmentation with only one annotated subject. In ISBI, 2023.
[61] S. Yang, X. Wu, S. Ge, Z. Zheng, S. K. Zhou, and L. Xiao. Radiology report generation with a learned knowledge base and multi-modal alignment. MIA, 2021.
[62] Xingyi Yang, Muchao Ye, Quanzeng You, and Fenglong Ma. Writing by memorizing: Hierarchical retrieval-based medical report generation. In ACL, 2021.
[63] Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo, Zhangchi Feng, and Yongqiang Ma. Llamafactory: Unified efficient fine-tuning of 100+ language models. In ACL, 2024.
[64] Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. Minigpt-4: Enhancing vision-language understanding with advanced large language models. arXiv preprint arXiv:2304.10592, 2023.
[65] Q. Zhu, T. S. Mathai, P. Mukherjee, Y. Peng, R. M. Summers, and Z. Lu. Utilizing longitudinal chest x-rays and reports to pre-fill radiology reports. In MICCAI, 2023.

ORID: Organ-Regional Information Driven Framework for Radiology Report Generation