arXiv	https://arxiv.org/abs/2411.10867
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

$\mathbbmss{ViBe}$ : A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

Author One¹¹1Corresponding author.
Affiliation One
email@domain.com Author Two²²2Equal contribution.
Affiliation Two
email@domain.com Author Three ³³footnotemark: 3
Affiliation Three
email@domain.com Vipula Rawte¹¹¹1Corresponding author., Sarthak Jain²²²2Equal contribution., Aarush Sinha³²²2Equal contribution., Garv Kaushik⁴²²2Equal contribution., Aman Bansal⁵²²2Equal contribution.,
Prathiksha Rumale Vishwanath⁵²²2Equal contribution., Samyak Rajesh Jain⁶, Aishwarya Naresh Reganti⁷⁴⁴4Work independent of the position.,
Vinija Jain⁸⁴⁴4Work independent of the position., Aman Chadha⁹⁴⁴4Work independent of the position., Amit Sheth¹, Amitava Das¹
¹AI Institute, University of South Carolina, USA
²Guru Gobind Singh Indraprastha University, India
³Vellore Institute of Technology, India
⁴Indian Institute of Technology (BHU), India
⁵University of Massachusetts Amherst, USA
⁶University of California, Santa Cruz, USA
⁷Amazon Web Services, USA
⁸Meta, USA, ⁹Amazon GenAI, USA
{vrawte}@mailbox.sc.edu
https://vibe-t2v-bench.github.io/

Abstract

大規模マルチモーダルモデル（LMM）の最新の発展により、その能力は動画理解にまで拡大している。特に、テキストから動画への（T2V）モデルは、品質、理解力、および動画の長さにおいて大きな進歩を遂げ、単純なテキストプロンプトから動画を作成することに優れている。しかし、依然として頻繁に、明らかにAIが生成したことを示すような幻覚的なコンテンツを生成している。我々は $\mathbbmss{ViBe}$ を紹介する：T2Vモデルから生成された幻覚的な動画の大規模なテキストから動画へのベンチマークである。我々は幻覚の5つの主要なタイプを特定した：消失する被写体、数値の変動性、時間的形態異常、省略エラー、および物理的不整合である。10のオープンソースT2Vモデルを使用して、我々は人間によってこれら5つのカテゴリーに注釈付けされた3,782の動画からなる、幻覚的な動画の最初の大規模データセットを開発した。このデータセットは、MS COCOのキャプションを用いてT2Vモデルにプロンプトを与え、結果を幻覚のタイプごとに手動で分類することで作成された。 $\mathbbmss{ViBe}$ は、T2Vモデルの信頼性を評価するためのユニークなリソースを提供し、動画生成における幻覚の検出と軽減を改善するための基盤を提供する。我々は分類をベースラインとして確立し、様々なアンサンブル分類器の構成を提示する。TimeSFormer + CNNの組み合わせが最も優れたパフォーマンスを示し、0.345の精度と0.342のF1スコアを達成した。本ベンチマークは、入力プロンプトとより正確に一致した動画を生成する堅牢なT2Vモデルの開発を促進することを目的としている。

1 Introduction

テキストから動画への変換モデルは近年、大きな進歩を遂げており、テキストプロンプトから印象的な一貫性と視覚的忠実度を持つ動画コンテンツを生成することが可能になっている。これらのモデルは、入力テキストの意味に対応する複雑な視覚的詳細を効果的に捉えた高品質の動画を生成する能力を徐々に向上させてきた。しかしながら、これらの進歩にもかかわらず、この分野で最も差し迫った課題の一つは、幻覚されたコンテンツの生成—テキストプロンプトで記述された意図されたシーンと不一致または歪曲する視覚的要素—である。幻覚はT2V出力の現実性と信頼性を損なうため、コンテンツ制作、教育、シミュレーションシステムなど、入力テキストへの正確な遵守が最重要である応用分野において重大な問題となっている。

この問題に対応するため、我々は $\mathbbmss{ViBe}$ を導入する。これはT2Vモデル内の幻覚を体系的に調査し分類することを目的とした包括的な大規模データセットである。このデータセットは、MS-COCOデータセットからランダムに選択された700のキャプションを収集し、それらを用いてMS1.7B、MagicTime、AnimateDiff-MotionAdapter、Zeroscope V2 XLを含む10の主要なオープンソースT2Vモデルにプロンプトを与えることで開発された。結果として得られたデータセットは3,782の動画で構成され、それぞれに人間による注釈が付けられ、T2V生成で頻繁に遭遇する様々な種類の幻覚を特定している。これらには、主要なシーン構成要素の省略、被写体数の不一致、時間的不整合、物理的不整合、予期せず消失する被写体などのエラーが含まれる。

$\mathbbmss{ViBe}$ は、T2Vモデルにおける幻覚検出を評価し、進歩させるための貴重なリソースとして機能する。このデータセットは詳細な分析を可能にするために綿密に注釈が付けられており、研究者に現在のT2Vシステムの限界を評価し、これらのエラーを減少させるための方法論を探求するためのツールを提供している。幻覚を分類するための標準化されたフレームワークを提供し、ベンチマークを確立することで、 $\mathbbmss{ViBe}$ は入力テキストの意図された意味内容をより良く反映する、より正確で信頼性の高いT2Vモデルの開発への道を開く。

要約すると、本稿の主要な貢献は以下の通りである：

•

テキストから視覚への幻覚現象を評価するための新しいベンチマークである $\mathbbmss{ViBe}$ を導入する。このベンチマークは、モデルがテキスト入力から視覚的コンテンツを生成する能力を厳密に評価するように設計されており、特に生成された視覚の正確性、一貫性、および提供されたテキスト記述との忠実性に焦点を当てている（セクション 3参照）。
•

幻覚（生成された視覚が入力テキストから逸脱したり誤って表現したりする事例）を定量化するための標準化されたフレームワークを提供することで、 $\mathbbmss{ViBe}$ はT2Vモデルのエラーの理解と軽減を促進し、それらの整合性と信頼性の向上を促すことを目指している（セクション 3参照）。
•

様々な分類モデルの包括的なベンチマーク評価を実施し、正確性やF1スコアなどの主要な指標にわたってそれらの性能を評価する（セクション 4参照）。

2 Related Work

生成モデルにおけるハルシネーション現象は、テキスト、画像、動画など様々なモダリティにわたって広範に研究されている[22]。テキスト生成の分野では、GPT-3[3]のような大規模言語モデル（LLM）が、構文的には妥当であるものの、事実的な正確性を欠いていたり、入力プロンプトと矛盾する内容を生成する能力を示している。このハルシネーションの問題に対しては、Hallucinations Leaderboard[11]などの特殊なベンチマークの開発を通じて体系的に取り組まれており、これはハルシネーションを含むタスクにおけるLLMの評価フレームワークを提供している。

画像生成：DALL-E[21]やImagen[23]などのテキストから画像を生成するモデルは、テキストの説明に基づいて非常にリアルな画像を生成する高度な能力を示している。しかしながら、これらのモデルも、アーティファクトの生成や入力説明と矛盾する視覚要素の生成から免れているわけではない。この問題に対処するため、Hallucination Detection dataset (HADES)[15]のようなデータセットが導入され、自由形式のテキストから画像生成におけるトークンレベルの参照なしハルシネーション検出のベンチマークを提供している。

動画生成：動画生成におけるハルシネーションの課題は、フレームのシーケンス全体で時間的一貫性を維持する必要があるため、より複雑になる。この分野における最近の進展は、この問題の緩和を目指している。例えば、Sora Detector[5]は、大規模なT2Vモデルにおけるハルシネーションを検出するための統一されたフレームワークを提示している。このアプローチは、キーフレーム抽出や知識グラフ構築などの技術を組み込み、個々のフレーム内および動画シーケンスの時間的次元にわたる不整合を特定する。さらに、VideoHallucerベンチマーク[30]は、オブジェクト関係、時間的、意味的詳細、外因的事実、外因的非事実的ハルシネーションなど、様々なタイプに分類することで、動画からテキストへのモデルにおけるハルシネーションの詳細な評価を提供している。

これらの進歩にもかかわらず、T2Vモデルにおけるハルシネーションに特化した大規模な人手アノテーションデータセットの利用可能性には依然として大きな隔たりがある。 $\mathbbmss{ViBe}$ データセットは、T2Vモデルにおけるハルシネーションの体系的な研究と評価のための包括的なリソースを提供することで、この隔たりに対処するよう設計されている。ハルシネーションを異なる種類に分類し、大量のアノテーション付きビデオデータを提供することで、 $\mathbbmss{ViBe}$ はT2Vモデルにおけるハルシネーションの検出と軽減を目的とした手法の開発と評価のための重要なベンチマークとして機能する。

異なるモダリティにおけるハルシネーションの理解と軽減に関して顕著な進歩が見られる一方で、 $\mathbbmss{ViBe}$ データセットはT2Vモデルの特定の文脈において重要な前進を表している。本データセットは、研究者や実務者に、より正確で信頼性の高いビデオ生成システムを開発するために必要なツールを提供し、最終的にT2V技術の忠実性と適用可能性を向上させるものである。

3 Dataset

3.1 Dataset construction

$\mathbbmss{ViBe}$ データセットを構築するために、我々はMS COCOデータセットから700のランダムなキャプションを選択した[14]。MS COCOは多様で説明的なテキストプロンプトで知られており、T2Vモデルの生成性能を評価するための理想的なリソースである。これらのキャプションは、その後、10の異なるオープンソースT2Vモデルへの入力として使用された。これらのモデルは、様々なアーキテクチャ、モデルサイズ、トレーニングパラダイムを代表するように選択された。本研究に含まれる具体的なモデルは以下の通りである：(i) MS1.7B [1]、(ii) MagicTime [33]、(iii) AnimateDiff-MotionAdapter [9]、(iv) zeroscope_v2_576w [24]、(v) zeroscope_v2_XL [25]、(vi) AnimateLCM [29]、(vii) HotShotXL [19]、(viii) AnimateDiff Lightning [13]、(ix) Show1 [35]、(x) MORA [34]。

これらのモデルはMS COCOのキャプションに基づいてビデオ出力を生成し、それらは幻覚の存在と頻度を特定するために体系的に分析された。これらのオープンソースモデルに加えて、我々は2つのクローズドソースの最先端モデル、Runway [8]とLuma [17]を使用して約40-50本のビデオも制作した。オープンソースとクローズドソースの両方のモデルから生成されたビデオは、幻覚の例を強調するために厳密に検証され、両モデルカテゴリーにわたってそのようなアーティファクトが広く存在することをさらに裏付けた。この分析は、幻覚がオープンソースかクローズドソースかに関わらず、多様なT2Vシステムにわたって広く見られることの証拠を提供している。このパイプラインは図 3に記述されている。

Refer to caption — 図2: T2V幻覚の様々なカテゴリーに関するデータセット統計。5つのカテゴリーには以下が含まれる：消失する主体、数値の変動性、時間的異形、省略エラー、物理的不整合。数字はそれぞれのカテゴリー内の幻覚ビデオの分布を表している。

3.2 Hallucination Categories

観察された様々な種類の幻覚を体系的に分類するために、我々は図2に示す5つの異なるカテゴリーを確立した。これらはT2V出力に存在する一般的な幻覚の大部分を網羅している。

1.

消失する主体 (VS)：生成された動画内の主体、またはその一部が、動画の任意の時点で断続的に消失する（図4参照）。

図4: プロンプト：鍋に食べ物をすくう男性。消失する主体：男性が食べ物を鍋に移す様子が観察されるが、詳細な分析により、シーケンスの終盤で視覚的な異常が発生する。男性の手にある食べ物が鍋に近づくにつれて一貫して描画されず、視覚的フレームから効果的に消失する。この異常は幻覚アーティファクトを示しており、モデルが空間的・時間的文脈において物体の永続性と連続性を維持できず、行動が完了する前に物体が消失する結果となっている。
2.

数値の変動性 (NV)：与えられたプロンプトで主体の数が指定されている場合、生成された動画では主体のインスタンス数が増加または減少する（図5参照）。

図5: プロンプト：屋外の窯に手を置いている6人の人々。数値の変動性：プロンプトは窯と相互作用する6人の個人を含む屋外のシーンを指定している。しかし、生成されたコンテンツでは2人の個人しか描かれていない。これは幻覚の一例であり、モデルが元の入力から逸脱し、参加者の指定された数など重要な詳細を誤って表現している。
3.

時間的形態異常 (TD)：動画内でレンダリングされたオブジェクトが連続的な時間的変形を示し、シーケンスの持続時間にわたって形状、スケール、または方向が徐々にまたは断続的に変化する（図6参照）。

図6: プロンプト：アスレチックウェアを着た男性が空中でテニスラケットを振る。時間的形態異常：動画全体を通して、男性とラケットの両方が視覚的に一貫性のない歪みを受け、時間的および空間的な異常が生じている。システムが生成したアーティファクトにより、男性の形態とラケットの構造に不規則性が導入され、動きに伴って形状、スケール、位置が変動し、意図された行動の連続性が乱れている。
4.

省略エラー (OE)：生成された動画が初期プロンプトの重要な要素を省略している（図7参照）- 指定された主体の数を含む場合を除く - その結果、不完全または不正確な描写となるか、または脚本にない行動や振る舞いを導入し、意図されたシーンの誤った表現につながる。

図7: プロンプト：大きな象の後ろを歩く赤ちゃん象。省略エラー：元のプロンプトは大きな象の後ろを歩く赤ちゃん象のシーンを描写している。しかし、出力はこの説明を正確に反映していない。シーンに赤ちゃん象の実際の表現が現れていないためである。この不一致は幻覚の一形態を例示しており、モデルが入力プロンプトで指定された特定の要素を誤解釈するか、含めることに失敗している。この例では、プロンプトが赤ちゃん象に言及しているにもかかわらず、生成された出力には存在せず、重要な要素の省略につながっている。
5.

物理的不整合 (PI)：生成された動画が基本的な物理法則に違反するか、不適合な要素を並置する（図8参照）。これにより、視聴者に知覚的な矛盾や認知的不協和を引き起こす。

図8: プロンプト：人混みの中を歩く動物。物理的不整合：群衆の中を自然に移動する動物を描写する代わりに、モデルは意図しない変形を導入し、動物が石や岩でできているかのように群衆の上に位置しているように見える。このアーティファクトは、動物に硬い彫像のような外観を与え、人々との意図された動的な相互作用と矛盾する。群衆も反復的なパターンのように見え、違和感を引き起こす。結果として、モデルの出力はプロンプトから逸脱し、不自然なテクスチャと非現実的な空間的位置を導入し、シーンの視覚的特徴と意図されたコンテキストの両方を誤って表現している。

物理的不整合と時間的形態異常は幻覚の主要なカテゴリーを代表し、現在のT2Vモデルで観察される幻覚コンテンツの50%以上を占める。この分布は、これらのモデルが生成された画像とテキスト入力との間の論理的一貫性を確保すること、およびプロンプトで指定されたすべての要素を忠実に表現することに頻繁に課題を抱えていることを示唆している。

一方、最も頻度の低い消失する主体カテゴリーは、T2Vモデルが時折主要な主体を一貫して描写することに苦労していることを示している。しかし、この問題は物理的な不整合や省略よりも稀であり、T2Vの幻覚において主体の保持がより一般的でないことを強調している。

幻覚なし：生成された動画が与えられたコンテキストを正確に反映し、余分な要素や捏造された要素がなく、幻覚がないことを確認する。視覚的出力がプロンプトの現実世界の描写とシームレスに一致し、シナリオに忠実であり、ありえない要素を避けている（図9参照）。

2アノテーターに各幻覚カテゴリーの定義、追加基準、および例を指定した包括的なガイドラインを提供する。

3 各カテゴリーのサンプル動画を確認してトレーニングを実施し、その後、アノテーターの理解度を評価するために、5つの動画（各カテゴリーを代表する）を分類させる。

4 検証プロセスを通じてアノテーターのパフォーマンスを評価し、参照アノテーションと少なくとも60%の一致（5つの動画のうち3つを正しく分類）を達成することを要求し、進行を許可する。

アルゴリズム1 アノテーションガイドライン

3.3 Dataset Analysis

T2Vオープンソースモデルによって生成された動画は1〜2秒の長さで、合計3,782本の個別動画からなるデータセットを構成している。これらは、事前に定義された5つの幻覚カテゴリーのいずれかに対応する特徴を示している。この分布により、多様なデータセットが確保され、幻覚的要素を含むコンテンツの包括的な評価と分析が可能となっている。表 1は、異なる動画モデル間での幻覚カテゴリーの分布を示している。

T2V Model	VS	NV	TD	OE	PI	Total
AnimateLCM [29]	2	70	70	70	70	282
zeroscope_v2_XL [25]	18	0	37	109	199	363
Show1 [35]	13	71	88	111	55	338
MORA [34]	82	96	99	202	215	694
AnimateDiff Lightning [13]	11	33	52	56	63	215
AnimateDiff-MotionAdapter [9]	28	59	158	182	94	521
MagicTime [33]	70	70	70	69	70	349
zeroscope_v2_576w [24]	17	0	41	115	187	360
MS1.7B [1]	51	50	70	70	70	311
HotShotXL [19]	70	70	70	69	70	349
Total	362	519	755	1053	1093	3782

表1: 様々な幻覚カテゴリーにおけるモデル間のデータ比較と合計

Hallucination Categories	Cohen’s Kappa	Krippendorff’s Alpha
Vanishing Subject	0.7660	0.7669
Numeric Variability	0.8500	0.8508
Temporal Dysmorphia	0.8173	0.8181
Omission Error	0.7474	0.7487
Physical Incongruity	0.8737	0.8743

表2: アノテーター間の一致度を測定する効果を評価するため、コーエンのカッパとクリッペンドルフのアルファスコアに焦点を当てた、アノテーター間一致度指標の比較分析。

3.4 Annotation Details

$\mathbbmss{ViBe}$ の3,782本の動画それぞれに、識別された最も顕著な幻覚タイプに対応するラベルが割り当てられた。一部の動画には複数の幻覚が含まれている可能性があるが、我々はアノテーションプロセスの一貫性を確保するため、各動画を最も支配的な幻覚カテゴリーに従ってアノテーションすることを選択した。

3.5 Human Annotation

10種類のT2Vモデルにわたって合計6,950本の動画が生成されたが（モデルごとに695本）、人間による注釈付けはリソース集約的であるため、限られたサンプルに対してのみ実施された。注釈付けのガイドラインはアルゴリズム 1に示されている。

3.5.1 Inter-Annotator Agreement

我々の注釈の一貫性と信頼性を評価するため、各幻覚カテゴリーについてCohenのカッパ係数（ $\kappa$ ）[31]とKrippendorffのアルファ係数（ $\alpha$ ）[32]を計算した。これらの注釈者間一致度の指標は、異なる注釈者の分類がどの程度収束しているかを定量的に評価するものである。表 2における同一の注釈者間一致度スコアは、サンプルサイズが限られていることに起因する。動画の注釈プロセスには2名の注釈者^*^**大学院生2名のみが関与したためである。これにより、より大規模な注釈者グループで観察される可能性のある解釈の相違や不一致の可能性が制限されている。結果は、ほとんどのカテゴリーで高レベルの一致を示しており、注釈プロセスの堅固な一貫性を示している。

我々の分析によると、物理的不整合カテゴリーが最も高い注釈者間信頼性を示し、 $\kappa$ と $\alpha$ の両方が0.87の値に達した。これは、この特定の種類の幻覚を識別する基準が明確かつ適切に定義されており、注釈者間で一貫した判断につながっていることを示唆している。一方、省略エラーカテゴリーは最も低い一致度スコアを示し、 $\kappa$ と $\alpha$ がそれぞれ0.7474と0.7487であった。この低い一貫性は、時間ベースの歪みを評価する主観的な性質に起因し、注釈者間で解釈や識別の閾値が異なる可能性がある。

注釈者間の課題：1つの動画内で複数の幻覚が発生する可能性があり、人間の認知はそのうちの1つを優先する傾向がある。図 10に示す例は、注釈者間の一致度を評価するために使用された動画から選ばれたものである。当初は消失する被写体としてラベル付けされたが、後続の注釈者は物理的不整合として分類した。両方の解釈が妥当である：フリスビーが時間とともに消失する（消失する被写体）一方で、レンダリングされたプレイヤーとカメラアングルの不一致が認知的不協和を生み出している（物理的不整合）。

3.6 Open-source vs. Closed-source T2V models

非オープンソースモデルは通常、4秒を超える動画を生成するが、我々の研究におけるすべての10のオープンソース動画は最大2秒に制限されていた。非オープンソースモデルにもハルシネーションは存在するが、その頻度は低いように見える。各モデルで生成された40の動画のうち、少なくとも6〜8の動画がハルシネーションを示さなかった。これは、非オープンソースモデルがオープンソースモデルと比較して、与えられたプロンプトにより忠実かつ一貫して従う傾向があることを示唆している。動画の品質とレンダリングされたオブジェクトの明瞭さは、非オープンソースモデルの方が優れている。対照的に、オープンソースモデル、特に低解像度の動画では、オブジェクトが変形しているのか、あるいは動画の解像度が低いために時間的な形態異常が存在するのかを判別することが困難になる場合がある。

4 Benchmark

ビデオ幻覚の課題が増大する中、この問題に取り組むことは極めて重要である。現在、文献に含まれるT2V幻覚のベンチマークは、T2VHaluBench [5]のみであり、これはわずか50本のビデオで構成されているため、堅固な評価には限界がある（表 3）。この問題を克服するため、我々はさらなる研究を推進するためのより包括的なベンチマークを提案し、幻覚カテゴリ予測をサポートするいくつかの古典的な分類ベースラインを提供する。本稿は、このベンチマークがこの分野の研究を進展させる上で重要なリソースになると考えている。

T2V Hallucination Benchmark	# Videos
T2VHaluBench [4]	50
$\mathbbmss{ViBe}$	3,782

表3: 現在のT2V幻覚ベンチマークであるT2VHaluBenchは、そのデータセットのサンプルサイズが小さいことによって制限されている。対照的に、我々のデータセットは3,782本の動画からなる大規模なコレクションを含み、それを大きく上回り、T2V幻覚現象を評価するためのより包括的で堅固な基盤を提供している。

4.1 T2V Hallucination Classification

我々は、様々な分類モデルを用いて $\mathbbmss{ViBe}$ データセットを評価する。また、テキストから動画生成における幻覚を分類する新しいタスクを提示する。最初のステップでは、2つの事前学習モデル、VideoMAE（データ効率の良い事前学習のためのビデオマスク自己符号化器）[27]とTimeSFormer（ビデオ理解のための時空間注意ネットワーク）[2]から動画埋め込みを抽出する。これらの抽出された埋め込みは、その後、7つの異なる分類アルゴリズムの特徴表現として使用される：Long Short-Term Memory (LSTM) [26]、Transformer [28]、Convolutional Neural Network (CNN) [12]、Gated Recurrent Unit (GRU) [6]、Recurrent Neural Network (RNN) [18]、Random Forest (RF) [10]、およびSupport Vector Machine (SVM) [7]。異なるモデルアーキテクチャにわたるこの包括的な評価により、与えられた動画データセットの分類における性能の徹底的な比較が可能となる。

4.2 Experimental Setup

データセットは訓練用に80%、テスト用に20%に分割され、Adam/AdamWオプティマイザが使用された[16]。追加の詳細は表 4に示されている。

	Hyperparameters
Model	# epochs	batch size	optimizer	loss
GRU	30	32	AdamW	categorical_crossentropy
LSTM	120	128	Adam	categorical_crossentropy
Transformer	100	128	Adam	categorical_crossentropy
CNN	100	128	Adam	categorical_crossentropy
RNN	120	128	Adam	categorical_crossentropy
RF	N/A
SVM	N/A

表4: 分類器訓練プロセス中に使用されたモデルのハイパーパラメータの仕様：RFとSVM分類器の両方について、scikit-learn [20]のデフォルト設定が適用された。

分類は、個々のフレームに対して動作するTimeSformerとVideoMAEモデルによって抽出された動画埋め込みを使用して実行された。ただし、分類タスクはフレームごとのアプローチを明示的に利用しなかった。

4.3 Results and Analysis

表 5は、VideoMAEとTimeSFormerの埋め込みという2つの異なる特徴セットにおける各モデルの性能指標（精度とF1スコア）の包括的な比較を示している。

VideoMAEの埋め込みで訓練されたモデルについては、RFモデルが最高の精度を示し、0.331を達成した。しかし、LSTMモデルはF1スコアで優れており、0.299という最高値を記録した。一方、GRUモデルは最も低い性能を示し、精度は0.268、F1スコアは0.190であり、このカテゴリの他のモデルと比較して両指標が大幅に低下していることを示している。

TimeSFormerの埋め込みを使用した場合、CNNモデルが他のすべてのモデルを上回り、最高の精度（0.345）とF1スコア（0.342）の両方を達成した。LSTMモデルも競争力のある性能を示し、精度0.337、F1スコア0.334を記録した。対照的に、SVMモデルが最も効果が低く、精度0.270、F1スコア0.274であり、他のモデルと比較して顕著に低い値であった。

全体として、TimeSFormerの埋め込みは、ほとんどのモデルにおいてVideoMAEの埋め込みを一貫して上回り、より高い精度とF1スコアを示した。TimeSFormerの埋め込みとCNNモデルの組み合わせが、精度とF1スコアの両方において最適な性能を発揮し、本研究において最も効果的な構成となった。

Model	Accuracy $\uparrow$	F1 Score $\uparrow$
VideoMAE + GRU	0.268	0.190
VideoMAE + LSTM	0.302	0.299
VideoMAE + Transformer	0.284	0.254
VideoMAE + CNN	0.303	0.290
VideoMAE + RNN	0.289	0.289
VideoMAE + RF	0.331	0.279
VideoMAE + SVM	0.277	0.282
\hdashlineTimeSFormer + GRU	0.325	0.279
TimeSFormer + LSTM	0.337	0.334
TimeSFormer + Transformer	0.322	0.284
TimeSFormer + CNN	0.345	0.342
TimeSFormer + RNN	0.299	0.299
TimeSFormer + RF	0.341	0.282
TimeSFormer + SVM	0.270	0.274

表5: VideoMAEとTimeSFormerの埋め込みを使用する様々なモデルの組み合わせについて、モデルの精度とF1スコアの詳細な比較を示している。最高の性能を示すモデルは、識別しやすいように緑色で表示されている。この分析は、分類精度と、F1スコアで捉えられる精度と再現率のバランスの両方を最適化する上で、異なる埋め込み戦略の有効性を評価することを目的としている。

5 Conclusion, Limitations, and Future Work

生成AIの急速な進歩、特にT2Vモデルの発展により、その性能は他のモダリティと同等になっている。しかし、これらのモデルにおけるハルシネーションは重大な課題を提起している。この問題に取り組むため、我々はT2Vモデルにおけるハルシネーションを評価するための新しい大規模ベンチマークを導入する。これにより、標準化された評価が可能となり、将来の研究、比較研究、およびモデルの改善のための基盤が築かれる。本稿の主な貢献は以下の通りである：

•

$\mathbbmss{ViBe}$ の導入：T2Vモデルにおけるハルシネーションの評価に特化した新しい大規模ベンチマーク。
•

分類器によるハルシネーション検出のベースライン性能の確立を含む、データセットの包括的な分析。

我々の現在の研究の限界は、単一の動画内での複数のハルシネーションカテゴリの検出に対応していないことであり、これは依然として複雑な問題である。さらに、アノテーションの本質的な主観性が課題をもたらしている。個々の評価は、特定のレベルのハルシネーションが許容可能であるか、または除外が正当化されるかの閾値に関して異なる可能性がある。

今後の研究では、新たに出現するハルシネーションのカテゴリを含むようにデータセットを拡張し、これらのエラーを軽減するための潜在的な技術を探求することに焦点を当てる。

References

ali vilab [2023] ali vilab. ali-vilab/text-to-video-ms-1.7b · hugging face. https://huggingface.co/ali-vilab/text-to-video-ms-1.7b, 2023. (Accessed on 10/28/2024).
Bertasius et al. [2021] Gedas Bertasius, Heng Wang, and Lorenzo Torresani. Is space-time attention all you need for video understanding?, 2021.
Brown et al. [2020] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners, 2020.
Chu et al. [2024a] Zhixuan Chu, Lei Zhang, Yichen Sun, Siqiao Xue, Zhibo Wang, Zhan Qin, and Kui Ren. Sora detector: A unified hallucination detection for large text-to-video models. arXiv preprint arXiv:2405.04180, 2024a.
Chu et al. [2024b] Zhixuan Chu, Lei Zhang, Yichen Sun, Siqiao Xue, Zhibo Wang, Zhan Qin, and Kui Ren. Sora detector: A unified hallucination detection for large text-to-video models, 2024b.
Chung et al. [2014] Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling, 2014. cite arxiv:1412.3555Comment: Presented in NIPS 2014 Deep Learning and Representation Learning Workshop.
Cortes and Vapnik [1995] Corinna Cortes and Vladimir Vapnik. Support-vector networks. Machine learning, 20(3):273–297, 1995.
[8] Anastasis Germanidis. Gen-2: Generate novel videos with text, images or video clips.
Guo [2023] Yuwei Guo. guoyww/animatediff-motion-adapter-v1-5-2 · hugging face. https://huggingface.co/guoyww/animatediff-motion-adapter-v1-5-2, 2023. (Accessed on 10/28/2024).
Ho [1995] Tin Kam Ho. Random decision forests. In Proceedings of 3rd international conference on document analysis and recognition, pages 278–282. IEEE, 1995.
Hong et al. [2024] Giwon Hong, Aryo Pradipta Gema, Rohit Saxena, Xiaotang Du, Ping Nie, Yu Zhao, Laura Perez-Beltrachini, Max Ryabinin, Xuanli He, Clémentine Fourrier, and Pasquale Minervini. The hallucinations leaderboard - an open effort to measure hallucinations in large language models. CoRR, abs/2404.05904, 2024.
Krizhevsky et al. [2012] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems. Curran Associates, Inc., 2012.
Lin and Yang [2024] Shanchuan Lin and Xiao Yang. Animatediff-lightning: Cross-model diffusion distillation, 2024.
Lin et al. [2015] Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, and Piotr Dollár. Microsoft coco: Common objects in context, 2015.
Liu et al. [2022] Tianyu Liu, Yizhe Zhang, Chris Brockett, Yi Mao, Zhifang Sui, Weizhu Chen, and Bill Dolan. A token-level reference-free hallucination detection benchmark for free-form text generation, 2022.
Loshchilov and Hutter [2019] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In International Conference on Learning Representations, 2019.
[17] Lumalabs. Dream machine.
Mikolov et al. [2010] Tomáš Mikolov, Martin Karafiát, Lukáš Burget, Jan Černocký, and Sanjeev Khudanpur. Recurrent neural network based language model. In Interspeech 2010, pages 1045–1048, 2010.
Mullan et al. [2023] John Mullan, Duncan Crawbuck, and Aakash Sastry. Hotshot-XL, 2023.
Pedregosa et al. [2011] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830, 2011.
Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents, 2022.
Rawte et al. [2023] Vipula Rawte, Amit Sheth, and Amitava Das. A survey of hallucination in large foundation models. arXiv preprint arXiv:2309.05922, 2023.
Saharia et al. [2022] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding, 2022.
Sterling [2023a] Spencer Sterling. cerspense/zeroscope_v2_576w · hugging face. https://huggingface.co/cerspense/zeroscope_v2_576w, 2023a. (Accessed on 10/28/2024).
Sterling [2023b] Spencer Sterling. cerspense/zeroscope_v2_xl · hugging face. https://huggingface.co/cerspense/zeroscope_v2_XL, 2023b. (Accessed on 10/28/2024).
Sutskever et al. [2014] Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems. Curran Associates, Inc., 2014.
Tong et al. [2022] Zhan Tong, Yibing Song, Jue Wang, and Limin Wang. Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training, 2022.
Vaswani et al. [2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems. Curran Associates, Inc., 2017.
Wang et al. [2024a] Fu-Yun Wang, Zhaoyang Huang, Weikang Bian, Xiaoyu Shi, Keqiang Sun, Guanglu Song, Yu Liu, and Hongsheng Li. Animatelcm: Computation-efficient personalized style video generation without personalized video data, 2024a.
Wang et al. [2024b] Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, and Zilong Zheng. Videohallucer: Evaluating intrinsic and extrinsic hallucinations in large video-language models, 2024b.
[31] Wikipedia_Cohen’s_Kappa. Cohen’s kappa.
[32] Wikipedia_Krippendorff’s_Alpha. Krippendorff’s alpha.
Yuan et al. [2024a] Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, and Jiebo Luo. Magictime: Time-lapse video generation models as metamorphic simulators, 2024a.
Yuan et al. [2024b] Zhengqing Yuan, Yixin Liu, Yihan Cao, Weixiang Sun, Haolong Jia, Ruoxi Chen, Zhaoxu Li, Bin Lin, Li Yuan, Lifang He, Chi Wang, Yanfang Ye, and Lichao Sun. Mora: Enabling generalist video generation via a multi-agent framework, 2024b.
Zhang et al. [2023] David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, and Mike Zheng Shou. Show-1: Marrying pixel and latent diffusion models for text-to-video generation, 2023.

𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_e: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models