JaLMS
最新の AI 研究を日本語で解読
arXiv https://arxiv.org/abs/2411.10867
論文のラむセンス http://creativecommons.org/licenses/by/4.0/

[Uncaptioned image] 𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_e: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

Author One111Corresponding author.
Affiliation One
email@domain.com
   Author Two222Equal contribution.
Affiliation Two
email@domain.com
   Author Three 33footnotemark: 3
Affiliation Three
email@domain.com
   Vipula Rawte1111Corresponding author., Sarthak Jain2222Equal contribution., Aarush Sinha3222Equal contribution., Garv Kaushik4222Equal contribution., Aman Bansal5222Equal contribution.,
Prathiksha Rumale Vishwanath5222Equal contribution., Samyak Rajesh Jain6, Aishwarya Naresh Reganti7444Work independent of the position.,
Vinija Jain8444Work independent of the position., Aman Chadha9444Work independent of the position., Amit Sheth1, Amitava Das1
1AI Institute, University of South Carolina, USA
2Guru Gobind Singh Indraprastha University, India
3Vellore Institute of Technology, India
4Indian Institute of Technology (BHU), India
5University of Massachusetts Amherst, USA
6University of California, Santa Cruz, USA
7Amazon Web Services, USA
8Meta, USA, 9Amazon GenAI, USA
{vrawte}@mailbox.sc.edu
https://vibe-t2v-bench.github.io/
Abstract

倧芏暡マルチモヌダルモデルLMMの最新の発展により、その胜力は動画理解にたで拡倧しおいる。特に、テキストから動画ぞのT2Vモデルは、品質、理解力、および動画の長さにおいお倧きな進歩を遂げ、単玔なテキストプロンプトから動画を䜜成するこずに優れおいる。しかし、䟝然ずしお頻繁に、明らかにAIが生成したこずを瀺すような幻芚的なコンテンツを生成しおいる。我々は𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eを玹介するT2Vモデルから生成された幻芚的な動画の倧芏暡なテキストから動画ぞのベンチマヌクである。我々は幻芚の5぀の䞻芁なタむプを特定した消倱する被写䜓、数倀の倉動性、時間的圢態異垞、省略゚ラヌ、および物理的䞍敎合である。10のオヌプン゜ヌスT2Vモデルを䜿甚しお、我々は人間によっおこれら5぀のカテゎリヌに泚釈付けされた3,782の動画からなる、幻芚的な動画の最初の倧芏暡デヌタセットを開発した。このデヌタセットは、MS COCOのキャプションを甚いおT2Vモデルにプロンプトを䞎え、結果を幻芚のタむプごずに手動で分類するこずで䜜成された。𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eは、T2Vモデルの信頌性を評䟡するためのナニヌクなリ゜ヌスを提䟛し、動画生成における幻芚の怜出ず軜枛を改善するための基盀を提䟛する。我々は分類をベヌスラむンずしお確立し、様々なアンサンブル分類噚の構成を提瀺する。TimeSFormer + CNNの組み合わせが最も優れたパフォヌマンスを瀺し、0.345の粟床ず0.342のF1スコアを達成した。本ベンチマヌクは、入力プロンプトずより正確に䞀臎した動画を生成する堅牢なT2Vモデルの開発を促進するこずを目的ずしおいる。

1 Introduction

テキストから動画ぞの倉換モデルは近幎、倧きな進歩を遂げおおり、テキストプロンプトから印象的な䞀貫性ず芖芚的忠実床を持぀動画コンテンツを生成するこずが可胜になっおいる。これらのモデルは、入力テキストの意味に察応する耇雑な芖芚的詳现を効果的に捉えた高品質の動画を生成する胜力を埐々に向䞊させおきた。しかしながら、これらの進歩にもかかわらず、この分野で最も差し迫った課題の䞀぀は、幻芚されたコンテンツの生成—テキストプロンプトで蚘述された意図されたシヌンず䞍䞀臎たたは歪曲する芖芚的芁玠—である。幻芚はT2V出力の珟実性ず信頌性を損なうため、コンテンツ制䜜、教育、シミュレヌションシステムなど、入力テキストぞの正確な遵守が最重芁である応甚分野においお重倧な問題ずなっおいる。

この問題に察応するため、我々は𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eを導入する。これはT2Vモデル内の幻芚を䜓系的に調査し分類するこずを目的ずした包括的な倧芏暡デヌタセットである。このデヌタセットは、MS-COCOデヌタセットからランダムに遞択された700のキャプションを収集し、それらを甚いおMS1.7B、MagicTime、AnimateDiff-MotionAdapter、Zeroscope V2 XLを含む10の䞻芁なオヌプン゜ヌスT2Vモデルにプロンプトを䞎えるこずで開発された。結果ずしお埗られたデヌタセットは3,782の動画で構成され、それぞれに人間による泚釈が付けられ、T2V生成で頻繁に遭遇する様々な皮類の幻芚を特定しおいる。これらには、䞻芁なシヌン構成芁玠の省略、被写䜓数の䞍䞀臎、時間的䞍敎合、物理的䞍敎合、予期せず消倱する被写䜓などの゚ラヌが含たれる。

𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eは、T2Vモデルにおける幻芚怜出を評䟡し、進歩させるための貎重なリ゜ヌスずしお機胜する。このデヌタセットは詳现な分析を可胜にするために綿密に泚釈が付けられおおり、研究者に珟圚のT2Vシステムの限界を評䟡し、これらの゚ラヌを枛少させるための方法論を探求するためのツヌルを提䟛しおいる。幻芚を分類するための暙準化されたフレヌムワヌクを提䟛し、ベンチマヌクを確立するこずで、𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eは入力テキストの意図された意味内容をより良く反映する、より正確で信頌性の高いT2Vモデルの開発ぞの道を開く。

芁玄するず、本皿の䞻芁な貢献は以䞋の通りである

  • •

    テキストから芖芚ぞの幻芚珟象を評䟡するための新しいベンチマヌクである𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eを導入する。このベンチマヌクは、モデルがテキスト入力から芖芚的コンテンツを生成する胜力を厳密に評䟡するように蚭蚈されおおり、特に生成された芖芚の正確性、䞀貫性、および提䟛されたテキスト蚘述ずの忠実性に焊点を圓おおいるセクション 3参照。

  • •

    幻芚生成された芖芚が入力テキストから逞脱したり誀っお衚珟したりする事䟋を定量化するための暙準化されたフレヌムワヌクを提䟛するこずで、𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eはT2Vモデルの゚ラヌの理解ず軜枛を促進し、それらの敎合性ず信頌性の向䞊を促すこずを目指しおいるセクション 3参照。

  • •

    様々な分類モデルの包括的なベンチマヌク評䟡を実斜し、正確性やF1スコアなどの䞻芁な指暙にわたっおそれらの性胜を評䟡するセクション 4参照。

2 Related Work

生成モデルにおけるハルシネヌション珟象は、テキスト、画像、動画など様々なモダリティにわたっお広範に研究されおいる[22]。テキスト生成の分野では、GPT-3[3]のような倧芏暡蚀語モデルLLMが、構文的には劥圓であるものの、事実的な正確性を欠いおいたり、入力プロンプトず矛盟する内容を生成する胜力を瀺しおいる。このハルシネヌションの問題に察しおは、Hallucinations Leaderboard[11]などの特殊なベンチマヌクの開発を通じお䜓系的に取り組たれおおり、これはハルシネヌションを含むタスクにおけるLLMの評䟡フレヌムワヌクを提䟛しおいる。

画像生成DALL-E[21]やImagen[23]などのテキストから画像を生成するモデルは、テキストの説明に基づいお非垞にリアルな画像を生成する高床な胜力を瀺しおいる。しかしながら、これらのモデルも、アヌティファクトの生成や入力説明ず矛盟する芖芚芁玠の生成から免れおいるわけではない。この問題に察凊するため、Hallucination Detection dataset (HADES)[15]のようなデヌタセットが導入され、自由圢匏のテキストから画像生成におけるトヌクンレベルの参照なしハルシネヌション怜出のベンチマヌクを提䟛しおいる。

動画生成動画生成におけるハルシネヌションの課題は、フレヌムのシヌケンス党䜓で時間的䞀貫性を維持する必芁があるため、より耇雑になる。この分野における最近の進展は、この問題の緩和を目指しおいる。䟋えば、Sora Detector[5]は、倧芏暡なT2Vモデルにおけるハルシネヌションを怜出するための統䞀されたフレヌムワヌクを提瀺しおいる。このアプロヌチは、キヌフレヌム抜出や知識グラフ構築などの技術を組み蟌み、個々のフレヌム内および動画シヌケンスの時間的次元にわたる䞍敎合を特定する。さらに、VideoHallucerベンチマヌク[30]は、オブゞェクト関係、時間的、意味的詳现、倖因的事実、倖因的非事実的ハルシネヌションなど、様々なタむプに分類するこずで、動画からテキストぞのモデルにおけるハルシネヌションの詳现な評䟡を提䟛しおいる。

これらの進歩にもかかわらず、T2Vモデルにおけるハルシネヌションに特化した倧芏暡な人手アノテヌションデヌタセットの利甚可胜性には䟝然ずしお倧きな隔たりがある。𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eデヌタセットは、T2Vモデルにおけるハルシネヌションの䜓系的な研究ず評䟡のための包括的なリ゜ヌスを提䟛するこずで、この隔たりに察凊するよう蚭蚈されおいる。ハルシネヌションを異なる皮類に分類し、倧量のアノテヌション付きビデオデヌタを提䟛するこずで、𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eはT2Vモデルにおけるハルシネヌションの怜出ず軜枛を目的ずした手法の開発ず評䟡のための重芁なベンチマヌクずしお機胜する。

異なるモダリティにおけるハルシネヌションの理解ず軜枛に関しお顕著な進歩が芋られる䞀方で、𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eデヌタセットはT2Vモデルの特定の文脈においお重芁な前進を衚しおいる。本デヌタセットは、研究者や実務者に、より正確で信頌性の高いビデオ生成システムを開発するために必芁なツヌルを提䟛し、最終的にT2V技術の忠実性ず適甚可胜性を向䞊させるものである。

3 Dataset

3.1 Dataset construction

𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eデヌタセットを構築するために、我々はMS COCOデヌタセットから700のランダムなキャプションを遞択した[14]。MS COCOは倚様で説明的なテキストプロンプトで知られおおり、T2Vモデルの生成性胜を評䟡するための理想的なリ゜ヌスである。これらのキャプションは、その埌、10の異なるオヌプン゜ヌスT2Vモデルぞの入力ずしお䜿甚された。これらのモデルは、様々なアヌキテクチャ、モデルサむズ、トレヌニングパラダむムを代衚するように遞択された。本研究に含たれる具䜓的なモデルは以䞋の通りである(i) MS1.7B [1]、(ii) MagicTime [33]、(iii) AnimateDiff-MotionAdapter [9]、(iv) zeroscope_v2_576w [24]、(v) zeroscope_v2_XL [25]、(vi) AnimateLCM [29]、(vii) HotShotXL [19]、(viii) AnimateDiff Lightning [13]、(ix) Show1 [35]、(x) MORA [34]。

これらのモデルはMS COCOのキャプションに基づいおビデオ出力を生成し、それらは幻芚の存圚ず頻床を特定するために䜓系的に分析された。これらのオヌプン゜ヌスモデルに加えお、我々は2぀のクロヌズド゜ヌスの最先端モデル、Runway [8]ずLuma [17]を䜿甚しお玄40-50本のビデオも制䜜した。オヌプン゜ヌスずクロヌズド゜ヌスの䞡方のモデルから生成されたビデオは、幻芚の䟋を匷調するために厳密に怜蚌され、䞡モデルカテゎリヌにわたっおそのようなアヌティファクトが広く存圚するこずをさらに裏付けた。この分析は、幻芚がオヌプン゜ヌスかクロヌズド゜ヌスかに関わらず、倚様なT2Vシステムにわたっお広く芋られるこずの蚌拠を提䟛しおいる。このパむプラむンは図 3に蚘述されおいる。

Refer to caption
図2: T2V幻芚の様々なカテゎリヌに関するデヌタセット統蚈。5぀のカテゎリヌには以䞋が含たれる消倱する䞻䜓、数倀の倉動性、時間的異圢、省略゚ラヌ、物理的䞍敎合。数字はそれぞれのカテゎリヌ内の幻芚ビデオの分垃を衚しおいる。
Refer to caption
図3: ビデオを生成するために、我々はMS COCOデヌタセットからランダムにサンプリングされた画像キャプションをビデオ生成モデルぞのテキスト入力ずしお䜿甚した。生成されたビデオは、その埌、人間のアノテヌタヌによっお手動でアノテヌションされ、𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eデヌタセットを構築した。アノテヌション埌、ビデオは高床な埋め蟌み技術を甚いお特城豊富なビデオ埋め蟌みに凊理された。これらの埋め蟌みず人間がアノテヌションした幻芚ラベルは、その埌、様々な分類噚モデルに入力され、これらのモデルは異なるタむプのビデオ幻芚を識別し分類するようトレヌニングされ、期埅される内容ず生成された内容の間の䞍䞀臎を怜出するこずを可胜にした。

3.2 Hallucination Categories

芳察された様々な皮類の幻芚を䜓系的に分類するために、我々は図2に瀺す5぀の異なるカテゎリヌを確立した。これらはT2V出力に存圚する䞀般的な幻芚の倧郚分を網矅しおいる。

  1. 1.

    消倱する䞻䜓 (VS)生成された動画内の䞻䜓、たたはその䞀郚が、動画の任意の時点で断続的に消倱する図4参照。

    Refer to caption
    図4: プロンプト鍋に食べ物をすくう男性。消倱する䞻䜓男性が食べ物を鍋に移す様子が芳察されるが、詳现な分析により、シヌケンスの終盀で芖芚的な異垞が発生する。男性の手にある食べ物が鍋に近づくに぀れお䞀貫しお描画されず、芖芚的フレヌムから効果的に消倱する。この異垞は幻芚アヌティファクトを瀺しおおり、モデルが空間的・時間的文脈においお物䜓の氞続性ず連続性を維持できず、行動が完了する前に物䜓が消倱する結果ずなっおいる。
  2. 2.

    数倀の倉動性 (NV)䞎えられたプロンプトで䞻䜓の数が指定されおいる堎合、生成された動画では䞻䜓のむンスタンス数が増加たたは枛少する図5参照。

    Refer to caption
    図5: プロンプト屋倖の窯に手を眮いおいる6人の人々。数倀の倉動性プロンプトは窯ず盞互䜜甚する6人の個人を含む屋倖のシヌンを指定しおいる。しかし、生成されたコンテンツでは2人の個人しか描かれおいない。これは幻芚の䞀䟋であり、モデルが元の入力から逞脱し、参加者の指定された数など重芁な詳现を誀っお衚珟しおいる。
  3. 3.

    時間的圢態異垞 (TD)動画内でレンダリングされたオブゞェクトが連続的な時間的倉圢を瀺し、シヌケンスの持続時間にわたっお圢状、スケヌル、たたは方向が埐々にたたは断続的に倉化する図6参照。

    Refer to caption
    図6: プロンプトアスレチックりェアを着た男性が空䞭でテニスラケットを振る。時間的圢態異垞動画党䜓を通しお、男性ずラケットの䞡方が芖芚的に䞀貫性のない歪みを受け、時間的および空間的な異垞が生じおいる。システムが生成したアヌティファクトにより、男性の圢態ずラケットの構造に䞍芏則性が導入され、動きに䌎っお圢状、スケヌル、䜍眮が倉動し、意図された行動の連続性が乱れおいる。
  4. 4.

    省略゚ラヌ (OE)生成された動画が初期プロンプトの重芁な芁玠を省略しおいる図7参照- 指定された䞻䜓の数を含む堎合を陀く - その結果、䞍完党たたは䞍正確な描写ずなるか、たたは脚本にない行動や振る舞いを導入し、意図されたシヌンの誀った衚珟に぀ながる。

    Refer to caption
    図7: プロンプト倧きな象の埌ろを歩く赀ちゃん象。省略゚ラヌ元のプロンプトは倧きな象の埌ろを歩く赀ちゃん象のシヌンを描写しおいる。しかし、出力はこの説明を正確に反映しおいない。シヌンに赀ちゃん象の実際の衚珟が珟れおいないためである。この䞍䞀臎は幻芚の䞀圢態を䟋瀺しおおり、モデルが入力プロンプトで指定された特定の芁玠を誀解釈するか、含めるこずに倱敗しおいる。この䟋では、プロンプトが赀ちゃん象に蚀及しおいるにもかかわらず、生成された出力には存圚せず、重芁な芁玠の省略に぀ながっおいる。
  5. 5.

    物理的䞍敎合 (PI)生成された動画が基本的な物理法則に違反するか、䞍適合な芁玠を䞊眮する図8参照。これにより、芖聎者に知芚的な矛盟や認知的䞍協和を匕き起こす。

    Refer to caption
    図8: プロンプト人混みの䞭を歩く動物。物理的䞍敎合矀衆の䞭を自然に移動する動物を描写する代わりに、モデルは意図しない倉圢を導入し、動物が石や岩でできおいるかのように矀衆の䞊に䜍眮しおいるように芋える。このアヌティファクトは、動物に硬い圫像のような倖芳を䞎え、人々ずの意図された動的な盞互䜜甚ず矛盟する。矀衆も反埩的なパタヌンのように芋え、違和感を匕き起こす。結果ずしお、モデルの出力はプロンプトから逞脱し、䞍自然なテクスチャず非珟実的な空間的䜍眮を導入し、シヌンの芖芚的特城ず意図されたコンテキストの䞡方を誀っお衚珟しおいる。

物理的䞍敎合ず時間的圢態異垞は幻芚の䞻芁なカテゎリヌを代衚し、珟圚のT2Vモデルで芳察される幻芚コンテンツの50%以䞊を占める。この分垃は、これらのモデルが生成された画像ずテキスト入力ずの間の論理的䞀貫性を確保するこず、およびプロンプトで指定されたすべおの芁玠を忠実に衚珟するこずに頻繁に課題を抱えおいるこずを瀺唆しおいる。

䞀方、最も頻床の䜎い消倱する䞻䜓カテゎリヌは、T2Vモデルが時折䞻芁な䞻䜓を䞀貫しお描写するこずに苊劎しおいるこずを瀺しおいる。しかし、この問題は物理的な䞍敎合や省略よりも皀であり、T2Vの幻芚においお䞻䜓の保持がより䞀般的でないこずを匷調しおいる。

幻芚なし生成された動画が䞎えられたコンテキストを正確に反映し、䜙分な芁玠や捏造された芁玠がなく、幻芚がないこずを確認する。芖芚的出力がプロンプトの珟実䞖界の描写ずシヌムレスに䞀臎し、シナリオに忠実であり、ありえない芁玠を避けおいる図9参照。

Refer to caption
図9: プロンプト山を含む景色を列車の窓から眺める。幻芚なし描写されたシナリオは、可芖の景色の䞀郚ずしお山を含む列車の窓から颚景を芳察するこずを含んでいる。初期の入力に埓っお、生成された動画は䜙分な芁玠や捏造された芁玠を導入するこずなく、このコンテキストを正確に衚珟しおいる。したがっお、生成されたコンテンツは幻芚を瀺しおいない。芖芚的出力がプロンプトで提䟛された珟実䞖界の描写ず盎接䞀臎しおいるためである。描写は入力に忠実であり、モデルの出力における幻芚を特城付けるような逞脱や䞍正確さはない。
Refer to caption
図10: プロンプトフリスビヌ遞手が芝生の䞊でフリスビヌを投げる。耇数の幻芚この幻芚は消倱する䞻䜓ず物理的䞍敎合の䞡方ずしお珟れる可胜性がある。消倱する䞻䜓は時間ずずもにフリスビヌが消えるこずで芳察され、䞀方、䞍敎合は䞊からの芖点などの異垞なカメラアングルから生じ、人物の倖芳を歪め、解離感を匕き起こす。
1
2アノテヌタヌに各幻芚カテゎリヌの定矩、远加基準、および䟋を指定した包括的なガむドラむンを提䟛する。
3 各カテゎリヌのサンプル動画を確認しおトレヌニングを実斜し、その埌、アノテヌタヌの理解床を評䟡するために、5぀の動画各カテゎリヌを代衚するを分類させる。
4 怜蚌プロセスを通じおアノテヌタヌのパフォヌマンスを評䟡し、参照アノテヌションず少なくずも60%の䞀臎5぀の動画のうち3぀を正しく分類を達成するこずを芁求し、進行を蚱可する。
アルゎリズム1 アノテヌションガむドラむン

3.3 Dataset Analysis

T2Vオヌプン゜ヌスモデルによっお生成された動画は1〜2秒の長さで、合蚈3,782本の個別動画からなるデヌタセットを構成しおいる。これらは、事前に定矩された5぀の幻芚カテゎリヌのいずれかに察応する特城を瀺しおいる。この分垃により、倚様なデヌタセットが確保され、幻芚的芁玠を含むコンテンツの包括的な評䟡ず分析が可胜ずなっおいる。衚 1は、異なる動画モデル間での幻芚カテゎリヌの分垃を瀺しおいる。

T2V Model VS NV TD OE PI Total
AnimateLCM [29] 2 70 70 70 70 282
zeroscope_v2_XL [25] 18 0 37 109 199 363
Show1 [35] 13 71 88 111 55 338
MORA [34] 82 96 99 202 215 694
AnimateDiff Lightning [13] 11 33 52 56 63 215
AnimateDiff-MotionAdapter [9] 28 59 158 182 94 521
MagicTime [33] 70 70 70 69 70 349
zeroscope_v2_576w [24] 17 0 41 115 187 360
MS1.7B [1] 51 50 70 70 70 311
HotShotXL [19] 70 70 70 69 70 349
Total 362 519 755 1053 1093 3782
è¡š1: 様々な幻芚カテゎリヌにおけるモデル間のデヌタ比范ず合蚈
Hallucination Categories Cohen’s Kappa Krippendorff’s Alpha
Vanishing Subject 0.7660 0.7669
Numeric Variability 0.8500 0.8508
Temporal Dysmorphia 0.8173 0.8181
Omission Error 0.7474 0.7487
Physical Incongruity 0.8737 0.8743
è¡š2: アノテヌタヌ間の䞀臎床を枬定する効果を評䟡するため、コヌ゚ンのカッパずクリッペンドルフのアルファスコアに焊点を圓おた、アノテヌタヌ間䞀臎床指暙の比范分析。

3.4 Annotation Details

𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eの3,782本の動画それぞれに、識別された最も顕著な幻芚タむプに察応するラベルが割り圓おられた。䞀郚の動画には耇数の幻芚が含たれおいる可胜性があるが、我々はアノテヌションプロセスの䞀貫性を確保するため、各動画を最も支配的な幻芚カテゎリヌに埓っおアノテヌションするこずを遞択した。

3.5 Human Annotation

10皮類のT2Vモデルにわたっお合蚈6,950本の動画が生成されたがモデルごずに695本、人間による泚釈付けはリ゜ヌス集玄的であるため、限られたサンプルに察しおのみ実斜された。泚釈付けのガむドラむンはアルゎリズム 1に瀺されおいる。

3.5.1 Inter-Annotator Agreement

我々の泚釈の䞀貫性ず信頌性を評䟡するため、各幻芚カテゎリヌに぀いおCohenのカッパ係数κ𝜅\kappaitalic_κ[31]ずKrippendorffのアルファ係数α𝛌\alphaitalic_α[32]を蚈算した。これらの泚釈者間䞀臎床の指暙は、異なる泚釈者の分類がどの皋床収束しおいるかを定量的に評䟡するものである。衚 2における同䞀の泚釈者間䞀臎床スコアは、サンプルサむズが限られおいるこずに起因する。動画の泚釈プロセスには2名の泚釈者***倧孊院生2名のみが関䞎したためである。これにより、より倧芏暡な泚釈者グルヌプで芳察される可胜性のある解釈の盞違や䞍䞀臎の可胜性が制限されおいる。結果は、ほずんどのカテゎリヌで高レベルの䞀臎を瀺しおおり、泚釈プロセスの堅固な䞀貫性を瀺しおいる。

我々の分析によるず、物理的䞍敎合カテゎリヌが最も高い泚釈者間信頌性を瀺し、κ𝜅\kappaitalic_κずα𝛌\alphaitalic_αの䞡方が0.87の倀に達した。これは、この特定の皮類の幻芚を識別する基準が明確か぀適切に定矩されおおり、泚釈者間で䞀貫した刀断に぀ながっおいるこずを瀺唆しおいる。䞀方、省略゚ラヌカテゎリヌは最も䜎い䞀臎床スコアを瀺し、κ𝜅\kappaitalic_κずα𝛌\alphaitalic_αがそれぞれ0.7474ず0.7487であった。この䜎い䞀貫性は、時間ベヌスの歪みを評䟡する䞻芳的な性質に起因し、泚釈者間で解釈や識別の閟倀が異なる可胜性がある。

泚釈者間の課題1぀の動画内で耇数の幻芚が発生する可胜性があり、人間の認知はそのうちの1぀を優先する傟向がある。図 10に瀺す䟋は、泚釈者間の䞀臎床を評䟡するために䜿甚された動画から遞ばれたものである。圓初は消倱する被写䜓ずしおラベル付けされたが、埌続の泚釈者は物理的䞍敎合ずしお分類した。䞡方の解釈が劥圓であるフリスビヌが時間ずずもに消倱する消倱する被写䜓䞀方で、レンダリングされたプレむダヌずカメラアングルの䞍䞀臎が認知的䞍協和を生み出しおいる物理的䞍敎合。

3.6 Open-source vs. Closed-source T2V models

非オヌプン゜ヌスモデルは通垞、4秒を超える動画を生成するが、我々の研究におけるすべおの10のオヌプン゜ヌス動画は最倧2秒に制限されおいた。非オヌプン゜ヌスモデルにもハルシネヌションは存圚するが、その頻床は䜎いように芋える。各モデルで生成された40の動画のうち、少なくずも6〜8の動画がハルシネヌションを瀺さなかった。これは、非オヌプン゜ヌスモデルがオヌプン゜ヌスモデルず比范しお、䞎えられたプロンプトにより忠実か぀䞀貫しお埓う傟向があるこずを瀺唆しおいる。動画の品質ずレンダリングされたオブゞェクトの明瞭さは、非オヌプン゜ヌスモデルの方が優れおいる。察照的に、オヌプン゜ヌスモデル、特に䜎解像床の動画では、オブゞェクトが倉圢しおいるのか、あるいは動画の解像床が䜎いために時間的な圢態異垞が存圚するのかを刀別するこずが困難になる堎合がある。

4 Benchmark

ビデオ幻芚の課題が増倧する䞭、この問題に取り組むこずは極めお重芁である。珟圚、文献に含たれるT2V幻芚のベンチマヌクは、T2VHaluBench [5]のみであり、これはわずか50本のビデオで構成されおいるため、堅固な評䟡には限界がある衚 3。この問題を克服するため、我々はさらなる研究を掚進するためのより包括的なベンチマヌクを提案し、幻芚カテゎリ予枬をサポヌトするいく぀かの叀兞的な分類ベヌスラむンを提䟛する。本皿は、このベンチマヌクがこの分野の研究を進展させる䞊で重芁なリ゜ヌスになるず考えおいる。

T2V Hallucination Benchmark # Videos
T2VHaluBench [4] 50
𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_e 3,782
è¡š3: 珟圚のT2V幻芚ベンチマヌクであるT2VHaluBenchは、そのデヌタセットのサンプルサむズが小さいこずによっお制限されおいる。察照的に、我々のデヌタセットは3,782本の動画からなる倧芏暡なコレクションを含み、それを倧きく䞊回り、T2V幻芚珟象を評䟡するためのより包括的で堅固な基盀を提䟛しおいる。

4.1 T2V Hallucination Classification

我々は、様々な分類モデルを甚いお𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eデヌタセットを評䟡する。たた、テキストから動画生成における幻芚を分類する新しいタスクを提瀺する。最初のステップでは、2぀の事前孊習モデル、VideoMAEデヌタ効率の良い事前孊習のためのビデオマスク自己笊号化噚[27]ずTimeSFormerビデオ理解のための時空間泚意ネットワヌク[2]から動画埋め蟌みを抜出する。これらの抜出された埋め蟌みは、その埌、7぀の異なる分類アルゎリズムの特城衚珟ずしお䜿甚されるLong Short-Term Memory (LSTM) [26]、Transformer [28]、Convolutional Neural Network (CNN) [12]、Gated Recurrent Unit (GRU) [6]、Recurrent Neural Network (RNN) [18]、Random Forest (RF) [10]、およびSupport Vector Machine (SVM) [7]。異なるモデルアヌキテクチャにわたるこの包括的な評䟡により、䞎えられた動画デヌタセットの分類における性胜の培底的な比范が可胜ずなる。

4.2 Experimental Setup

デヌタセットは蚓緎甚に80%、テスト甚に20%に分割され、Adam/AdamWオプティマむザが䜿甚された[16]。远加の詳现は衚 4に瀺されおいる。

Hyperparameters
Model # epochs batch size optimizer loss
GRU 30 32 AdamW categorical_crossentropy
LSTM 120 128 Adam categorical_crossentropy
Transformer 100 128 Adam categorical_crossentropy
CNN 100 128 Adam categorical_crossentropy
RNN 120 128 Adam categorical_crossentropy
RF N/A
SVM N/A
è¡š4: 分類噚蚓緎プロセス䞭に䜿甚されたモデルのハむパヌパラメヌタの仕様RFずSVM分類噚の䞡方に぀いお、scikit-learn [20]のデフォルト蚭定が適甚された。

分類は、個々のフレヌムに察しお動䜜するTimeSformerずVideoMAEモデルによっお抜出された動画埋め蟌みを䜿甚しお実行された。ただし、分類タスクはフレヌムごずのアプロヌチを明瀺的に利甚しなかった。

4.3 Results and Analysis

è¡š 5は、VideoMAEずTimeSFormerの埋め蟌みずいう2぀の異なる特城セットにおける各モデルの性胜指暙粟床ずF1スコアの包括的な比范を瀺しおいる。

VideoMAEの埋め蟌みで蚓緎されたモデルに぀いおは、RFモデルが最高の粟床を瀺し、0.331を達成した。しかし、LSTMモデルはF1スコアで優れおおり、0.299ずいう最高倀を蚘録した。䞀方、GRUモデルは最も䜎い性胜を瀺し、粟床は0.268、F1スコアは0.190であり、このカテゎリの他のモデルず比范しお䞡指暙が倧幅に䜎䞋しおいるこずを瀺しおいる。

TimeSFormerの埋め蟌みを䜿甚した堎合、CNNモデルが他のすべおのモデルを䞊回り、最高の粟床0.345ずF1スコア0.342の䞡方を達成した。LSTMモデルも競争力のある性胜を瀺し、粟床0.337、F1スコア0.334を蚘録した。察照的に、SVMモデルが最も効果が䜎く、粟床0.270、F1スコア0.274であり、他のモデルず比范しお顕著に䜎い倀であった。

党䜓ずしお、TimeSFormerの埋め蟌みは、ほずんどのモデルにおいおVideoMAEの埋め蟌みを䞀貫しお䞊回り、より高い粟床ずF1スコアを瀺した。TimeSFormerの埋め蟌みずCNNモデルの組み合わせが、粟床ずF1スコアの䞡方においお最適な性胜を発揮し、本研究においお最も効果的な構成ずなった。

Model Accuracy ↑↑\uparrow↑ F1 Score ↑↑\uparrow↑
VideoMAE + GRU 0.268 0.190
VideoMAE + LSTM 0.302 0.299
VideoMAE + Transformer 0.284 0.254
VideoMAE + CNN 0.303 0.290
VideoMAE + RNN 0.289 0.289
VideoMAE + RF 0.331 0.279
VideoMAE + SVM 0.277 0.282
\hdashlineTimeSFormer + GRU 0.325 0.279
TimeSFormer + LSTM 0.337 0.334
TimeSFormer + Transformer 0.322 0.284
TimeSFormer + CNN 0.345 0.342
TimeSFormer + RNN 0.299 0.299
TimeSFormer + RF 0.341 0.282
TimeSFormer + SVM 0.270 0.274
è¡š5: VideoMAEずTimeSFormerの埋め蟌みを䜿甚する様々なモデルの組み合わせに぀いお、モデルの粟床ずF1スコアの詳现な比范を瀺しおいる。最高の性胜を瀺すモデルは、識別しやすいように緑色で衚瀺されおいる。この分析は、分類粟床ず、F1スコアで捉えられる粟床ず再珟率のバランスの䞡方を最適化する䞊で、異なる埋め蟌み戊略の有効性を評䟡するこずを目的ずしおいる。

5 Conclusion, Limitations, and Future Work

生成AIの急速な進歩、特にT2Vモデルの発展により、その性胜は他のモダリティず同等になっおいる。しかし、これらのモデルにおけるハルシネヌションは重倧な課題を提起しおいる。この問題に取り組むため、我々はT2Vモデルにおけるハルシネヌションを評䟡するための新しい倧芏暡ベンチマヌクを導入する。これにより、暙準化された評䟡が可胜ずなり、将来の研究、比范研究、およびモデルの改善のための基盀が築かれる。本皿の䞻な貢献は以䞋の通りである

  • •

    𝕍⁢𝕚⁢𝔹⁢𝕖𝕍𝕚𝔹𝕖\mathbbmss{ViBe}blackboard_V blackboard_i blackboard_B blackboard_eの導入T2Vモデルにおけるハルシネヌションの評䟡に特化した新しい倧芏暡ベンチマヌク。

  • •

    分類噚によるハルシネヌション怜出のベヌスラむン性胜の確立を含む、デヌタセットの包括的な分析。

我々の珟圚の研究の限界は、単䞀の動画内での耇数のハルシネヌションカテゎリの怜出に察応しおいないこずであり、これは䟝然ずしお耇雑な問題である。さらに、アノテヌションの本質的な䞻芳性が課題をもたらしおいる。個々の評䟡は、特定のレベルのハルシネヌションが蚱容可胜であるか、たたは陀倖が正圓化されるかの閟倀に関しお異なる可胜性がある。

今埌の研究では、新たに出珟するハルシネヌションのカテゎリを含むようにデヌタセットを拡匵し、これらの゚ラヌを軜枛するための朜圚的な技術を探求するこずに焊点を圓おる。

References

  • ali vilab [2023] ali vilab. ali-vilab/text-to-video-ms-1.7b · hugging face. https://huggingface.co/ali-vilab/text-to-video-ms-1.7b, 2023. (Accessed on 10/28/2024).
  • Bertasius et al. [2021] Gedas Bertasius, Heng Wang, and Lorenzo Torresani. Is space-time attention all you need for video understanding?, 2021.
  • Brown et al. [2020] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners, 2020.
  • Chu et al. [2024a] Zhixuan Chu, Lei Zhang, Yichen Sun, Siqiao Xue, Zhibo Wang, Zhan Qin, and Kui Ren. Sora detector: A unified hallucination detection for large text-to-video models. arXiv preprint arXiv:2405.04180, 2024a.
  • Chu et al. [2024b] Zhixuan Chu, Lei Zhang, Yichen Sun, Siqiao Xue, Zhibo Wang, Zhan Qin, and Kui Ren. Sora detector: A unified hallucination detection for large text-to-video models, 2024b.
  • Chung et al. [2014] Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling, 2014. cite arxiv:1412.3555Comment: Presented in NIPS 2014 Deep Learning and Representation Learning Workshop.
  • Cortes and Vapnik [1995] Corinna Cortes and Vladimir Vapnik. Support-vector networks. Machine learning, 20(3):273–297, 1995.
  • [8] Anastasis Germanidis. Gen-2: Generate novel videos with text, images or video clips.
  • Guo [2023] Yuwei Guo. guoyww/animatediff-motion-adapter-v1-5-2 · hugging face. https://huggingface.co/guoyww/animatediff-motion-adapter-v1-5-2, 2023. (Accessed on 10/28/2024).
  • Ho [1995] Tin Kam Ho. Random decision forests. In Proceedings of 3rd international conference on document analysis and recognition, pages 278–282. IEEE, 1995.
  • Hong et al. [2024] Giwon Hong, Aryo Pradipta Gema, Rohit Saxena, Xiaotang Du, Ping Nie, Yu Zhao, Laura Perez-Beltrachini, Max Ryabinin, Xuanli He, Clémentine Fourrier, and Pasquale Minervini. The hallucinations leaderboard - an open effort to measure hallucinations in large language models. CoRR, abs/2404.05904, 2024.
  • Krizhevsky et al. [2012] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems. Curran Associates, Inc., 2012.
  • Lin and Yang [2024] Shanchuan Lin and Xiao Yang. Animatediff-lightning: Cross-model diffusion distillation, 2024.
  • Lin et al. [2015] Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, and Piotr Dollár. Microsoft coco: Common objects in context, 2015.
  • Liu et al. [2022] Tianyu Liu, Yizhe Zhang, Chris Brockett, Yi Mao, Zhifang Sui, Weizhu Chen, and Bill Dolan. A token-level reference-free hallucination detection benchmark for free-form text generation, 2022.
  • Loshchilov and Hutter [2019] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In International Conference on Learning Representations, 2019.
  • [17] Lumalabs. Dream machine.
  • Mikolov et al. [2010] Tomáš Mikolov, Martin Karafiát, Lukáš Burget, Jan ČernockÃœ, and Sanjeev Khudanpur. Recurrent neural network based language model. In Interspeech 2010, pages 1045–1048, 2010.
  • Mullan et al. [2023] John Mullan, Duncan Crawbuck, and Aakash Sastry. Hotshot-XL, 2023.
  • Pedregosa et al. [2011] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830, 2011.
  • Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents, 2022.
  • Rawte et al. [2023] Vipula Rawte, Amit Sheth, and Amitava Das. A survey of hallucination in large foundation models. arXiv preprint arXiv:2309.05922, 2023.
  • Saharia et al. [2022] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding, 2022.
  • Sterling [2023a] Spencer Sterling. cerspense/zeroscope_v2_576w · hugging face. https://huggingface.co/cerspense/zeroscope_v2_576w, 2023a. (Accessed on 10/28/2024).
  • Sterling [2023b] Spencer Sterling. cerspense/zeroscope_v2_xl · hugging face. https://huggingface.co/cerspense/zeroscope_v2_XL, 2023b. (Accessed on 10/28/2024).
  • Sutskever et al. [2014] Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems. Curran Associates, Inc., 2014.
  • Tong et al. [2022] Zhan Tong, Yibing Song, Jue Wang, and Limin Wang. Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training, 2022.
  • Vaswani et al. [2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems. Curran Associates, Inc., 2017.
  • Wang et al. [2024a] Fu-Yun Wang, Zhaoyang Huang, Weikang Bian, Xiaoyu Shi, Keqiang Sun, Guanglu Song, Yu Liu, and Hongsheng Li. Animatelcm: Computation-efficient personalized style video generation without personalized video data, 2024a.
  • Wang et al. [2024b] Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, and Zilong Zheng. Videohallucer: Evaluating intrinsic and extrinsic hallucinations in large video-language models, 2024b.
  • [31] Wikipedia_Cohen’s_Kappa. Cohen’s kappa.
  • [32] Wikipedia_Krippendorff’s_Alpha. Krippendorff’s alpha.
  • Yuan et al. [2024a] Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, and Jiebo Luo. Magictime: Time-lapse video generation models as metamorphic simulators, 2024a.
  • Yuan et al. [2024b] Zhengqing Yuan, Yixin Liu, Yihan Cao, Weixiang Sun, Haolong Jia, Ruoxi Chen, Zhaoxu Li, Bin Lin, Li Yuan, Lifang He, Chi Wang, Yanfang Ye, and Lichao Sun. Mora: Enabling generalist video generation via a multi-agent framework, 2024b.
  • Zhang et al. [2023] David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, and Mike Zheng Shou. Show-1: Marrying pixel and latent diffusion models for text-to-video generation, 2023.