JaLMS
最新の AI 研究を日本語で解読

MagicDriveDiT: High-Resolution Long Video Generation
for Autonomous Driving with Adaptive Control

Ruiyuan Gao1, Kai Chen2, Bo Xiao3, Lanqing Hong4, Zhenguo Li4, Qiang Xu1
1CUHK  2HKUST  3Huawei Cloud  4Huawei Noah’s Ark Lab
{rygao,qxu}@cse.cuhk.edu.hk, kai.chen@connect.ust.hk,
{xiaobo15,honglanqing,li.zhenguo}@huawei.com
Project Website: https://flymin.github.io/magicdrivedit/
Abstract

拡散モデルの急速な進歩により、ビデオ合成、特に自動運転などのアプリケーションに不可欠な制御可能なビデオ生成が大幅に改善された。しかし、既存の手法はスケーラビリティと制御条件の統合方法に制限があり、自動運転アプリケーションに必要な高解像度かつ長時間のビデオのニーズを満たせていない。本稿では、DiTアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介し、これらの課題に取り組む。我々の手法は、フローマッチングによってスケーラビリティを向上させ、複雑なシナリオを管理するための段階的な訓練戦略を採用している。空間時間的条件エンコーディングを組み込むことで、MagicDriveDiTは空間時間的潜在変数の精密な制御を実現する。包括的な実験により、より高解像度かつより多くのフレームを持つ現実的な街路シーンビデオの生成において、優れた性能を示すことが明らかになった。 MagicDriveDiTはビデオ生成の品質と空間時間的制御を大幅に改善し、自動運転における様々なタスクにわたる潜在的なアプリケーションを拡大する。

1 Introduction

拡散モデルの急速な発展に伴い、ビデオ合成 [3, 14, 1, 2] は著しい進歩を遂げている。 制御可能なビデオ合成 [20, 16] は、多くの下流アプリケーションにおける合成データの使用を大幅に促進している [37]。 特に自動運転の分野では、MagicDrive [11] やDriveDreamer [35] のような技術が、高品質な街路景観ビデオを生成できる制御可能なマルチビュービデオ合成が、下流タスクを効果的に支援し、自動システムの性能と信頼性を向上させる例となっている。

高解像度かつ長時間のビデオ合成は、コンテンツ生成分野における研究の焦点であり [27, 5]、自動運転技術から高い需要がある。 具体的には、自動運転の知覚モデルは、データ内の詳細や遠距離の物体を識別するために、より高解像度の入力を必要としている [22]。 3D再構成におけるビデオ合成の応用も、細部を捉えるために高解像度を必要としている [10, 45]。 一方、長時間のビデオは、自動運転アルゴリズムをより包括的に評価するためのより多くのコンテンツを提供する [42]。 技術的観点からは、高解像度は生成品質を向上させる直接的な方法であり [5]、長時間のビデオはより多くの動的コンテンツを含んでいる [40]。これにより、モデルが世界の法則を効果的に学習することを助ける [3]

Refer to caption
図1: MagicDriveDiTは、高解像度で長尺の動画を生成し、複数視点とコントロールをサポートしており、先行研究[35, 15, 11, 12]の限界を大きく超えている。

しかしながら、高解像度の長尺動画の合成には2つの主要な課題がある。第一に、データ量の増加により、生成モデルには高品質な合成を効果的にサポートするための高い拡張性が要求される。第二に、動画生成における幾何学的制御は重大な課題を提示する。これまでの制御可能な技術は主に画像生成向けに設計されており[11, 35, 39, 38, 27, 18]、空間的な潜在空間に焦点を当てている。高解像度の長尺動画合成を実現するには、空間情報と時間情報を統合した3D圧縮VAEが必要である[3, 47, 43, 19]。 図2に示すように、時空間潜在変数を利用すると、これまでの制御手法では不十分となる。これは、合成動画内の要素を効果的に管理し、与えられた条件との空間的および時間的一貫性を確保するための新しいアプローチが必要であることを示している。

Refer to caption
図2: 空間的潜在変数[11, 39, 38, 27, 18]とは異なり、時空間潜在変数(我々の手法)は幾何学的制御のために時空間条件の注入を必要とする(ここではテキスト条件は省略している)。

本稿では、上記の課題に対処するために設計された、DiTアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介する。これは、高解像度で長尺の街路景観ビデオを精密な制御下で合成することを目的としている。 我々は、拡張性を向上させるために、DiTベースのアーキテクチャ[30, 47]を用いて実装された、拡散モデルのためのフローマッチング[9]定式化を採用している。 これにより、多様なシナリオにわたる複雑なデータを効率的に処理するモデルの能力が向上する。 制御性を高めるために、CogVAE[43]からの時空間潜在変数に対して特別に設計された時空間条件付きエンコーディングを使用し、表現の精密な管理を可能にしている。 さらに、モデル訓練には短いビデオから長いビデオへと移行する段階的ブートストラップ戦略を採用し、モデルが複雑な詳細を捉え、複雑なシナリオに一般化できるようにしている。 加えて、様々な解像度と長さのビデオを活用してモデルの一般化能力を強化し、訓練用のビデオよりも長いビデオを合成できるようにしている。

我々のMagicDriveDiTは、道路地図、3Dバウンディングボックス、異なるカメラ視点に合致する非常にリアルなビデオの生成に優れており、先行研究[11, 12, 27, 18]よりも高い解像度とより多くのフレーム数を達成している。 包括的な実験と比較により、我々の訓練方法と制御方法の有効性が実証され、制御可能な街路景観ビデオ合成が大幅に改善されている。 MagicDriveDiTの様々な解像度、フレーム数、制御信号を扱う柔軟性により、シミュレーションに適した新しい街路景観の創造が可能となり、多様な分野にわたる潜在的な応用が拡大している。

要約すると、本稿の主な貢献は以下の通りである:

  • 我々は、段階的ブートストラッピングを活用して高品質かつ高解像度の長時間ビデオ生成を実現する効率的なフレームワーク、MagicDriveDiTを設計した。

  • 我々は、マルチフレーム、マルチビューの一貫性を維持しながら、物体の位置、道路のセマンティクス、カメラの軌道に対する新規の時空間制御を開発した。

  • 我々のモデルは、混合解像度および継続時間トレーニングを通じて画像からビデオ生成へと一般化し、外挿能力を持ち、従来の研究を大幅に上回る解像度とフレーム数を実現している。

Refer to caption
図3: MagicDriveDiTのアーキテクチャ概要。ビデオ生成のための異なる条件を組み込むために、MagicDriveDiT[44]のような二分岐アーキテクチャを採用し、[6, 47]の基本的なSTDiT3ブロックを使用している。また、マルチビューの一貫性のためのMVDiTブロックと、空間時間(SP)潜在空間に条件を注入するための空間時間(ボックス/軌道)エンコーダーを提案している。

2 Related Work

自動運転における動画生成。 動画生成は自動運転において非常に重要であり、知覚モデルの訓練 [11]、テスト [42]、シーン再構築 [10, 45] に応用されている。これには広範な視野と動的な物体の動きの処理が必要であり、生成モデルの制御可能性 [11] と高解像度の動画制作 [22]、より多くのフレーム数 [10]、複数のカメラ視点 [45] が求められる。拡散モデルは制御可能なマルチビュー動画生成を改善したが、既存のモデル [38, 39, 46, 27, 18] はデータエンジンアプリケーション [11, 10, 45] やポリシーテスト [17] に十分な解像度とフレーム数を欠いている。 表 1 で比較されているように、我々の研究である MagicDriveDiT は、自動運転のための動画生成において前例のない解像度とフレーム数を達成している。

Type Method Total Res. Frame
Front View GAIA-1[15] 288×\times×512×\times×1 26
DriveDreamer [35] 128×\times×192×\times×1 32
Vista [12] 576×\times×1024×\times×1 25
Multi- view MagicDrive [11] 224×\times×400×\times×6 60
Drive-WM [38] 192×\times×384×\times×6 8
Panacea [39] 256×\times×512×\times×6 8
DriveDreamer2 [46] 256×\times×448×\times×6 8
Delphi [27] 512×\times×512×\times×6 10
DiVE [18] 480p×\times×6 16
MagicDriveDiT 848×\times×1600×\times×6 129
424×\times×800×\times×6 241
表1: 解像度とフレーム数の比較。ロールアウトは品質を著しく低下させるため、単一の推論のみを考慮している。テキストと画像の条件のみをサポート。付録の注釈を参照。

拡散モデルとDiTアーキテクチャ。 拡散モデル[13, 32, 48]は、ガウスノイズからサンプルへのデノイジングステップを学習することでデータを生成し、画像[8, 31, 37]や動画生成[14]で広く使用されている。モデリングの観点からは、フローマッチング[23, 9]が拡散モデルのモデリングを簡素化し、トレーニングと推論の効率を向上させる。 実装の観点からは、拡散モデルのアーキテクチャはUNet[13]からDiTへと移行しており、これはスケーラビリティの向上[30, 6]、特に高解像度タスク[5]において顕著である。我々のMagicDriveDiTもまた、高解像度かつ長時間の動画生成にスケーリングするためにフローマッチングとDiTを活用している。

条件付き生成。 条件付き生成は、生成モデルを活用する様々なアプリケーションにおいて重要である。LDM[31]のクロスアテンション層とControlNet[44]のグリッド形状の制御信号に対する加法的エンコーディングは、制御可能な拡散ベースの生成における主要な手法である。ストリートビュー生成において、MagicDrive[11]とMagicDrive3D[10]は、3Dバウンディングボックス、BEVマップ、自車軌跡、カメラポーズを統合して多視点の街路シーンを合成する。しかし、これらの手法は空間エンコーディングに限定されており、図2に示すように、時空間VAE潜在変数[43]には直接適用できない。 MagicDriveDiTは、時空間圧縮されたVAE潜在変数に対する新しい制御パラダイムを提示し、高解像度の長時間動画の制御可能な生成を可能にする。

3 Preliminary

問題の定式化。 本稿は、街路景観の制御可能な高解像度かつ長時間のビデオ生成に取り組む。フレーム記述の連続 {𝐒t},t{0,,T}subscript𝐒𝑡𝑡0𝑇\{\mathbf{S}_{t}\},t\in\{0,\dots,T\}{ bold_S start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT } , italic_t ∈ { 0 , … , italic_T } が与えられた場合、対応する街路景観ビデオを潜在変数 𝐳𝒩(𝟎,𝑰)similar-to𝐳𝒩0𝑰\mathbf{z}\sim\mathcal{N}(\mathbf{0},\boldsymbol{I})bold_z ∼ caligraphic_N ( bold_0 , bold_italic_I ) から生成することが目標である。すなわち、{𝐈c,t}=𝒢({𝐒t},𝐳)subscript𝐈𝑐𝑡𝒢subscript𝐒𝑡𝐳\{\mathbf{I}_{c,t}\}=\mathcal{G}(\{\mathbf{S}_{t}\},\mathbf{z}){ bold_I start_POSTSUBSCRIPT italic_c , italic_t end_POSTSUBSCRIPT } = caligraphic_G ( { bold_S start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT } , bold_z ) であり、ここで c{0,,C}𝑐0𝐶c\in\{0,\dots,C\}italic_c ∈ { 0 , … , italic_C }C𝐶Citalic_C カメラビューを表す。ここで、高解像度とは 𝐈𝐈\mathbf{I}bold_I が高解像度であることを意味し、長時間ビデオとは T𝑇Titalic_T が大きいことを意味する。

街路景観ビデオを記述するために、我々は [10, 11] で概説された条件を採用する。具体的には、フレーム記述 𝐒t={𝐂,𝐌t,𝐁t,𝐋,𝐓𝐫t0}subscript𝐒𝑡𝐂subscript𝐌𝑡subscript𝐁𝑡𝐋superscriptsubscript𝐓𝐫𝑡0\mathbf{S}_{t}=\{\mathbf{C},\mathbf{M}_{t},\mathbf{B}_{t},\mathbf{L},\mathbf{% Tr}_{t}^{0}\}bold_S start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = { bold_C , bold_M start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , bold_B start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , bold_L , bold_Tr start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT } には、カメラポーズ {𝐂c}=[𝐑c,𝐭c]subscript𝐂𝑐subscript𝐑𝑐subscript𝐭𝑐\{\mathbf{C}_{c}\}=[\mathbf{R}_{c},\mathbf{t}_{c}]{ bold_C start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT } = [ bold_R start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT , bold_t start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT ]111通常、カメラはビデオ全体を通して固定されている。、BEVにおいて w×h𝑤w\times hitalic_w × italic_h メートルの道路領域を表す道路地図 𝐌t{0,1}w×h×csubscript𝐌𝑡superscript01𝑤𝑐\mathbf{M}_{t}\in\{0,1\}^{w\times h\times c}bold_M start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∈ { 0 , 1 } start_POSTSUPERSCRIPT italic_w × italic_h × italic_c end_POSTSUPERSCRIPTc𝑐citalic_c のセマンティッククラスを持つ)、3Dバウンディングボックス 𝐁t={(ci,bi)}i=1Nsubscript𝐁𝑡superscriptsubscriptsubscript𝑐𝑖subscript𝑏𝑖𝑖1𝑁\mathbf{B}_{t}=\{(c_{i},b_{i})\}_{i=1}^{N}bold_B start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = { ( italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_b start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT(各オブジェクトはボックス bi={(xj,yj,zj)}j=188×3subscript𝑏𝑖superscriptsubscriptsubscript𝑥𝑗subscript𝑦𝑗subscript𝑧𝑗𝑗18superscript83b_{i}=\{(x_{j},y_{j},z_{j})\}_{j=1}^{8}\in\mathbb{R}^{8\times 3}italic_b start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = { ( italic_x start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT , italic_y start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT , italic_z start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) } start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 8 end_POSTSUPERSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT 8 × 3 end_POSTSUPERSCRIPT とクラス ci𝒞subscript𝑐𝑖𝒞c_{i}\in\mathcal{C}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∈ caligraphic_C で記述される)、ビデオ全体に情報を追加するテキスト 𝐋𝐋\mathbf{L}bold_L(例えば、天候や時間帯)、そして自車の軌跡 𝐓𝐫t0superscriptsubscript𝐓𝐫𝑡0\mathbf{Tr}_{t}^{0}bold_Tr start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT(各フレームのLiDAR座標から最初のフレームへの変換を記述する、すなわち 𝐓𝐫t0=[𝐑t0,𝐭t0]subscriptsuperscript𝐓𝐫0𝑡superscriptsubscript𝐑𝑡0superscriptsubscript𝐭𝑡0\mathbf{Tr}^{0}_{t}=[\mathbf{R}_{t}^{0},\mathbf{t}_{t}^{0}]bold_Tr start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = [ bold_R start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT , bold_t start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT ])が含まれる。𝐓𝐫t0superscriptsubscript𝐓𝐫𝑡0\mathbf{Tr}_{t}^{0}bold_Tr start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT を除くすべての幾何学的情報は、自車のローカルLiDAR座標に従ってパラメータ化される。

LDMとフローマッチング。 高解像度画像生成のために、Rombach et al. [31]は潜在拡散モデル(LDM)を提案し、画像のダウンサンプリングには事前学習済みのVAEを、潜在空間での生成には拡散モデルを使用している。 この方法は画像生成[6, 9]と動画生成[1, 47, 3]の両方で広く採用されている。 MagicDriveDiTもまた、VAE+拡散の定式化に基づいている。 拡散モデルの最新の進歩により、Esser et al. [9]はシミュレーションフリーの整流フロー[25, 24]とv-予測損失[9]を通じて大規模拡散モデルを訓練することを提案している:

𝐳tsubscript𝐳𝑡\displaystyle\mathbf{z}_{t}bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT =(1t)x0+tϵabsent1𝑡subscript𝑥0𝑡italic-ϵ\displaystyle=(1-t)x_{0}+t\epsilon= ( 1 - italic_t ) italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + italic_t italic_ϵ (1)
CFMsubscript𝐶𝐹𝑀\displaystyle\mathcal{L}_{CFM}caligraphic_L start_POSTSUBSCRIPT italic_C italic_F italic_M end_POSTSUBSCRIPT =𝔼ϵ𝒩(0,I)vΘ(𝐳t,t)11t(𝐳ϵ)22,absentsubscript𝔼similar-toitalic-ϵ𝒩0𝐼superscriptsubscriptnormsubscript𝑣Θsubscript𝐳𝑡𝑡11𝑡𝐳italic-ϵ22,\displaystyle=\mathbb{E}_{\epsilon\sim\mathcal{N}(0,I)}\|v_{\Theta}(\mathbf{z}% _{t},t)-\frac{1}{1-t}(\mathbf{z}-\epsilon)\|_{2}^{2}\text{,}= blackboard_E start_POSTSUBSCRIPT italic_ϵ ∼ caligraphic_N ( 0 , italic_I ) end_POSTSUBSCRIPT ∥ italic_v start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) - divide start_ARG 1 end_ARG start_ARG 1 - italic_t end_ARG ( bold_z - italic_ϵ ) ∥ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , (2)

ここで、tlognorm(0,1)similar-to𝑡lognorm01t\sim\operatorname{lognorm}(0,1)italic_t ∼ roman_lognorm ( 0 , 1 )はタイムステップであり、vΘsubscript𝑣Θv_{\Theta}italic_v start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPTはモデルである。

4 Methods

4.1 Overview of MagicDriveDiT

モデルアーキテクチャについて、図3に示すように、MagicDriveDiTは制御可能な街路景観生成のための新規DiTベースの拡散モデルを導入し、Zheng et al. [47]に従ってSTDiT-3ブロックを利用している。 これらのブロックは、情報処理を強化するために空間モジュールと時間モジュールを分離している。

アーキテクチャ設計には2つの重要な修正が組み込まれている。第一に、マルチビュー生成を容易にするために、Multi-View DiT (MVDiT)ブロックは図3の左側に示すように、クロスビュー注意層[11]を統合している。第二に、複数の制御要素を扱う必要性を考慮して、MagicDriveDiTはテキスト、ボックス、カメラビュー、軌跡に対してクロス注意[31]を採用し、地図に対しては加法的分岐[44]を用いて制御信号を注入している。

しかしながら、図2に示すように、制御信号の空間エンコーディング[11, 27, 39, 38, 46]は空間時間的潜在変数と互換性がない。そのため、各制御信号のエンコーダーは再構成され、図3の右側に示す空間時間的ボックスエンコーダーがその例である。詳細については4.2節で説明する。

さらに、MagicDriveDiTは拡散モデルの収束を向上させるために、段階的ブートストラップ訓練戦略(4.3節)を採用し、画像から低解像度・短時間の動画へ、そして最終的に高解像度・長時間の動画へと移行する。 最終訓練段階では、可変長および可変解像度の動画を組み込み、モデルが多様な解像度で画像と動画を生成し、訓練設定を超えてより長いフレーム数に外挿できるようにしている。 4.4節でさらなる詳細を提供する。

4.2 Design for High-Resolution Long Video

DiTと3D VAE。 高解像度で長時間の動画生成のための拡散モデルの訓練は計算負荷が高く、大量のGPUメモリを必要とする。DiTと3D VAEは、これらの側面で拡散モデルをスケールアップする上で極めて重要である。

Peebles and Xie [30]が指摘しているように、モデルのGflopsとFIDの間には強い負の相関があり、計算効率の観点からDiTはUNet [11]のようなアーキテクチャよりも好ましい。GPUメモリに関しては、3D VAEが時間的ダウンサンプリングを提供する。典型的な2D VAE [31]は画像の高さと幅の両方を8倍圧縮し、64×64\times64 ×の圧縮率を達成する。対照的に、3D VAE [43]は時間情報を4×4\times4 ×圧縮し、256×256\times256 ×の圧縮率を実現する222我々は議論を通じて潜在変数の次元の可能な不一致を無視する。。これにより、パッチ化された潜在変数のシーケンス長とメモリ消費が大幅に削減され、特にトランスフォーマー [7]に有益である。 さらに、アーキテクチャの統一化の傾向 [34]により、DiTは高度な並列化手法、例えばシーケンス並列化 [47]を利用して単一GPUのメモリ制約を克服し、より高解像度で長時間の動画生成を可能にする。

3D VAE採用の主な課題は幾何学的制御である。図2に示すように、幾何学的制御はフレームごとのコンテンツを空間的に管理する。2D VAEでは、T𝑇Titalic_TフレームがT𝑇Titalic_Tの潜在変数にエンコードされる。T𝑇Titalic_Tの幾何学的記述子{𝐒t},t{1,,T}subscript𝐒𝑡𝑡1𝑇\{\mathbf{S}_{t}\},t\in\{1,...,T\}{ bold_S start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT } , italic_t ∈ { 1 , … , italic_T }を使用すると、動画の幾何学的制御は画像の空間的制御 [28]に縮退する。これは、制御信号と潜在変数が時間的に整列しているためである。しかし、3D VAEはT/f𝑇𝑓T/fitalic_T / italic_fの潜在変数を生成し(ここでf𝑓fitalic_fは時間圧縮率)、制御信号と潜在変数の整列が崩れ、以前の制御技術 [11, 27, 39]が効果を失う。

Refer to caption
図4: マップ (a) とボックス (b)のための時空間エンコーダ。我々の空間エンコーディングモジュールは [11]に従い、時間エンコーディングは我々の3D VAE [43]のダウンサンプリング戦略を統合し、制御信号と動画潜在変数の間で時間的に整列した埋め込みを実現する。

時空間条件付け技術。 MagicDriveDiTにおける幾何学的制御のために、我々は制御信号を時空間潜在変数と整列させる時空間エンコーディングを導入する。これには、シーン記述子(𝐒tsubscript𝐒𝑡\mathbf{S}_{t}bold_S start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT)内のマップ(𝐌tsubscript𝐌𝑡\mathbf{M}_{t}bold_M start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT)、ボックス(𝐁tsubscript𝐁𝑡\mathbf{B}_{t}bold_B start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT)、および軌跡(𝐓𝐫t0superscriptsubscript𝐓𝐫𝑡0\mathbf{Tr}_{t}^{0}bold_Tr start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT)の再整列が含まれる。グリッドデータとして表現されるマップは、管理が比較的容易である。ControlNet [44]の設計を拡張し、3D VAEの新しい学習可能なパラメータを持つ時間的ダウンサンプリングモジュールを利用して、制御ブロックとベースブロック間の特徴を整列させる。これを図4(a)に示す。

3Dボックスについては、図3右に示すように、視点やフレーム間でボックスシーケンスの長さを一定に保つために、不可視のボックスにパディングを適用する。 我々は、時間的相関を捉えるために時間トランスフォーマーとRoPE [33]を用いたダウンサンプリングモジュールを採用し、図4(b)に示すように、動画潜在変数と整列した時空間埋め込みを作成する。ボックスのための時空間エンコーダは、ボックス用のMLPをカメラポーズ用のMLP [11]に置き換えることで、自己軌跡(𝐓𝐫t0superscriptsubscript𝐓𝐫𝑡0\mathbf{Tr}_{t}^{0}bold_Tr start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT)にも適応できる。 すべてのダウンサンプリング比は採用された3D VAE [43]と整合しており、すなわち、入力として8n8𝑛8n8 italic_nまたは8n+18𝑛18n+18 italic_n + 1、出力として2n2𝑛2n2 italic_nまたは2n+12𝑛12n+12 italic_n + 1となっている。

4.3 Progressive Bootstrap Training

訓練中のモデル収束を加速するために、我々は単一の訓練反復の持続時間に基づいて訓練データをスケジュールする。具体的には、3段階の訓練アプローチを採用する:初めに低解像度画像を用いてブートストラップ訓練を行い、次に低解像度の短い動画に移行し、最終的に高解像度の長い動画訓練を行う。

この訓練戦略は2つの観察に基づいている。第一に、制御可能な生成において、モデルは最初に制御可能性を学習する前に、より高い内容品質を最適化することに注目する。これはGao et al. [12]によっても観察されたパターンである。モデルをゼロから訓練すると、収束に多数の反復が必要となる。我々の段階的移行アプローチにより、モデルはより迅速に制御可能性を獲得できる。第二に、段階の移行中、モデルは長い動画の制御可能性と比較して、高解像度[5]により迅速に適応することを見出した。したがって、我々は最初の段階から制御可能性を訓練し、画像よりも(短い)動画でより多くの反復を最適化することに焦点を当てる。

Refer to caption
図5: MagicDriveDiTにおける段階的ブートストラップ訓練。高解像度の長い動画生成のために、我々は解像度とフレーム数の両方を段階的にスケールアップするようにモデルを訓練する。

4.4 Variable Length and Resolution Adaptation

4.3節で述べたように、我々は3段階の訓練プロセスを採用している。後半の2段階では、様々な解像度と長さの動画を訓練に取り入れている。具体的には、第2段階では、最大65フレームの長さと最大424×\times×800の解像度の動画を混合して訓練する。第3段階では、最大241フレーム(データセットの最大フレーム数)と最大848×\times×1600の解像度(データセットの最大解像度)までの動画を混合する。混合方法の詳細は付録Bに記載されている。

単一の解像度と長さで訓練する場合と比較して、この混合アプローチにより、モデルは解像度とフレーム数の次元にわたって情報を迅速に理解することができる(第5.3節にこれに関するさらなるアブレーション研究がある)。結果として、我々の最終モデルは、様々な解像度(224×\times×400、424×\times×800、848×\times×1600)とフレーム数(1-241フレーム)の生成をサポートしている。また、両次元にわたる外挿も可能であり、訓練構成を超えたサンプリングが可能である。例えば、848×\times×1600で129フレーム、または424×\times×800で241フレームなどである(第6節で示される)。

5 Experiments

5.1 Experimental Setups

データセットとベースライン。 我々は、街路景観生成のための著名なデータセットであるnuScenesデータセット[4]MagicDriveDiTの評価に使用する[11, 41, 27]。我々は公式の分割に従い、700のマルチビュー動画を訓練に、150を検証に使用する。我々の主要なベースラインはMagicDrive[11]であり、3つのモデルで構成される:16フレームの動画生成のためのMagicDrive (16f)、MagicDrive (16f)を60フレームに拡張したMagicDrive (60f)(両者ともGao et al. [11]による)、そしてGao et al. [10]による16フレームのモデルMagicDrive3Dである。詳細は付録Cに記載されている。

Method FVD\downarrow mAP\uparrow mIoU\uparrow
MagicDrive [11] (16f) 218.12 11.86 18.34
MagicDrive [11] (60f) 217.94 11.49 18.27
MagicDrive3D [10] 210.40 12.05 18.27
MagicDriveDiT 94.84 18.17 20.40
表2: 制御可能な動画生成のベースラインとの比較。 動画はnuScenes検証セットの条件に従って生成される。[29]と同様に、評価には最初の16フレームのみを使用する。 \uparrow/\downarrowは、値が高い/低いほど良いことを示す。
Refer to caption
図6: MagicDriveDiTとMagicDrive [11]の定性的比較。 フレームは生成された動画から抽出されている。 スペースの制約上、前方視点を含む3つの視点(6つのうち)のみを提示する。 生成された視点から2つの切り抜きを拡大し、右側に表示している。 MagicDriveの4×\times×解像度を生成することで、 我々のモデルによって合成された街路景観はより細かい詳細を含んでいる。

評価指標。 我々は、動画と画像の街路景観生成において、リアリズムと制御可能性の両方を評価する。動画生成については、[29]のベンチマークに従い、動画品質にはFVDを使用する。制御可能性については、3D物体検出のmAPとBEVセグメンテーションのmIoUを使用し、両タスクにはビデオベースの知覚モデルであるBEVFormer[21]を使用する。 画像生成については、Gao et al. [11]の指標を採用し、画像品質にはFIDを使用する。制御可能性の評価には、BEVFusion[26]によるmAPとCVT[49]による道路のmIoUを使用する。BEVFusionとCVTは画像ベースのモデルである。 我々のMagicDriveDiTはnuScenesデータセットの訓練セットのみで訓練され、検証セットのアノテーションに対応する動画/画像を生成し、前述の指標を用いて実データで事前訓練された知覚モデルで評価を行う。

モデル設定。 セクション4.2に従い、我々はCogVideoX[43]の3D VAEフレームワークを採用し、街路景観動画生成のための拡散モデルをゼロから訓練する333この選択に関する詳細な議論については、セクション5.3と付録Fを参照。。初期段階では、モデルはベースブロックと制御ブロックに空間ブロックのみを含み、画像生成に焦点を当てる。 第二段階で時間ブロックが組み込まれ、MagicDriveDiTの完全なアーキテクチャを形成する。 最終段階では、GPUメモリの制限を管理するためにシーケンス並列化が採用され、詳細は付録Aに記載されている。さらなる訓練の詳細は付録Dに記載されている。

5.2 Results and Analysis

生成品質MagicDriveDiTは、動画と画像の生成タスクの両方で優れた性能を示している。 動画タスクにおいては、DiTアーキテクチャがフレーム間の一貫性と時空間条件のエンコーディングを向上させ、物体の動きと位置の正確な制御を可能にしたことで、MagicDriveと比較してFVDを大幅に削減している(表2)。 さらに図6に示されているように、MagicDriveDiTは高解像度の動画を生成し、品質を向上させるだけでなく、より複雑な詳細を取り入れ、実際のカメラで撮影された映像に近い結果を生成している。 この向上は、可変長と解像度に対する我々の高度な訓練によって達成され、より現実的で詳細な出力を可能にしている。

また、混合訓練アプローチの恩恵を受け、MagicDriveDiTは画像生成も可能である。 表3に示されているように、MagicDriveDiTはマルチビューのストリートビュータスクにおいてベースラインの性能に匹敵し、車両セグメンテーションのmIoUと物体検出のmAPではベースラインを上回っている。これは、我々の時空間条件エンコーディングの強力な汎化能力を示している。

制御可能性。 表2および3に示された定量的結果は、MagicDriveDiTによって生成された画像と動画が制御条件を効果的に反映していることを示している。さらに、図8は視覚的な結果を提供し、複数の制御条件が生成されたコンテンツに独立して影響を与えることができることを示している。例えば、道路構造、他の車両と自車の軌跡を維持しながら、テキスト入力によって天候を変更(晴れから雨へ)することができる。条件の組み合わせを変えることで、MagicDriveDiTは多様な高品質のストリートビュー動画を生成することが可能である。

表3: 制御可能な画像生成におけるベースラインとの比較。 評価にはnuScenesの検証セットからすべてのアノテーションとカメラビューを使用している。\uparrow/\downarrowは、より高い/低い値が良いことを示す。
Method
FID
\downarrow
Road
mIoU\uparrow
Vehicle
mIoU\uparrow
mAP
\uparrow
BEVControl [41] 24.85 60.80 26.80 N/A
MagicDrive [11] (Img) 16.20 61.05 27.01 12.30
MagicDriveDiT 20.91 59.79 32.73 17.65
Refer to caption
図7: 異なるVAEからの再構成の可視化。 CogVAE [43]は他と比較してほとんどの詳細を維持し、高解像度のコンテンツに対してより良い性能を示している。
Refer to caption
図8: MagicDriveDiTは、複数の制御(道路地図、物体ボックス、自車軌跡、テキスト)を用いて、241フレーム(nuScenes動画の全長、12 FPSで約20秒)の高解像度(例:424×\times×800)ストリートビュー動画を生成する。特筆すべきは、424×\times×800での241フレーム長が訓練時には見られなかったことであり、これは我々の手法の動画長に対する汎化能力を示している。位置特定を助けるために自車の軌跡と選択された物体にアノテーションを付け、同じ色のボックスは同じ物体を示している。紙面の都合上、「雨」の例は2フレームのみを含んでいる。追加の例は付録Hに記載されている。

5.3 Ablation Studies

街路景観におけるVAEの比較。 拡散モデルの訓練に先立ち、我々はオープンソースの3D VAE(すなわち、CogVAE [43] およびOpen-Sora [47])の街路景観に対する性能を、2D SD VAE [31]と比較して評価した。 図7に示すように、CogVAEは再構成能力において一貫して他のモデルを上回る性能を示した。 さらに、付録Eに示すように、CogVAEはより長い動画シーケンスにおいても性能低下が最小限であり、長時間の動画生成タスクに特に適している。 加えて、我々はすべてのVAEが解像度の増加に伴い再構成能力が向上することを発見した。 この知見は、より高解像度の出力に焦点を当てることで、我々のモデルの高品質な画像と動画を生成する能力を向上させるのに有益である。 より詳細な定量的結果と考察は付録Eを参照されたい。

時空間条件付け。 我々は、過学習実験における検証損失(図9)と視覚化比較(図10)によって時空間エンコーダの有効性を実証する。 我々は、アライメントのためのグローバルな時間次元削減(Reduce)と時間次元補間(Interp.)という2つのベースラインを比較する。16サンプルでの過学習訓練において、4×4\times4 ×ダウンサンプリング技術(4×4\times4 × down、我々の手法)は収束を加速し、最終的な検証損失が最も低くなることを図9に示す[9]。さらに、図10は、グローバルな削減ベースラインとは異なり、4×4\times4 × downがアーティファクトを減少させ、正確な動きの軌跡を維持することを示している。これらの結果は、時空間エンコーダがデータのエンコーディングを強化し、時空間潜在表現を用いて動画生成性能を向上させる能力を確認するものである。

Refer to caption
図9: 異なるSPエンコーディングを用いた訓練における検証損失4×4\times4 ×down(MagicDriveDiTにおける我々の手法)はモデルの収束を助け、すべてのエンコーディングの中で最高の性能を示す。
Refer to caption
図10: ボックスに対する時空間エンコーディングの視覚的効果。 時空間潜在エンコーディングを用いた動画において、単純なグローバル削減ベースラインは視点間のオブジェクト軌跡にアーティファクトと残像効果を引き起こす可能性がある(赤枠で強調表示)。我々の時空間エンコーディングはこれを効果的に解決し、オブジェクトの明瞭さと正確な動きの軌跡を維持する。

段階的ブートストラップ訓練。 3段階の段階的訓練アプローチは、直接的なステージ3の訓練と比較して、モデル訓練の効率を顕著に向上させる。表4は、例えば4日間で、ステージ1がステージ3の約60倍の反復回数を実行し、ステージ2が約7倍の反復回数を達成することを示している。段階的訓練は、セクション4.3で議論したように、効果的な収束に多数の反復を必要とする制御可能な生成モデルにとって不可欠である。段階的戦略により、初期段階でより高速な反復を利用して収束を強化し、学習を加速させることで、高品質な動画生成能力を迅速に獲得することが可能となる。

Stages Sec./Iter. Iter. for 4 days
stage 1 4.32 80k
stage 2 39.84 8.7k
stage 3 264.96 1.3k
表4: MagicDriveDiTの各訓練ステージの速度、NVIDIA A800 GPUで測定。 4日間の期間(例として)で、ステージ1の訓練はステージ3の約60倍の反復回数を生成し、ステージ2は約7倍の反復回数を提供する。 この値はシーケンス並列(SP)サイズとの乗算によって計算される(実際には、ステージ3にはSPサイズ4を使用し、66.24秒/反復)。

可変長および解像度訓練。セクション4.4で述べたように、MagicDriveDiTは異なる長さと解像度の動画を混合する訓練戦略を採用している。我々のアブレーション研究はこの戦略の有効性を実証している。 表5に示すように、低解像度の動画(17×\times×224×\times×400)のみを使用した場合、セクション5.2で議論したVAEの限界が明らかであり、他の設定と比較してFVDが悪化し、mAPとmIoUスコアが低下している。 より長い動画を組み込むことでモデルの制御可能性が向上し(mAPとmIoUの両方が高くなる)、高解像度の動画を組み込むことで全体的な品質が向上する(3つの指標すべてが顕著に改善される)。

異なるフレーム長を混合することでFVDがわずかに低下するものの、これはモデルが様々な長さの動画を生成し、未見の長さに外挿できるようにするために重要である(セクション6参照)。 したがって、我々は解像度とフレーム長の両方を組み合わせ、動画品質、制御可能性、およびモデル機能性のトレードオフを効果的にバランスさせている。

Training Data FVD\downarrow mAP\uparrow mIoU\uparrow
17×\times×224×\times×400 97.21 10.17 12.42
(1-65)-224×\times×400 100.73 10.51 12.74
17×\times×(224×\times×440 - 424×\times×800) 96.34 14.91 17.53
1-65×\times×(224×\times×440 - 424×\times×800) 99.66 15.44 18.26
表5: 異なる訓練構成の比較。より高い解像度とより長い動画への適応能力をテストするため、すべてのモデルは短い動画(9×\times×424×\times×800)に対する事前訓練された重みを読み込み、同じGPU時間で訓練される。

6 Applications

より長い動画生成のための外挿。 可変長および解像度トレーニング(セクション4.4)を通じて、MagicDriveDiTはトレーニングセットアップの長さを超える動画を効果的に生成する。129×\times×424×\times×800および241×\times×224×\times×400までの動画でトレーニングされたにもかかわらず、MagicDriveDiTは241×\times×424×\times×800の動画(nuScenesの全長)を成功裏に生成する。これはトレーニングサンプルの2倍の長さであり、図8に示されている通りである。 この能力をさらに検証するために、我々は短い動画(17フレーム)の最初の16フレームFVDと、より長い動画(65フレーム以上)の16フレームごとのFVDを比較した。表6に示すように、16フレームFVDは既知および外挿された構成の両方で一貫しており、129×\times×848×\times×1600×\times×6の生成にまで及んでいる(これは上限ではない;付録の注記を参照されたい)。 これはモデルの堅牢な汎化能力を裏付けるものである。

Resolution First-16- Avg. of Per-16-Frame
Frame 2×\times× 3×\times× 4×\times×
424×\times×800 530.65 562.99 / /
848×\times×1600 559.70 573.46 583.50 585.89
表6: トレーニングより長い動画の生成品質。 我々はnuScenesの検証セットから無作為に10のシーケンスをサンプリングし、FVD(低いほど良い)を報告する。n×n\timesitalic_n ×: 最大トレーニングフレーム数のn𝑛nitalic_n倍、すなわち、424×\times×800の場合は129フレーム、848×\times×1600の場合は33フレーム。/: データセットの最大フレームを超える。

7 Conclusion and Discussion

本稿では、MagicDriveDiTを提示した。これは、自動運転などのアプリケーションに特化した、精密な制御が可能な高解像度かつ長尺のビデオ合成のための革新的なフレームワークである。DiTアーキテクチャとFlow Matchingを活用することで、MagicDriveDiTはビデオ生成におけるスケーラビリティと幾何学的制御の課題に効果的に対処している。我々のアプローチは、新規の時空間条件付きエンコーディングと、可変長および解像度適応を伴う段階的ブートストラッピング戦略を導入し、モデルの汎化能力を向上させている。広範な実験により、MagicDriveDiTが空間的および時間的一貫性を維持しつつ現実的なビデオを生成し、解像度とフレーム数において従来の手法を大幅に上回ることが実証された。本研究はビデオ合成を進展させ、自動運転におけるシミュレーションやその他のアプリケーションに新たな可能性をもたらすものである。

References

  • Blattmann et al. [2023a] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, et al. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127, 2023a.
  • Blattmann et al. [2023b] Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis. Align your latents: High-resolution video synthesis with latent diffusion models. In CVPR, pages 22563–22575, 2023b.
  • Brooks et al. [2024] Tim Brooks, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, Clarence Ng, Ricky Wang, and Aditya Ramesh. Video generation models as world simulators. 2024.
  • Caesar et al. [2020] Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora, Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan, and Oscar Beijbom. nuscenes: A multimodal dataset for autonomous driving. In CVPR, 2020.
  • Chen et al. [2024a] Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, and Zhenguo Li. Pixart-\\\backslash\sigma: Weak-to-strong training of diffusion transformer for 4k text-to-image generation. In ECCV, 2024a.
  • Chen et al. [2024b] Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, and Zhenguo Li. Pixart-\\\backslash\alpha: Fast training of diffusion transformer for photorealistic text-to-image synthesis. In ICLR, 2024b.
  • Dao et al. [2022] Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, and Christopher Ré. FlashAttention: Fast and memory-efficient exact attention with IO-awareness. In NeurIPS, 2022.
  • Dhariwal and Nichol [2021] Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. In NeurIPS, 2021.
  • Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In ICML, 2024.
  • Gao et al. [2024a] Ruiyuan Gao, Kai Chen, Zhihao Li, Lanqing Hong, Zhenguo Li, and Qiang Xu. Magicdrive3d: Controllable 3d generation for any-view rendering in street scenes. arXiv preprint arXiv:2405.14475, 2024a.
  • Gao et al. [2024b] Ruiyuan Gao, Kai Chen, Enze Xie, HONG Lanqing, Zhenguo Li, Dit-Yan Yeung, and Qiang Xu. Magicdrive: Street view generation with diverse 3d geometry control. In ICLR, 2024b.
  • Gao et al. [2024c] Shenyuan Gao, Jiazhi Yang, Li Chen, Kashyap Chitta, Yihang Qiu, Andreas Geiger, Jun Zhang, and Hongyang Li. Vista: A generalizable driving world model with high fidelity and versatile controllability. arXiv preprint arXiv:2405.17398, 2024c.
  • Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.
  • Ho et al. [2022] Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, and David J Fleet. Video diffusion models. In NeurIPS, 2022.
  • Hu et al. [2023a] Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev, Alex Kendall, Jamie Shotton, and Gianluca Corrado. Gaia-1: A generative world model for autonomous driving. arXiv preprint arXiv:2309.17080, 2023a.
  • Hu [2024] Li Hu. Animate anyone: Consistent and controllable image-to-video synthesis for character animation. In CVPR, 2024.
  • Hu et al. [2023b] Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, Lewei Lu, Xiaosong Jia, Qiang Liu, Jifeng Dai, Yu Qiao, and Hongyang Li. Planning-oriented autonomous driving. In CVPR, 2023b.
  • Jiang et al. [2024] Junpeng Jiang, Gangyi Hong, Lijun Zhou, Enhui Ma, Hengtong Hu, Xia Zhou, Jie Xiang, Fan Liu, Kaicheng Yu, Haiyang Sun, et al. Dive: Dit-based video generation with enhanced control. arXiv preprint arXiv:2409.01595, 2024.
  • Lab and etc. [2024] PKU-Yuan Lab and Tuzhan AI etc. Open-sora-plan, 2024.
  • Li et al. [2025] Pengxiang Li, Kai Chen, Zhili Liu, Ruiyuan Gao, Lanqing Hong, Guo Zhou, Hua Yao, Dit-Yan Yeung, Huchuan Lu, and Xu Jia. Trackdiffusion: Tracklet-conditioned video generation via diffusion models. In WACV, 2025.
  • Li et al. [2022] Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Yu Qiao, and Jifeng Dai. Bevformer: Learning bird’s-eye-view representation from multi-camera images via spatiotemporal transformers. In ECCV, 2022.
  • Liang et al. [2022] Tingting Liang, Hongwei Xie, Kaicheng Yu, Zhongyu Xia, Zhiwei Lin, Yongtao Wang, Tao Tang, Bing Wang, and Zhi Tang. BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework. In NeurIPS, 2022.
  • Lipman et al. [2023a] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matthew Le. Flow matching for generative modeling. In ICLR, 2023a.
  • Lipman et al. [2023b] Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, and Matthew Le. Flow matching for generative modeling. In ICLR, 2023b.
  • Liu et al. [2023a] Xingchao Liu, Chengyue Gong, et al. Flow straight and fast: Learning to generate and transfer data with rectified flow. In ICLR, 2023a.
  • Liu et al. [2023b] Zhijian Liu, Haotian Tang, Alexander Amini, Xingyu Yang, Huizi Mao, Daniela Rus, and Song Han. Bevfusion: Multi-task multi-sensor fusion with unified bird’s-eye view representation. In ICRA, 2023b.
  • Ma et al. [2024] Enhui Ma, Lijun Zhou, Tao Tang, Zhan Zhang, Dong Han, Junpeng Jiang, Kun Zhan, Peng Jia, Xianpeng Lang, Haiyang Sun, et al. Unleashing generalization of end-to-end autonomous driving with controllable long video generation. arXiv preprint arXiv:2406.01349, 2024.
  • Meng et al. [2022] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. SDEdit: Guided image synthesis and editing with stochastic differential equations. In ICLR, 2022.
  • Organizers [2024] W-CODA2024 Organizers. Track 2: Corner case scene generation - multimodal perception and comprehension of corner cases in autonomous driving, 2024.
  • Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In ICCV, 2023.
  • Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.
  • Song et al. [2020] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In ICLR, 2020.
  • Su et al. [2024] Jianlin Su, Murtadha Ahmed, Yu Lu, Shengfeng Pan, Wen Bo, and Yunfeng Liu. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 568:127063, 2024.
  • Sun et al. [2024] Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, and Zehuan Yuan. Autoregressive model beats diffusion: Llama for scalable image generation. arXiv preprint arXiv:2406.06525, 2024.
  • Wang et al. [2023a] Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Jiagang Zhu, and Jiwen Lu. Drivedreamer: Towards real-world-driven world models for autonomous driving. arXiv preprint arXiv:2309.09777, 2023a.
  • Wang et al. [2023b] Xiaofeng Wang, Zheng Zhu, Yunpeng Zhang, Guan Huang, Yun Ye, Wenbo Xu, Ziwei Chen, and Xingang Wang. Are we ready for vision-centric driving streaming perception? the asap benchmark. In CVPR, 2023b.
  • Wang et al. [2024a] Yibo Wang, Ruiyuan Gao, Kai Chen, Kaiqiang Zhou, Yingjie Cai, Lanqing Hong, Zhenguo Li, Lihui Jiang, Dit-Yan Yeung, Qiang Xu, et al. Detdiffusion: Synergizing generative and perceptive models for enhanced data generation and perception. In CVPR, 2024a.
  • Wang et al. [2024b] Yuqi Wang, Jiawei He, Lue Fan, Hongxin Li, Yuntao Chen, and Zhaoxiang Zhang. Driving into the future: Multiview visual forecasting and planning with world model for autonomous driving. In CVPR, 2024b.
  • Wen et al. [2024] Yuqing Wen, Yucheng Zhao, Yingfei Liu, Fan Jia, Yanhui Wang, Chong Luo, Chi Zhang, Tiancai Wang, Xiaoyan Sun, and Xiangyu Zhang. Panacea: Panoramic and controllable video generation for autonomous driving. In CVPR, 2024.
  • Xing et al. [2024] Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Wangbo Yu, Hanyuan Liu, Xintao Wang, Tien-Tsin Wong, and Ying Shan. Dynamicrafter: Animating open-domain images with video diffusion priors. In ECCV, 2024.
  • Yang et al. [2023] Kairui Yang, Enhui Ma, Jibin Peng, Qing Guo, Di Lin, and Kaicheng Yu. Bevcontrol: Accurately controlling street-view elements with multi-perspective consistency via bev sketch layout. arXiv preprint arXiv:2308.01661, 2023.
  • Yang et al. [2024a] Xuemeng Yang, Licheng Wen, Yukai Ma, Jianbiao Mei, Xin Li, Tiantian Wei, Wenjie Lei, Daocheng Fu, Pinlong Cai, Min Dou, et al. Drivearena: A closed-loop generative simulation platform for autonomous driving. arXiv preprint arXiv:2408.00415, 2024a.
  • Yang et al. [2024b] Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, et al. Cogvideox: Text-to-video diffusion models with an expert transformer. arXiv preprint arXiv:2408.06072, 2024b.
  • Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, 2023.
  • Zhao et al. [2024a] Guosheng Zhao, Chaojun Ni, Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Boyuan Wang, Youyi Zhang, Wenjun Mei, and Xingang Wang. Drivedreamer4d: World models are effective data machines for 4d driving scene representation. arXiv preprint arXiv:2410.13571, 2024a.
  • Zhao et al. [2024b] Guosheng Zhao, Xiaofeng Wang, Zheng Zhu, Xinze Chen, Guan Huang, Xiaoyi Bao, and Xingang Wang. Drivedreamer-2: Llm-enhanced world models for diverse driving video generation. arXiv preprint arXiv:2403.06845, 2024b.
  • Zheng et al. [2024] Zangwei Zheng, Xiangyu Peng, Tianji Yang, Chenhui Shen, Shenggui Li, Hongxin Liu, Yukun Zhou, Tianyi Li, and Yang You. Open-sora: Democratizing efficient video production for all, 2024.
  • Zheng et al. [2025] Ziyang Zheng, Ruiyuan Gao, and Qiang Xu. Non-cross diffusion for semantic consistency. In WACV, 2025.
  • Zhou and Krähenbühl [2022] Brady Zhou and Philipp Krähenbühl. Cross-view transformers for real-time map-view semantic segmentation. In CVPR, 2022.

A Sequence Parallel Training

Zheng et al. [47]に触発され、我々は大きなシーケンス長を持つDiTモデルをトレーニングするためにシーケンス並列性を採用している。図Iに示されているように、我々は各入力を空間次元に沿って異なるGPU上に分割する。ほとんどの操作は単一のGPU内で実行できるが、アテンションブロックは通信を必要とする。図Iの右側では、完全なシーケンスが収集されるが、アテンションヘッドが異なるGPU間で分散される通信プロセスを示している。このアプローチにより、GPU間のピアツーピア通信が可能になり、ほぼ均等な負荷が維持される。

Refer to caption
図I: シーケンス並列のダイアグラム: 我々は最初のブロックの前に空間次元を分割し、最後のブロックの後にそれらを収集する。 : 各アテンションモジュールに対して、我々はオールトゥオール通信を使用し、分割次元をアテンションヘッドに変更する。 B: バッチ; T: 時間次元; S: 空間次元; D: 潜在次元; HD: ヘッド数; CH: ヘッドごとの次元; SP: シーケンス並列サイズ。

さらに、VAEのエンコーディングとデコーディングについては、バッチサイズとカメラビューの数に基づいて分割し、複数のGPUを活用して処理を加速している。

B More Details for Mixed Resolution and Frames Training

MagicDriveDiTは、段階的ブートストラップアプローチ(セクション4.3参照)を通じて、可変長および解像度のデータ構成(セクション4.4参照)で訓練される。 したがって、我々のデータ混合方法は、表Iに詳述されているように、3つの訓練段階に対応している。

Stage Resolution Frame(s) Sequence Parallel Training Step
Stage 1 224×\times×400 Img - 80000
Stage 2 224×\times×400 Img, 9, 17, 33, 65 - 40000
424×\times×800 Img, 9, 17, 33
Stage 3 224×\times×400 Img, 17, full 4 30000
424×\times×800 Img, 17, 33, 65, 129
848×\times×1600 Img, 9, 17, 33
表I: 可変長および解像度訓練の構成。 混合構成は、低解像度画像から高解像度の長尺ビデオまでの3段階の段階的ブートストラップ訓練に合わせている。

[47]にインスパイアされ、GPUリソースの利用を最大化するために、我々はバケットのようなアプローチを採用してデータ構成を調整した。具体的には、各GPUプロセス(またはシーケンス並列通信グループ)は1種類のデータのみを読み込み、バッチ次元の整列を確保する。 バッチサイズ1で最も長い反復時間を要するビデオ形式の訓練時間をベンチマークとして使用し、他のデータ形式のバッチサイズを調整して、各タイプがほぼ同じ速度で実行されるようにした。特に、ステージ3の訓練中は、完全なビデオクリップの数が限られているため、このタイプのデータをエポック内で繰り返す。これにより、異なるタイプのデータがエポック内で同様の規模のバッチ数を持つことを保証している。

C More Experimental Details

nuScenes データセットには、12Hz の未アノテーションデータと 2Hz のアノテーション済みデータが含まれている。我々の実験によると、高フレームレートの動画は生成モデルの学習により有益である。そのため、我々は [11] に従い、ASAP [36] を用いて 2Hz のアノテーションを 12Hz のアノテーションに補間した。補間結果は完全に正確ではないが、動画生成のための学習には影響しない。

生成のためのセマンティッククラス。 我々はデータセットアップにおいて [11] に従っている。 具体的には、物体については、自動車、バス、トラック、トレーラー、オートバイ、自転車、建設車両、歩行者、バリア、交通コーンの10カテゴリーが含まれる。 道路地図については、走行可能領域、横断歩道、歩道、停止線、駐車場、道路分離帯、車線分離帯、ロードブロックの8カテゴリーが含まれる。

D More Training Details

最適化。 我々は、Adamオプティマイザーと8e58superscript𝑒58e^{-5}8 italic_e start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPTの一定の学習率を使用して拡散モデルを訓練し、最後の2段階で3000ステップの線形ウォームアップを行う。我々は主に32台のNVIDIA A800 GPU(80G)を訓練に使用する。我々のモデルはAscend 910B(64G)でも訓練可能である。各段階のバッチサイズは、[47]のバケット戦略に従って、反復速度に応じて設定される。例えば、ステージ2では、33×\times×424×\times×800のバッチサイズを1に設定し、これは約30秒/イテレーションを要する。その後、他のビデオタイプのバッチサイズを約30秒/イテレーションになるように設定する。この戦略により、異なるGPUプロセス間の負荷バランスを確保できる。

推論。 デフォルトでは、画像/ビデオは30ステップのRectified Flow [9]2.02.02.02.0のclassifier-free-guidance(CFG)スケールを使用してサンプリングされる。 CFGをサポートするために、テキスト、カメラ、自我軌道、ボックスの埋め込みを含む異なる条件を15%の確率でランダムにドロップする。我々はGao et al. [11]に従い、CFG推論においてマップのnull条件として{𝟎}0\{\mathbf{0}\}{ bold_0 }を使用する。 高解像度の長いビデオを推論する際、我々は単一のGPUの限られたメモリに適合させるために、シーケンス並列(付録A)も使用する。

E More Comparison among VAEs

VAEの性能を定量的に比較するために、我々はnuScenesデータセットから無作為に2つの6視点ビデオを選択し、PSNRメトリックを用いてVAEの再構成能力を評価した。表IIは、6つの視点にわたって平均化された結果を示している。これらの結果から、CogVAE [43]が最も優れた再構成能力を示し、2D VAE [31]をも上回っていることが分かる。 異なる設定の結果を比較すると、現在の3D VAEは長いビデオに対して良好な汎化能力を示しており、これは主にウィンドウベースのダウンサンプリング技術 [43, 47]によるものである。 さらに、高解像度のコンテンツがVAE再構成後も比較的高いPSNRを維持していることが観察され、これは現在のVAEが高解像度データにより適していることを示している。 この観察結果は、我々の高解像度生成への動機付けも支持している。

Resolution Model Image 17 fr. 33/34 fr.
224×\times×400 CogVAE 34.4261 31.0900 30.5986
Open-Sora 30.4127 27.9238 27.5245
SD VAE 27.7131 27.7593 27.9404
424×\times×800 CogVAE 38.4786 33.5852 32.9202
Open-Sora 33.6114 30.2779 29.8426
SD VAE 30.9704 31.0789 31.3408
848×\times×1600 CogVAE 41.5023 36.0011 35.1049
Open-Sora 37.0590 33.2856 32.8690
SD VAE 37.0504 33.2846 32.8680
表II: 街路景観に対するVAEの比較。 CogVAE [43]とOpen-Sora [47] (1.2)は3D VAEである。SD VAE [31]は2D VAEであり、これも以前の街路景観生成で広く採用されている([11])。 結果はnuScenes検証セットのビデオを通じて計算されたPSNRである。 MagicDriveDiTはCogVAEを採用している。

F Reason for Using CogVAE without the Pre-trained Diffusion Model

MagicDrive [11]やその他の研究 [12]から得られた知見によると、性能の高い拡散モデルからファインチューニングを行うことで、モデルの収束を効果的に加速できることが分かっている。 そのため、DiTアーキテクチャの初期実装では、Open-Sora 1.2 [47]のVAEと拡散モデルを用いて実験を行った。しかし、結果は最適とは言えず、画像生成とビデオの制御性においてMagicDriveの性能に及ばなかった。我々は、この主な原因をテキストからビデオへの拡散の汎化能力の限界と、より重要な点として、VAEの不十分な再構成能力にあると考えている。

我々は、セクション5.3および付録Eで詳述するように、VAEの比較分析を行い、CogVAE [43]が良好な性能を示すことを見出した。VAEが生成品質の上限を決定することを考慮し、我々はビデオエンコーディングにCogVAEを使用することを選択した。特筆すべきは、CogVideoX [43]が新しいDiT構造を採用しており、各層の潜在空間にビデオとテキスト条件の情報を統合していることである。このアプローチは、ジオメトリ関連の条件設計を複雑にする可能性がある。さらに、CogVideoXは運転シナリオで訓練されていない。これらの潜在的な交絡因子を排除するため、我々はCogVAEを使用して拡散モデルをゼロから訓練することを決定した。この戦略により、事前学習済みモデルの制約を超え、マルチビューの一貫性とジオメトリ条件の時空間エンコーディングを達成するためのモデルアーキテクチャのより柔軟な修正が可能となる。

我々の経験は、高解像度で長時間のストリートビュービデオ生成が、必ずしも事前学習済みの画像-テキストモデルやビデオ-テキストモデルを必要としないことを直接的に示している。とはいえ、これは本稿の主要な焦点を超えるものであり、関連する問題は今後の研究課題として残しておく。

G Single Inference v.s. Rollout Inference

Refer to caption
(a) Vistaからの生成。最初のフレームを入力として取り、以降のフレームを生成する(正面図のみサポート)。
Refer to caption
(b) MagicDriveDiTからの生成。我々は条件を入力として取り、完全な動画を生成する(比較のため最初の9秒のみ表示)。
図II: 長尺動画のためのロールアウト(Vista [12])と単一推論(我々のMagicDriveDiT)の比較。ロールアウトは長尺動画を扱えるものの、品質は著しく低下する。対照的に、我々の外挿は長尺動画生成において高品質を維持する。

長尺動画生成を実現するために、従来の研究では通常、将来フレーム予測とロールアウトを組み合わせた方法が採用されている。これは、n𝑛nitalic_n回目の推論後、この推論から得られた最後のl𝑙litalic_lフレームをl𝑙litalic_l+1回目の推論の最初のn+1𝑛1n+1italic_n + 1フレームとして使用することで、長尺動画生成を可能にするものである。しかし、モデルが長期的な依存関係を直接捉えられず、推論ごとに誤差が蓄積されるため、このようなロールアウトは十分に長い動画をサポートできないことが多い。ロールアウト方式の中で、Vista [12]は現在比較的良好な結果を達成している。我々は、Vistaで4回のロールアウトを行って生成した9秒の動画(論文では6回のロールアウトをサポートできると主張している)と、我々の手法であるMagicDriveDiTで生成した9秒のセグメントを比較した。我々の手法が長いシーケンスにわたって一貫した動画品質を維持しているのに対し、Vistaの結果は顕著な品質低下を示していることは明らかである。したがって、我々はMagicDriveDiTが採用しているハイブリッド訓練と長さ外挿アプローチが、長尺動画生成においてより高品質を達成できると考えている。

H More Visualization

「注記」で述べたように、MagicDriveDiT6×848×1600×241684816002416\times 848\times 1600\times 2416 × 848 × 1600 × 241動画(12 fpsで20秒)を生成することが可能である。我々は図IV-IIIにさらなる生成サンプルを含めている。 プロジェクトページで動画をご覧いただきたい。

Refer to caption
図III: 同じシーン構成(すなわち、ボックス、マップ、カメラ、および自車の軌跡)で、異なる天候条件下で生成された6×848×1600×241684816002416\times 848\times 1600\times 2416 × 848 × 1600 × 241動画からいくつかのフレームを示している。条件はnuScenesの検証セットからのものである。
Refer to caption
図IV: 同じシーン構成(すなわち、ボックス、マップ、カメラ、および自車の軌跡)で、異なる時間帯の条件下で生成された6×848×1600×241684816002416\times 848\times 1600\times 2416 × 848 × 1600 × 241動画からいくつかのフレームを示している。条件はnuScenesの検証セットからのものである。