MagicDriveDiT: High-Resolution Long Video Generation
for Autonomous Driving with Adaptive Control
Abstract
拡散モデルの急速な進歩により、ビデオ合成、特に自動運転などのアプリケーションに不可欠な制御可能なビデオ生成が大幅に改善された。しかし、既存の手法はスケーラビリティと制御条件の統合方法に制限があり、自動運転アプリケーションに必要な高解像度かつ長時間のビデオのニーズを満たせていない。本稿では、DiTアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介し、これらの課題に取り組む。我々の手法は、フローマッチングによってスケーラビリティを向上させ、複雑なシナリオを管理するための段階的な訓練戦略を採用している。空間時間的条件エンコーディングを組み込むことで、MagicDriveDiTは空間時間的潜在変数の精密な制御を実現する。包括的な実験により、より高解像度かつより多くのフレームを持つ現実的な街路シーンビデオの生成において、優れた性能を示すことが明らかになった。 MagicDriveDiTはビデオ生成の品質と空間時間的制御を大幅に改善し、自動運転における様々なタスクにわたる潜在的なアプリケーションを拡大する。
1 Introduction
拡散モデルの急速な発展に伴い、ビデオ合成 [3, 14, 1, 2] は著しい進歩を遂げている。 制御可能なビデオ合成 [20, 16] は、多くの下流アプリケーションにおける合成データの使用を大幅に促進している [37]。 特に自動運転の分野では、MagicDrive [11] やDriveDreamer [35] のような技術が、高品質な街路景観ビデオを生成できる制御可能なマルチビュービデオ合成が、下流タスクを効果的に支援し、自動システムの性能と信頼性を向上させる例となっている。
高解像度かつ長時間のビデオ合成は、コンテンツ生成分野における研究の焦点であり [27, 5]、自動運転技術から高い需要がある。 具体的には、自動運転の知覚モデルは、データ内の詳細や遠距離の物体を識別するために、より高解像度の入力を必要としている [22]。 3D再構成におけるビデオ合成の応用も、細部を捉えるために高解像度を必要としている [10, 45]。 一方、長時間のビデオは、自動運転アルゴリズムをより包括的に評価するためのより多くのコンテンツを提供する [42]。 技術的観点からは、高解像度は生成品質を向上させる直接的な方法であり [5]、長時間のビデオはより多くの動的コンテンツを含んでいる [40]。これにより、モデルが世界の法則を効果的に学習することを助ける [3]。
しかしながら、高解像度の長尺動画の合成には2つの主要な課題がある。第一に、データ量の増加により、生成モデルには高品質な合成を効果的にサポートするための高い拡張性が要求される。第二に、動画生成における幾何学的制御は重大な課題を提示する。これまでの制御可能な技術は主に画像生成向けに設計されており[11, 35, 39, 38, 27, 18]、空間的な潜在空間に焦点を当てている。高解像度の長尺動画合成を実現するには、空間情報と時間情報を統合した3D圧縮VAEが必要である[3, 47, 43, 19]。 図2に示すように、時空間潜在変数を利用すると、これまでの制御手法では不十分となる。これは、合成動画内の要素を効果的に管理し、与えられた条件との空間的および時間的一貫性を確保するための新しいアプローチが必要であることを示している。
本稿では、上記の課題に対処するために設計された、DiTアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介する。これは、高解像度で長尺の街路景観ビデオを精密な制御下で合成することを目的としている。 我々は、拡張性を向上させるために、DiTベースのアーキテクチャ[30, 47]を用いて実装された、拡散モデルのためのフローマッチング[9]定式化を採用している。 これにより、多様なシナリオにわたる複雑なデータを効率的に処理するモデルの能力が向上する。 制御性を高めるために、CogVAE[43]からの時空間潜在変数に対して特別に設計された時空間条件付きエンコーディングを使用し、表現の精密な管理を可能にしている。 さらに、モデル訓練には短いビデオから長いビデオへと移行する段階的ブートストラップ戦略を採用し、モデルが複雑な詳細を捉え、複雑なシナリオに一般化できるようにしている。 加えて、様々な解像度と長さのビデオを活用してモデルの一般化能力を強化し、訓練用のビデオよりも長いビデオを合成できるようにしている。
我々のMagicDriveDiTは、道路地図、3Dバウンディングボックス、異なるカメラ視点に合致する非常にリアルなビデオの生成に優れており、先行研究[11, 12, 27, 18]よりも高い解像度とより多くのフレーム数を達成している。 包括的な実験と比較により、我々の訓練方法と制御方法の有効性が実証され、制御可能な街路景観ビデオ合成が大幅に改善されている。 MagicDriveDiTの様々な解像度、フレーム数、制御信号を扱う柔軟性により、シミュレーションに適した新しい街路景観の創造が可能となり、多様な分野にわたる潜在的な応用が拡大している。
要約すると、本稿の主な貢献は以下の通りである:
-
•
我々は、段階的ブートストラッピングを活用して高品質かつ高解像度の長時間ビデオ生成を実現する効率的なフレームワーク、MagicDriveDiTを設計した。
-
•
我々は、マルチフレーム、マルチビューの一貫性を維持しながら、物体の位置、道路のセマンティクス、カメラの軌道に対する新規の時空間制御を開発した。
-
•
我々のモデルは、混合解像度および継続時間トレーニングを通じて画像からビデオ生成へと一般化し、外挿能力を持ち、従来の研究を大幅に上回る解像度とフレーム数を実現している。
2 Related Work
自動運転における動画生成。 動画生成は自動運転において非常に重要であり、知覚モデルの訓練 [11]、テスト [42]、シーン再構築 [10, 45] に応用されている。これには広範な視野と動的な物体の動きの処理が必要であり、生成モデルの制御可能性 [11] と高解像度の動画制作 [22]、より多くのフレーム数 [10]、複数のカメラ視点 [45] が求められる。拡散モデルは制御可能なマルチビュー動画生成を改善したが、既存のモデル [38, 39, 46, 27, 18] はデータエンジンアプリケーション [11, 10, 45] やポリシーテスト [17] に十分な解像度とフレーム数を欠いている。 表 1 で比較されているように、我々の研究である MagicDriveDiT は、自動運転のための動画生成において前例のない解像度とフレーム数を達成している。
Type | Method | Total Res. | Frame |
---|---|---|---|
Front View | GAIA-1∗[15] | 2885121 | 26 |
DriveDreamer [35] | 1281921 | 32 | |
Vista∗ [12] | 57610241 | 25 | |
Multi- view | MagicDrive [11] | 2244006 | 60 |
Drive-WM [38] | 1923846 | 8 | |
Panacea [39] | 2565126 | 8 | |
DriveDreamer2 [46] | 2564486 | 8 | |
Delphi [27] | 5125126 | 10 | |
DiVE [18] | 480p6 | 16 | |
MagicDriveDiT | 84816006 | †129 | |
4248006 | 241 |
拡散モデルとDiTアーキテクチャ。 拡散モデル[13, 32, 48]は、ガウスノイズからサンプルへのデノイジングステップを学習することでデータを生成し、画像[8, 31, 37]や動画生成[14]で広く使用されている。モデリングの観点からは、フローマッチング[23, 9]が拡散モデルのモデリングを簡素化し、トレーニングと推論の効率を向上させる。 実装の観点からは、拡散モデルのアーキテクチャはUNet[13]からDiTへと移行しており、これはスケーラビリティの向上[30, 6]、特に高解像度タスク[5]において顕著である。我々のMagicDriveDiTもまた、高解像度かつ長時間の動画生成にスケーリングするためにフローマッチングとDiTを活用している。
条件付き生成。 条件付き生成は、生成モデルを活用する様々なアプリケーションにおいて重要である。LDM[31]のクロスアテンション層とControlNet[44]のグリッド形状の制御信号に対する加法的エンコーディングは、制御可能な拡散ベースの生成における主要な手法である。ストリートビュー生成において、MagicDrive[11]とMagicDrive3D[10]は、3Dバウンディングボックス、BEVマップ、自車軌跡、カメラポーズを統合して多視点の街路シーンを合成する。しかし、これらの手法は空間エンコーディングに限定されており、図2に示すように、時空間VAE潜在変数[43]には直接適用できない。 MagicDriveDiTは、時空間圧縮されたVAE潜在変数に対する新しい制御パラダイムを提示し、高解像度の長時間動画の制御可能な生成を可能にする。
3 Preliminary
問題の定式化。 本稿は、街路景観の制御可能な高解像度かつ長時間のビデオ生成に取り組む。フレーム記述の連続 が与えられた場合、対応する街路景観ビデオを潜在変数 から生成することが目標である。すなわち、 であり、ここで は カメラビューを表す。ここで、高解像度とは が高解像度であることを意味し、長時間ビデオとは が大きいことを意味する。
街路景観ビデオを記述するために、我々は [10, 11] で概説された条件を採用する。具体的には、フレーム記述 には、カメラポーズ 111通常、カメラはビデオ全体を通して固定されている。、BEVにおいて メートルの道路領域を表す道路地図 ( のセマンティッククラスを持つ)、3Dバウンディングボックス (各オブジェクトはボックス とクラス で記述される)、ビデオ全体に情報を追加するテキスト (例えば、天候や時間帯)、そして自車の軌跡 (各フレームのLiDAR座標から最初のフレームへの変換を記述する、すなわち )が含まれる。 を除くすべての幾何学的情報は、自車のローカルLiDAR座標に従ってパラメータ化される。
LDMとフローマッチング。 高解像度画像生成のために、Rombach et al. [31]は潜在拡散モデル(LDM)を提案し、画像のダウンサンプリングには事前学習済みのVAEを、潜在空間での生成には拡散モデルを使用している。 この方法は画像生成[6, 9]と動画生成[1, 47, 3]の両方で広く採用されている。 MagicDriveDiTもまた、VAE+拡散の定式化に基づいている。 拡散モデルの最新の進歩により、Esser et al. [9]はシミュレーションフリーの整流フロー[25, 24]とv-予測損失[9]を通じて大規模拡散モデルを訓練することを提案している:
(1) | ||||
(2) |
ここで、はタイムステップであり、はモデルである。
4 Methods
4.1 Overview of MagicDriveDiT
モデルアーキテクチャについて、図3に示すように、MagicDriveDiTは制御可能な街路景観生成のための新規DiTベースの拡散モデルを導入し、Zheng et al. [47]に従ってSTDiT-3ブロックを利用している。 これらのブロックは、情報処理を強化するために空間モジュールと時間モジュールを分離している。
アーキテクチャ設計には2つの重要な修正が組み込まれている。第一に、マルチビュー生成を容易にするために、Multi-View DiT (MVDiT)ブロックは図3の左側に示すように、クロスビュー注意層[11]を統合している。第二に、複数の制御要素を扱う必要性を考慮して、MagicDriveDiTはテキスト、ボックス、カメラビュー、軌跡に対してクロス注意[31]を採用し、地図に対しては加法的分岐[44]を用いて制御信号を注入している。
しかしながら、図2に示すように、制御信号の空間エンコーディング[11, 27, 39, 38, 46]は空間時間的潜在変数と互換性がない。そのため、各制御信号のエンコーダーは再構成され、図3の右側に示す空間時間的ボックスエンコーダーがその例である。詳細については4.2節で説明する。
さらに、MagicDriveDiTは拡散モデルの収束を向上させるために、段階的ブートストラップ訓練戦略(4.3節)を採用し、画像から低解像度・短時間の動画へ、そして最終的に高解像度・長時間の動画へと移行する。 最終訓練段階では、可変長および可変解像度の動画を組み込み、モデルが多様な解像度で画像と動画を生成し、訓練設定を超えてより長いフレーム数に外挿できるようにしている。 4.4節でさらなる詳細を提供する。
4.2 Design for High-Resolution Long Video
DiTと3D VAE。 高解像度で長時間の動画生成のための拡散モデルの訓練は計算負荷が高く、大量のGPUメモリを必要とする。DiTと3D VAEは、これらの側面で拡散モデルをスケールアップする上で極めて重要である。
Peebles and Xie [30]が指摘しているように、モデルのGflopsとFIDの間には強い負の相関があり、計算効率の観点からDiTはUNet [11]のようなアーキテクチャよりも好ましい。GPUメモリに関しては、3D VAEが時間的ダウンサンプリングを提供する。典型的な2D VAE [31]は画像の高さと幅の両方を8倍圧縮し、の圧縮率を達成する。対照的に、3D VAE [43]は時間情報を圧縮し、の圧縮率を実現する222我々は議論を通じて潜在変数の次元の可能な不一致を無視する。。これにより、パッチ化された潜在変数のシーケンス長とメモリ消費が大幅に削減され、特にトランスフォーマー [7]に有益である。 さらに、アーキテクチャの統一化の傾向 [34]により、DiTは高度な並列化手法、例えばシーケンス並列化 [47]を利用して単一GPUのメモリ制約を克服し、より高解像度で長時間の動画生成を可能にする。
3D VAE採用の主な課題は幾何学的制御である。図2に示すように、幾何学的制御はフレームごとのコンテンツを空間的に管理する。2D VAEでは、フレームがの潜在変数にエンコードされる。の幾何学的記述子を使用すると、動画の幾何学的制御は画像の空間的制御 [28]に縮退する。これは、制御信号と潜在変数が時間的に整列しているためである。しかし、3D VAEはの潜在変数を生成し(ここでは時間圧縮率)、制御信号と潜在変数の整列が崩れ、以前の制御技術 [11, 27, 39]が効果を失う。
時空間条件付け技術。 MagicDriveDiTにおける幾何学的制御のために、我々は制御信号を時空間潜在変数と整列させる時空間エンコーディングを導入する。これには、シーン記述子()内のマップ()、ボックス()、および軌跡()の再整列が含まれる。グリッドデータとして表現されるマップは、管理が比較的容易である。ControlNet [44]の設計を拡張し、3D VAEの新しい学習可能なパラメータを持つ時間的ダウンサンプリングモジュールを利用して、制御ブロックとベースブロック間の特徴を整列させる。これを図4(a)に示す。
3Dボックスについては、図3右に示すように、視点やフレーム間でボックスシーケンスの長さを一定に保つために、不可視のボックスにパディングを適用する。 我々は、時間的相関を捉えるために時間トランスフォーマーとRoPE [33]を用いたダウンサンプリングモジュールを採用し、図4(b)に示すように、動画潜在変数と整列した時空間埋め込みを作成する。ボックスのための時空間エンコーダは、ボックス用のMLPをカメラポーズ用のMLP [11]に置き換えることで、自己軌跡()にも適応できる。 すべてのダウンサンプリング比は採用された3D VAE [43]と整合しており、すなわち、入力としてまたは、出力としてまたはとなっている。
4.3 Progressive Bootstrap Training
訓練中のモデル収束を加速するために、我々は単一の訓練反復の持続時間に基づいて訓練データをスケジュールする。具体的には、3段階の訓練アプローチを採用する:初めに低解像度画像を用いてブートストラップ訓練を行い、次に低解像度の短い動画に移行し、最終的に高解像度の長い動画訓練を行う。
4.4 Variable Length and Resolution Adaptation
5 Experiments
5.1 Experimental Setups
データセットとベースライン。 我々は、街路景観生成のための著名なデータセットであるnuScenesデータセット[4]をMagicDriveDiTの評価に使用する[11, 41, 27]。我々は公式の分割に従い、700のマルチビュー動画を訓練に、150を検証に使用する。我々の主要なベースラインはMagicDrive[11]であり、3つのモデルで構成される:16フレームの動画生成のためのMagicDrive (16f)、MagicDrive (16f)を60フレームに拡張したMagicDrive (60f)(両者ともGao et al. [11]による)、そしてGao et al. [10]による16フレームのモデルMagicDrive3Dである。詳細は付録Cに記載されている。
Method | FVD | mAP | mIoU |
---|---|---|---|
MagicDrive [11] (16f) | 218.12 | 11.86 | 18.34 |
MagicDrive [11] (60f) | 217.94 | 11.49 | 18.27 |
MagicDrive3D [10] | 210.40 | 12.05 | 18.27 |
MagicDriveDiT | 94.84 | 18.17 | 20.40 |
評価指標。 我々は、動画と画像の街路景観生成において、リアリズムと制御可能性の両方を評価する。動画生成については、[29]のベンチマークに従い、動画品質にはFVDを使用する。制御可能性については、3D物体検出のmAPとBEVセグメンテーションのmIoUを使用し、両タスクにはビデオベースの知覚モデルであるBEVFormer[21]を使用する。 画像生成については、Gao et al. [11]の指標を採用し、画像品質にはFIDを使用する。制御可能性の評価には、BEVFusion[26]によるmAPとCVT[49]による道路のmIoUを使用する。BEVFusionとCVTは画像ベースのモデルである。 我々のMagicDriveDiTはnuScenesデータセットの訓練セットのみで訓練され、検証セットのアノテーションに対応する動画/画像を生成し、前述の指標を用いて実データで事前訓練された知覚モデルで評価を行う。
5.2 Results and Analysis
生成品質。 MagicDriveDiTは、動画と画像の生成タスクの両方で優れた性能を示している。 動画タスクにおいては、DiTアーキテクチャがフレーム間の一貫性と時空間条件のエンコーディングを向上させ、物体の動きと位置の正確な制御を可能にしたことで、MagicDriveと比較してFVDを大幅に削減している(表2)。 さらに図6に示されているように、MagicDriveDiTは高解像度の動画を生成し、品質を向上させるだけでなく、より複雑な詳細を取り入れ、実際のカメラで撮影された映像に近い結果を生成している。 この向上は、可変長と解像度に対する我々の高度な訓練によって達成され、より現実的で詳細な出力を可能にしている。
また、混合訓練アプローチの恩恵を受け、MagicDriveDiTは画像生成も可能である。 表3に示されているように、MagicDriveDiTはマルチビューのストリートビュータスクにおいてベースラインの性能に匹敵し、車両セグメンテーションのmIoUと物体検出のmAPではベースラインを上回っている。これは、我々の時空間条件エンコーディングの強力な汎化能力を示している。
5.3 Ablation Studies
街路景観におけるVAEの比較。 拡散モデルの訓練に先立ち、我々はオープンソースの3D VAE(すなわち、CogVAE [43] およびOpen-Sora [47])の街路景観に対する性能を、2D SD VAE [31]と比較して評価した。 図7に示すように、CogVAEは再構成能力において一貫して他のモデルを上回る性能を示した。 さらに、付録Eに示すように、CogVAEはより長い動画シーケンスにおいても性能低下が最小限であり、長時間の動画生成タスクに特に適している。 加えて、我々はすべてのVAEが解像度の増加に伴い再構成能力が向上することを発見した。 この知見は、より高解像度の出力に焦点を当てることで、我々のモデルの高品質な画像と動画を生成する能力を向上させるのに有益である。 より詳細な定量的結果と考察は付録Eを参照されたい。
時空間条件付け。 我々は、過学習実験における検証損失(図9)と視覚化比較(図10)によって時空間エンコーダの有効性を実証する。 我々は、アライメントのためのグローバルな時間次元削減(Reduce)と時間次元補間(Interp.)という2つのベースラインを比較する。16サンプルでの過学習訓練において、ダウンサンプリング技術( down、我々の手法)は収束を加速し、最終的な検証損失が最も低くなることを図9に示す[9]。さらに、図10は、グローバルな削減ベースラインとは異なり、 downがアーティファクトを減少させ、正確な動きの軌跡を維持することを示している。これらの結果は、時空間エンコーダがデータのエンコーディングを強化し、時空間潜在表現を用いて動画生成性能を向上させる能力を確認するものである。
段階的ブートストラップ訓練。 3段階の段階的訓練アプローチは、直接的なステージ3の訓練と比較して、モデル訓練の効率を顕著に向上させる。表4は、例えば4日間で、ステージ1がステージ3の約60倍の反復回数を実行し、ステージ2が約7倍の反復回数を達成することを示している。段階的訓練は、セクション4.3で議論したように、効果的な収束に多数の反復を必要とする制御可能な生成モデルにとって不可欠である。段階的戦略により、初期段階でより高速な反復を利用して収束を強化し、学習を加速させることで、高品質な動画生成能力を迅速に獲得することが可能となる。
Stages | Sec./Iter. | Iter. for 4 days |
---|---|---|
stage 1 | 4.32 | 80k |
stage 2 | 39.84 | 8.7k |
stage 3 | ∗264.96 | 1.3k |
可変長および解像度訓練。セクション4.4で述べたように、MagicDriveDiTは異なる長さと解像度の動画を混合する訓練戦略を採用している。我々のアブレーション研究はこの戦略の有効性を実証している。 表5に示すように、低解像度の動画(17224400)のみを使用した場合、セクション5.2で議論したVAEの限界が明らかであり、他の設定と比較してFVDが悪化し、mAPとmIoUスコアが低下している。 より長い動画を組み込むことでモデルの制御可能性が向上し(mAPとmIoUの両方が高くなる)、高解像度の動画を組み込むことで全体的な品質が向上する(3つの指標すべてが顕著に改善される)。
異なるフレーム長を混合することでFVDがわずかに低下するものの、これはモデルが様々な長さの動画を生成し、未見の長さに外挿できるようにするために重要である(セクション6参照)。 したがって、我々は解像度とフレーム長の両方を組み合わせ、動画品質、制御可能性、およびモデル機能性のトレードオフを効果的にバランスさせている。
Training Data | FVD | mAP | mIoU |
---|---|---|---|
17224400 | 97.21 | 10.17 | 12.42 |
(1-65)-224400 | 100.73 | 10.51 | 12.74 |
17(224440 - 424800) | 96.34 | 14.91 | 17.53 |
1-65(224440 - 424800) | 99.66 | 15.44 | 18.26 |
6 Applications
より長い動画生成のための外挿。 可変長および解像度トレーニング(セクション4.4)を通じて、MagicDriveDiTはトレーニングセットアップの長さを超える動画を効果的に生成する。129424800および241224400までの動画でトレーニングされたにもかかわらず、MagicDriveDiTは241424800の動画(nuScenesの全長)を成功裏に生成する。これはトレーニングサンプルの2倍の長さであり、図8に示されている通りである。 この能力をさらに検証するために、我々は短い動画(17フレーム)の最初の16フレームFVDと、より長い動画(65フレーム以上)の16フレームごとのFVDを比較した。表6に示すように、16フレームFVDは既知および外挿された構成の両方で一貫しており、12984816006の生成にまで及んでいる(これは上限ではない;付録の注記を参照されたい)。 これはモデルの堅牢な汎化能力を裏付けるものである。
Resolution | First-16- | Avg. of Per-16-Frame | ||
---|---|---|---|---|
Frame | 2 | 3 | 4 | |
424800 | 530.65 | 562.99 | / | / |
8481600 | 559.70 | 573.46 | 583.50 | 585.89 |
7 Conclusion and Discussion
本稿では、MagicDriveDiTを提示した。これは、自動運転などのアプリケーションに特化した、精密な制御が可能な高解像度かつ長尺のビデオ合成のための革新的なフレームワークである。DiTアーキテクチャとFlow Matchingを活用することで、MagicDriveDiTはビデオ生成におけるスケーラビリティと幾何学的制御の課題に効果的に対処している。我々のアプローチは、新規の時空間条件付きエンコーディングと、可変長および解像度適応を伴う段階的ブートストラッピング戦略を導入し、モデルの汎化能力を向上させている。広範な実験により、MagicDriveDiTが空間的および時間的一貫性を維持しつつ現実的なビデオを生成し、解像度とフレーム数において従来の手法を大幅に上回ることが実証された。本研究はビデオ合成を進展させ、自動運転におけるシミュレーションやその他のアプリケーションに新たな可能性をもたらすものである。
References
- Blattmann et al. [2023a] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, et al. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127, 2023a.
- Blattmann et al. [2023b] Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis. Align your latents: High-resolution video synthesis with latent diffusion models. In CVPR, pages 22563–22575, 2023b.
- Brooks et al. [2024] Tim Brooks, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, Clarence Ng, Ricky Wang, and Aditya Ramesh. Video generation models as world simulators. 2024.
- Caesar et al. [2020] Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora, Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan, and Oscar Beijbom. nuscenes: A multimodal dataset for autonomous driving. In CVPR, 2020.
- Chen et al. [2024a] Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, and Zhenguo Li. Pixart-sigma: Weak-to-strong training of diffusion transformer for 4k text-to-image generation. In ECCV, 2024a.
- Chen et al. [2024b] Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, and Zhenguo Li. Pixart-alpha: Fast training of diffusion transformer for photorealistic text-to-image synthesis. In ICLR, 2024b.
- Dao et al. [2022] Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, and Christopher Ré. FlashAttention: Fast and memory-efficient exact attention with IO-awareness. In NeurIPS, 2022.
- Dhariwal and Nichol [2021] Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. In NeurIPS, 2021.
- Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In ICML, 2024.
- Gao et al. [2024a] Ruiyuan Gao, Kai Chen, Zhihao Li, Lanqing Hong, Zhenguo Li, and Qiang Xu. Magicdrive3d: Controllable 3d generation for any-view rendering in street scenes. arXiv preprint arXiv:2405.14475, 2024a.
- Gao et al. [2024b] Ruiyuan Gao, Kai Chen, Enze Xie, HONG Lanqing, Zhenguo Li, Dit-Yan Yeung, and Qiang Xu. Magicdrive: Street view generation with diverse 3d geometry control. In ICLR, 2024b.
- Gao et al. [2024c] Shenyuan Gao, Jiazhi Yang, Li Chen, Kashyap Chitta, Yihang Qiu, Andreas Geiger, Jun Zhang, and Hongyang Li. Vista: A generalizable driving world model with high fidelity and versatile controllability. arXiv preprint arXiv:2405.17398, 2024c.
- Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.
- Ho et al. [2022] Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, and David J Fleet. Video diffusion models. In NeurIPS, 2022.
- Hu et al. [2023a] Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev, Alex Kendall, Jamie Shotton, and Gianluca Corrado. Gaia-1: A generative world model for autonomous driving. arXiv preprint arXiv:2309.17080, 2023a.
- Hu [2024] Li Hu. Animate anyone: Consistent and controllable image-to-video synthesis for character animation. In CVPR, 2024.
- Hu et al. [2023b] Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, Lewei Lu, Xiaosong Jia, Qiang Liu, Jifeng Dai, Yu Qiao, and Hongyang Li. Planning-oriented autonomous driving. In CVPR, 2023b.
- Jiang et al. [2024] Junpeng Jiang, Gangyi Hong, Lijun Zhou, Enhui Ma, Hengtong Hu, Xia Zhou, Jie Xiang, Fan Liu, Kaicheng Yu, Haiyang Sun, et al. Dive: Dit-based video generation with enhanced control. arXiv preprint arXiv:2409.01595, 2024.
- Lab and etc. [2024] PKU-Yuan Lab and Tuzhan AI etc. Open-sora-plan, 2024.
- Li et al. [2025] Pengxiang Li, Kai Chen, Zhili Liu, Ruiyuan Gao, Lanqing Hong, Guo Zhou, Hua Yao, Dit-Yan Yeung, Huchuan Lu, and Xu Jia. Trackdiffusion: Tracklet-conditioned video generation via diffusion models. In WACV, 2025.
- Li et al. [2022] Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Yu Qiao, and Jifeng Dai. Bevformer: Learning bird’s-eye-view representation from multi-camera images via spatiotemporal transformers. In ECCV, 2022.
- Liang et al. [2022] Tingting Liang, Hongwei Xie, Kaicheng Yu, Zhongyu Xia, Zhiwei Lin, Yongtao Wang, Tao Tang, Bing Wang, and Zhi Tang. BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework. In NeurIPS, 2022.
- Lipman et al. [2023a] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matthew Le. Flow matching for generative modeling. In ICLR, 2023a.
- Lipman et al. [2023b] Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, and Matthew Le. Flow matching for generative modeling. In ICLR, 2023b.
- Liu et al. [2023a] Xingchao Liu, Chengyue Gong, et al. Flow straight and fast: Learning to generate and transfer data with rectified flow. In ICLR, 2023a.
- Liu et al. [2023b] Zhijian Liu, Haotian Tang, Alexander Amini, Xingyu Yang, Huizi Mao, Daniela Rus, and Song Han. Bevfusion: Multi-task multi-sensor fusion with unified bird’s-eye view representation. In ICRA, 2023b.
- Ma et al. [2024] Enhui Ma, Lijun Zhou, Tao Tang, Zhan Zhang, Dong Han, Junpeng Jiang, Kun Zhan, Peng Jia, Xianpeng Lang, Haiyang Sun, et al. Unleashing generalization of end-to-end autonomous driving with controllable long video generation. arXiv preprint arXiv:2406.01349, 2024.
- Meng et al. [2022] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. SDEdit: Guided image synthesis and editing with stochastic differential equations. In ICLR, 2022.
- Organizers [2024] W-CODA2024 Organizers. Track 2: Corner case scene generation - multimodal perception and comprehension of corner cases in autonomous driving, 2024.
- Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In ICCV, 2023.
- Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022.
- Song et al. [2020] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In ICLR, 2020.
- Su et al. [2024] Jianlin Su, Murtadha Ahmed, Yu Lu, Shengfeng Pan, Wen Bo, and Yunfeng Liu. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 568:127063, 2024.
- Sun et al. [2024] Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, and Zehuan Yuan. Autoregressive model beats diffusion: Llama for scalable image generation. arXiv preprint arXiv:2406.06525, 2024.
- Wang et al. [2023a] Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Jiagang Zhu, and Jiwen Lu. Drivedreamer: Towards real-world-driven world models for autonomous driving. arXiv preprint arXiv:2309.09777, 2023a.
- Wang et al. [2023b] Xiaofeng Wang, Zheng Zhu, Yunpeng Zhang, Guan Huang, Yun Ye, Wenbo Xu, Ziwei Chen, and Xingang Wang. Are we ready for vision-centric driving streaming perception? the asap benchmark. In CVPR, 2023b.
- Wang et al. [2024a] Yibo Wang, Ruiyuan Gao, Kai Chen, Kaiqiang Zhou, Yingjie Cai, Lanqing Hong, Zhenguo Li, Lihui Jiang, Dit-Yan Yeung, Qiang Xu, et al. Detdiffusion: Synergizing generative and perceptive models for enhanced data generation and perception. In CVPR, 2024a.
- Wang et al. [2024b] Yuqi Wang, Jiawei He, Lue Fan, Hongxin Li, Yuntao Chen, and Zhaoxiang Zhang. Driving into the future: Multiview visual forecasting and planning with world model for autonomous driving. In CVPR, 2024b.
- Wen et al. [2024] Yuqing Wen, Yucheng Zhao, Yingfei Liu, Fan Jia, Yanhui Wang, Chong Luo, Chi Zhang, Tiancai Wang, Xiaoyan Sun, and Xiangyu Zhang. Panacea: Panoramic and controllable video generation for autonomous driving. In CVPR, 2024.
- Xing et al. [2024] Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Wangbo Yu, Hanyuan Liu, Xintao Wang, Tien-Tsin Wong, and Ying Shan. Dynamicrafter: Animating open-domain images with video diffusion priors. In ECCV, 2024.
- Yang et al. [2023] Kairui Yang, Enhui Ma, Jibin Peng, Qing Guo, Di Lin, and Kaicheng Yu. Bevcontrol: Accurately controlling street-view elements with multi-perspective consistency via bev sketch layout. arXiv preprint arXiv:2308.01661, 2023.
- Yang et al. [2024a] Xuemeng Yang, Licheng Wen, Yukai Ma, Jianbiao Mei, Xin Li, Tiantian Wei, Wenjie Lei, Daocheng Fu, Pinlong Cai, Min Dou, et al. Drivearena: A closed-loop generative simulation platform for autonomous driving. arXiv preprint arXiv:2408.00415, 2024a.
- Yang et al. [2024b] Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, et al. Cogvideox: Text-to-video diffusion models with an expert transformer. arXiv preprint arXiv:2408.06072, 2024b.
- Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, 2023.
- Zhao et al. [2024a] Guosheng Zhao, Chaojun Ni, Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Boyuan Wang, Youyi Zhang, Wenjun Mei, and Xingang Wang. Drivedreamer4d: World models are effective data machines for 4d driving scene representation. arXiv preprint arXiv:2410.13571, 2024a.
- Zhao et al. [2024b] Guosheng Zhao, Xiaofeng Wang, Zheng Zhu, Xinze Chen, Guan Huang, Xiaoyi Bao, and Xingang Wang. Drivedreamer-2: Llm-enhanced world models for diverse driving video generation. arXiv preprint arXiv:2403.06845, 2024b.
- Zheng et al. [2024] Zangwei Zheng, Xiangyu Peng, Tianji Yang, Chenhui Shen, Shenggui Li, Hongxin Liu, Yukun Zhou, Tianyi Li, and Yang You. Open-sora: Democratizing efficient video production for all, 2024.
- Zheng et al. [2025] Ziyang Zheng, Ruiyuan Gao, and Qiang Xu. Non-cross diffusion for semantic consistency. In WACV, 2025.
- Zhou and Krähenbühl [2022] Brady Zhou and Philipp Krähenbühl. Cross-view transformers for real-time map-view semantic segmentation. In CVPR, 2022.
A Sequence Parallel Training
Zheng et al. [47]に触発され、我々は大きなシーケンス長を持つDiTモデルをトレーニングするためにシーケンス並列性を採用している。図Iに示されているように、我々は各入力を空間次元に沿って異なるGPU上に分割する。ほとんどの操作は単一のGPU内で実行できるが、アテンションブロックは通信を必要とする。図Iの右側では、完全なシーケンスが収集されるが、アテンションヘッドが異なるGPU間で分散される通信プロセスを示している。このアプローチにより、GPU間のピアツーピア通信が可能になり、ほぼ均等な負荷が維持される。
さらに、VAEのエンコーディングとデコーディングについては、バッチサイズとカメラビューの数に基づいて分割し、複数のGPUを活用して処理を加速している。
B More Details for Mixed Resolution and Frames Training
MagicDriveDiTは、段階的ブートストラップアプローチ(セクション4.3参照)を通じて、可変長および解像度のデータ構成(セクション4.4参照)で訓練される。 したがって、我々のデータ混合方法は、表Iに詳述されているように、3つの訓練段階に対応している。
Stage | Resolution | Frame(s) | Sequence Parallel | Training Step |
Stage 1 | 224400 | Img | - | 80000 |
Stage 2 | 224400 | Img, 9, 17, 33, 65 | - | 40000 |
424800 | Img, 9, 17, 33 | |||
Stage 3 | 224400 | Img, 17, full | 4 | 30000 |
424800 | Img, 17, 33, 65, 129 | |||
8481600 | Img, 9, 17, 33 |
[47]にインスパイアされ、GPUリソースの利用を最大化するために、我々はバケットのようなアプローチを採用してデータ構成を調整した。具体的には、各GPUプロセス(またはシーケンス並列通信グループ)は1種類のデータのみを読み込み、バッチ次元の整列を確保する。 バッチサイズ1で最も長い反復時間を要するビデオ形式の訓練時間をベンチマークとして使用し、他のデータ形式のバッチサイズを調整して、各タイプがほぼ同じ速度で実行されるようにした。特に、ステージ3の訓練中は、完全なビデオクリップの数が限られているため、このタイプのデータをエポック内で繰り返す。これにより、異なるタイプのデータがエポック内で同様の規模のバッチ数を持つことを保証している。
C More Experimental Details
nuScenes データセットには、12Hz の未アノテーションデータと 2Hz のアノテーション済みデータが含まれている。我々の実験によると、高フレームレートの動画は生成モデルの学習により有益である。そのため、我々は [11] に従い、ASAP [36] を用いて 2Hz のアノテーションを 12Hz のアノテーションに補間した。補間結果は完全に正確ではないが、動画生成のための学習には影響しない。
生成のためのセマンティッククラス。 我々はデータセットアップにおいて [11] に従っている。 具体的には、物体については、自動車、バス、トラック、トレーラー、オートバイ、自転車、建設車両、歩行者、バリア、交通コーンの10カテゴリーが含まれる。 道路地図については、走行可能領域、横断歩道、歩道、停止線、駐車場、道路分離帯、車線分離帯、ロードブロックの8カテゴリーが含まれる。
D More Training Details
最適化。 我々は、Adamオプティマイザーとの一定の学習率を使用して拡散モデルを訓練し、最後の2段階で3000ステップの線形ウォームアップを行う。我々は主に32台のNVIDIA A800 GPU(80G)を訓練に使用する。我々のモデルはAscend 910B(64G)でも訓練可能である。各段階のバッチサイズは、[47]のバケット戦略に従って、反復速度に応じて設定される。例えば、ステージ2では、33424800のバッチサイズを1に設定し、これは約30秒/イテレーションを要する。その後、他のビデオタイプのバッチサイズを約30秒/イテレーションになるように設定する。この戦略により、異なるGPUプロセス間の負荷バランスを確保できる。
E More Comparison among VAEs
VAEの性能を定量的に比較するために、我々はnuScenesデータセットから無作為に2つの6視点ビデオを選択し、PSNRメトリックを用いてVAEの再構成能力を評価した。表IIは、6つの視点にわたって平均化された結果を示している。これらの結果から、CogVAE [43]が最も優れた再構成能力を示し、2D VAE [31]をも上回っていることが分かる。 異なる設定の結果を比較すると、現在の3D VAEは長いビデオに対して良好な汎化能力を示しており、これは主にウィンドウベースのダウンサンプリング技術 [43, 47]によるものである。 さらに、高解像度のコンテンツがVAE再構成後も比較的高いPSNRを維持していることが観察され、これは現在のVAEが高解像度データにより適していることを示している。 この観察結果は、我々の高解像度生成への動機付けも支持している。
Resolution | Model | Image | 17 fr. | 33/34 fr. |
---|---|---|---|---|
224400 | CogVAE | 34.4261 | 31.0900 | 30.5986 |
Open-Sora | 30.4127 | 27.9238 | 27.5245 | |
SD VAE | 27.7131 | 27.7593 | 27.9404 | |
424800 | CogVAE | 38.4786 | 33.5852 | 32.9202 |
Open-Sora | 33.6114 | 30.2779 | 29.8426 | |
SD VAE | 30.9704 | 31.0789 | 31.3408 | |
8481600 | CogVAE | 41.5023 | 36.0011 | 35.1049 |
Open-Sora | 37.0590 | 33.2856 | 32.8690 | |
SD VAE | 37.0504 | 33.2846 | 32.8680 |
F Reason for Using CogVAE without the Pre-trained Diffusion Model
MagicDrive [11]やその他の研究 [12]から得られた知見によると、性能の高い拡散モデルからファインチューニングを行うことで、モデルの収束を効果的に加速できることが分かっている。 そのため、DiTアーキテクチャの初期実装では、Open-Sora 1.2 [47]のVAEと拡散モデルを用いて実験を行った。しかし、結果は最適とは言えず、画像生成とビデオの制御性においてMagicDriveの性能に及ばなかった。我々は、この主な原因をテキストからビデオへの拡散の汎化能力の限界と、より重要な点として、VAEの不十分な再構成能力にあると考えている。
我々は、セクション5.3および付録Eで詳述するように、VAEの比較分析を行い、CogVAE [43]が良好な性能を示すことを見出した。VAEが生成品質の上限を決定することを考慮し、我々はビデオエンコーディングにCogVAEを使用することを選択した。特筆すべきは、CogVideoX [43]が新しいDiT構造を採用しており、各層の潜在空間にビデオとテキスト条件の情報を統合していることである。このアプローチは、ジオメトリ関連の条件設計を複雑にする可能性がある。さらに、CogVideoXは運転シナリオで訓練されていない。これらの潜在的な交絡因子を排除するため、我々はCogVAEを使用して拡散モデルをゼロから訓練することを決定した。この戦略により、事前学習済みモデルの制約を超え、マルチビューの一貫性とジオメトリ条件の時空間エンコーディングを達成するためのモデルアーキテクチャのより柔軟な修正が可能となる。
我々の経験は、高解像度で長時間のストリートビュービデオ生成が、必ずしも事前学習済みの画像-テキストモデルやビデオ-テキストモデルを必要としないことを直接的に示している。とはいえ、これは本稿の主要な焦点を超えるものであり、関連する問題は今後の研究課題として残しておく。
G Single Inference v.s. Rollout Inference
長尺動画生成を実現するために、従来の研究では通常、将来フレーム予測とロールアウトを組み合わせた方法が採用されている。これは、回目の推論後、この推論から得られた最後のフレームを+1回目の推論の最初のフレームとして使用することで、長尺動画生成を可能にするものである。しかし、モデルが長期的な依存関係を直接捉えられず、推論ごとに誤差が蓄積されるため、このようなロールアウトは十分に長い動画をサポートできないことが多い。ロールアウト方式の中で、Vista [12]は現在比較的良好な結果を達成している。我々は、Vistaで4回のロールアウトを行って生成した9秒の動画(論文では6回のロールアウトをサポートできると主張している)と、我々の手法であるMagicDriveDiTで生成した9秒のセグメントを比較した。我々の手法が長いシーケンスにわたって一貫した動画品質を維持しているのに対し、Vistaの結果は顕著な品質低下を示していることは明らかである。したがって、我々はMagicDriveDiTが採用しているハイブリッド訓練と長さ外挿アプローチが、長尺動画生成においてより高品質を達成できると考えている。
H More Visualization
「注記」で述べたように、MagicDriveDiTは動画(12 fpsで20秒)を生成することが可能である。我々は図IV-IIIにさらなる生成サンプルを含めている。 プロジェクトページで動画をご覧いただきたい。