JaLMS
最新の AI 研究を日本語で解読

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

Zehuan Huang1  Yuan-Chen Guo2222Project lead; corresponding author  Xingqiao An3  Yunhan Yang4  Yangguang Li2  Zi-Xin Zou2
Ding Liang2  Xihui Liu4  Yan-Pei Cao2 ✉  Lu Sheng1 ✉
1Beihang University  2VAST  3Tsinghua University  4The University of Hong Kong
Project page: https://huanngzh.github.io/MIDI-Page/
Abstract

本稿では、単一画像から3次元シーンを生成する新しいパラダイムであるMIDIを紹介する。 既存の手法が再構成や検索技術に依存したり、最近のアプローチがオブジェクトごとの多段階生成を採用したりしているのとは異なり、MIDIは事前学習された画像から3Dオブジェクトを生成するモデルをマルチインスタンス拡散モデルに拡張し、正確な空間関係と高い汎用性を持つ複数の3Dインスタンスを同時に生成することを可能にする。 MIDIの核心は、新しいマルチインスタンス注意機構を組み込んでいることであり、これにより複雑な多段階プロセスを必要とせずに、生成プロセス内で直接オブジェクト間の相互作用と空間的一貫性を効果的に捉えることができる。 この手法は、部分的なオブジェクト画像とグローバルなシーンコンテキストを入力として使用し、3D生成中にオブジェクトの補完を直接モデル化する。 訓練時には、限られた量のシーンレベルのデータを用いて3Dインスタンス間の相互作用を効果的に監督し、同時に単一オブジェクトのデータを正則化のために組み込むことで、事前学習された汎化能力を維持する。 MIDIは、画像からシーンへの生成において最先端の性能を示し、合成データ、実世界のシーンデータ、およびテキストから画像への拡散モデルによって生成されたスタイライズされたシーン画像での評価を通じて検証されている。

1 Introduction

単一の画像から構成的な3Dシーンを生成することは、部分的な視点から捉えられた限られた空間的手がかりのため、困難である。 実際、各インスタンスの3D形状と、シーン内の複数のインスタンス間の空間的関係を正確に推論するには、3D視覚世界に関する広範な事前知識が必要である。

既存の手法は、事前知識の処理方法によって大きく2つのクラスに分類できる。 前者のクラス[45, 70, 47, 7, 35, 18, 72, 6, 4]は、シーンレベルの3Dデータセットから学習されたニューラルネットワークによって3D形状をエンコードし、新しい画像の形状をフィードフォワードパスで推論する。 教師ありデータの不足により、これらの手法は未見のシナリオにおいて再構成品質が低下することが多い。 もう一方のクラス[19, 26, 30, 31, 32, 17]は、3Dモデルをデータベースに保存し、入力画像に合わせて類似の3Dモデルを検索して組み立てる。 しかし、単一の画像からの限られた幾何学的手がかりでは、正確なモデルの特定と配置が困難である。 さらに、入力画像に正確に対応するあらゆる可能なモデルを3Dデータベースに含めることは現実的ではないため、検索されたモデルはオブジェクトとおおよそ一致するだけであり、不整合が生じる。 したがって、両クラスの手法は、新規のオブジェクト形状や未見のシーンレイアウトに関して、精度と十分なドメイン外汎化性に欠けている。

最近の画像から3Dオブジェクトを生成するモデル[27, 37, 40, 41, 23, 60, 25, 71, 65, 33, 64, 68, 61, 63, 36, 73, 66]は、強力な3D事前知識と汎化能力を持ち、単一のオブジェクト画像から高品質な形状を生成することができる。 これらの事前学習モデルを基盤として、シーン生成のための一般的なアプローチは、 2に示すように、シーン画像のセグメンテーション、個々のオブジェクト画像の補完、各オブジェクトの生成、および空間的関係の最適化を含む多段階の構成的生成プロセスにおいてそれらをツールとして使用することである[74, 5, 20]。 これらの手法は3Dオブジェクト生成モデルの事前知識を活用しているが、生成プロセスは本質的に長く、誤差の蓄積を招きやすい - 中間段階での誤差が最終結果を大きく歪める可能性がある。 さらに、空間的関係の最適化は、グローバルなシーンのコンテキストを欠いた前段階で一つずつ生成された3Dオブジェクトを直接最適化することができず、生成されたインスタンスと全体的なシーンとの間のミスアライメントを引き起こす。 したがって、オブジェクト間の空間的関係を3D生成モデル内で直接モデル化できれば、これらの問題に対処するエンドツーエンドのパイプラインを構築し、一貫した空間配置ですべてのインスタンスを同時に生成することが可能となる。

我々はMIDIを提案する。これは事前学習済みの3Dオブジェクト生成モデルをマルチインスタンス拡散モデルに拡張し、構成的な3Dシーン生成の新しいパラダイムを確立するものである。 本アプローチにより、単一のシーン画像から複数の3Dインスタンスを正確な空間関係を保ちながら同時に生成することが可能となり、独立したオブジェクト生成を超えてシーンの全体的な理解へと進展する。 大規模な事前学習済み画像から3Dオブジェクト生成モデル[71, 66, 33, 73]を基盤として、MIDIは新規のマルチインスタンス注意機構を採用している。これにより、複雑な複数ステップの手順を必要とせず、生成プロセス内で直接的に複雑なオブジェクト間の相互作用と空間的一貫性を効果的に捉えることができる。 この先進的な設計により、一貫性のある3Dシーンを直接生成することが可能となり、効率性と精度の両方を大幅に向上させる。 オブジェクト間の空間的関係の普遍的な性質により、訓練時に限られた量のシーンレベルのデータセット[15, 16]を用いて3Dインスタンス間の相互作用を効果的に監督する。 さらに、正則化のために単一オブジェクトデータを組み込むことで、事前学習済みモデルの汎化能力を維持している。

Refer to caption
図2: マルチインスタンス拡散を用いた我々のシーン生成パイプラインと既存の構成的生成手法との比較。

我々の提案するパラダイムの有効性を検証するため、合成データセット[15, 16]、実世界のシーン[8, 59]、およびテキストから画像への拡散モデルによって生成された様々なスタイル化されたシーン画像[54, 49]について実験を行った。 結果は、MIDIが事前学習された3D生成モデルにおいて我々のマルチインスタンス注意機構を通じてオブジェクト間の相互作用を効果的にモデル化することで、3Dシーン生成の分野を大きく進展させたことを示している。 MIDIは、正確な幾何学的形状と空間的レイアウトを持つ高品質な3Dシーンを生成し、同時に強力な汎化能力を示している。 要約すると、本稿の主な貢献は以下の通りである:

  • 我々は、マルチインスタンス拡散モデルを提案することで、構成的3Dシーン生成の新しいパラダイムを確立した。これは、事前学習された画像から3Dオブジェクト生成モデルを拡張し、空間的に相関のある3Dインスタンスを生成するものである。

  • 我々は、インスタンス間の相互作用を効果的にモデル化し、一貫性と正確な空間関係を確保する新しいマルチインスタンス注意機構を導入した。

  • 実験により、MIDIが最先端の性能を達成し、オブジェクト間の関係を正確に捉え、入力とのより良い整合性を提供することで、3Dシーンの生成を大幅に改善したことが示された。

Refer to caption
図3: 手法の概要。3Dオブジェクト生成モデルに基づき、MIDIは重み共有DiTモジュールを使用して複数の3Dインスタンスの潜在表現を同時にデノイズする。マルチインスタンス注意層が導入され、インスタンス間の相互作用を学習し、グローバルな認識を可能にする一方で、クロスアテンション層はオブジェクト画像とグローバルなシーンコンテキストの情報を統合する。

2 Related Work

2.1 Scene Reconstruction from a Single Image

単一画像からシーンの3D構造を復元することは、コンピュータビジョンにおける基本的な課題である。 既存の手法は、フィードフォワード再構成手法 [45, 70, 47, 7, 35, 18, 72, 6, 4]、検索ベースの手法 [19, 26, 30, 31, 32, 17]、そして最近の構成的生成アプローチ [74, 5, 20, 11]に分類することができる。

フィードフォワード再構成手法。 フィードフォワード再構成手法 [45, 70, 47, 7, 35, 18, 72, 6, 4] は3D空間知識を活用し、3D教師あり学習を用いてエンドツーエンドの回帰システムを訓練する。 これらは通常、エンコーダ-デコーダアーキテクチャを採用し、単一画像からジオメトリやインスタンスラベルなどのシーンプロパティを予測する。 シーンレイアウトと物体のポーズを同時に予測することで本質的な正確性を確保するが、これらの手法は教師あり3Dシーンデータの不足により再構成品質が限られ、分布外の画像への汎化に苦戦することが多い。

検索ベースの手法。 検索ベースの手法 [19, 26, 30, 31, 32, 17] は、入力画像に基づいてデータベースから3Dモデルを検索し、位置合わせすることでシーンを再構成する。 例えば、DiffCAD [17] は、合成データによる教師あり学習を用いて拡散モデル [22, 57, 58, 56] を訓練し、CADオブジェクトの形状、ポーズ、スケールの分布をモデル化することで、画像入力に対するCADモデルの検索と位置合わせを容易にする。 これらの手法は既存の3Dアセットを活用することで詳細なオブジェクトを生成できるが、データベースの多様性に大きく依存し、単一画像からの情報不足により検索エラーが発生し、位置ずれにつながることが多い。

構成的生成手法。 最近の構成的生成手法 [74, 5, 20, 11] は、画像 [29, 38, 52, 51, 44, 55, 54, 49] と3Dオブジェクト [27, 13, 71] の両ドメインにおける大規模な知覚モデルと生成モデルを活用し、シーン再構成を改善する。 これらの手法は通常、画像セグメンテーション [52]、オブジェクト補完 [54]、オブジェクトごとの生成 [27, 71]、レイアウト最適化を含む多段階のパイプラインを伴う。 事前学習済みモデルを活用することで汎化能力を向上させるが、複雑なパイプラインはエラーの蓄積を招きやすく、オブジェクトごとの処理中にグローバルなシーンコンテキストが欠如することで位置ずれした結果につながる可能性がある。 本稿の研究は、事前学習済みの画像から3Dオブジェクト生成モデルを活用し、相互に関連した複数の3Dインスタンスを同時に生成することで、これらの問題に対処し、堅牢性を向上させつつ強力な汎化能力を維持する。

2.2 3D Object Generation from a Single Image

拡散モデル[22, 57]と大規模データセット[9, 10]の進歩により、3D生成の進展が加速している[37, 40, 41, 23, 60, 25, 71, 65, 33, 64, 68, 61, 63, 36, 66, 73, 53, 67, 43, 34, 12]。 複数の画像から3Dオブジェクトを生成する手法[40, 41, 60, 64, 68, 63, 61]は、マルチビュー画像の生成と3Dオブジェクトの再構築を含む二段階のパイプラインを採用している。 これらの手法は、事前学習された画像[54, 49]または動画[2]生成モデルを微調整してマルチビュー画像を生成し、フィードフォワード再構築モデル[23, 60, 69, 75]または最適化ベースの手法[62]を用いて形状を復元する。 別のグループの研究[71, 33, 66, 73]は、大規模な生成モデルを訓練することで3Dネイティブな形状を生成することに焦点を当てている。これらのモデルは通常、変分オートエンコーダー[28]と潜在拡散トランスフォーマー(DiT)[48]で構成されている。 これらのモデルは、多様なデータセットで訓練されることにより、高品質な形状と強力な汎化能力を生成する。 本稿では、これらの進歩を基に、このようなオブジェクト形状生成器を微調整し、汎化能力を維持しながら構成的なインスタンスを作成する。

3 Preliminary: 3D Object Generation Models

大規模な3Dオブジェクト生成モデル[73, 71, 66, 33]は、我々のアプローチの基礎となるものである。 これらのモデルは通常、以下の3つの主要な構成要素からなる: 1) エンコーダー\mathcal{E}caligraphic_Eとデコーダー𝒟𝒟\mathcal{D}caligraphic_Dを持つトランスフォーマーベースの変分オートエンコーダー(VAE)[28]。これは3D幾何学的表現を低次元の潜在空間に圧縮する。 2) 圧縮された潜在空間上で訓練され、ノイズϵ𝒩(0,I)similar-tobold-italic-ϵ𝒩0𝐼\bm{\epsilon}\sim\mathcal{N}(0,I)bold_italic_ϵ ∼ caligraphic_N ( 0 , italic_I )を元の3Dデータ分布𝐳0subscript𝐳0\mathbf{z}_{0}bold_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTに変換するデノイジングトランスフォーマーネットワークϵθsubscriptitalic-ϵ𝜃\epsilon_{\theta}italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT。 3) CLIP[50]やDINOエンコーダー[46]などの条件エンコーダー群。これらはテキストや画像の条件をエンコードし、クロスアテンション機構によってデノイジングネットワークに渡される。

推論時には、デノイジングプロセスが潜在空間内でサンプルを生成し、デコーダー𝒟𝒟\mathcal{D}caligraphic_DがSDF値やトリプレーン特徴などの幾何学的表現を生成する。これらはマーチングキューブス[42]を適用するか、追加のマッピングネットワークを使用することで3Dメッシュに変換することができる。

4 MIDI: Multi-Instance 3D Generation

MIDIは3Dオブジェクト生成を構成的な3Dインスタンス生成へと昇華させ、単一の画像から正確な空間関係を持つ3Dシーンの創出を可能にする。 具体的には、シーン画像が与えられた場合、我々の目的は画像に存在するN𝑁Nitalic_N個のインスタンスに対応する空間的に相関した3D潜在トークン{𝐳0i}i=1Nsuperscriptsubscriptsuperscriptsubscript𝐳0𝑖𝑖1𝑁\{\mathbf{z}_{0}^{i}\}_{i=1}^{N}{ bold_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPTを生成することである。 これらの潜在トークンはデコードされ、直接組み合わせることで高品質な3Dシーンを得ることができる。

本節では、Sec. 4.1でまず複数インスタンス拡散モデルの全体的なフレームワークを紹介し、単一オブジェクト拡散モデルを複数の相互作用するインスタンスを扱えるように一般化する方法について詳述する。 Sec. 4.2では、3D空間におけるインスタンス間の関係をモデル化する複数インスタンス注意機構について詳しく説明する。 最後に、Sec. 4.3ではMIDIの学習手順を提示する。

4.1 Multi-Instance Diffusion Models

3に示すように、我々のマルチインスタンス拡散モデルは、3Dオブジェクト生成モデルの元のDiTモジュールを3つの側面で拡張している: 1) 複数の3Dインスタンスの潜在表現を共有のノイズ除去ネットワークを用いて同時に(すなわち並列に)ノイズ除去する、2) DiTモジュールに新しいマルチインスタンス注意機構を導入し、インスタンス間の相互作用を学習しグローバルな認識を可能にする、3) ローカルなオブジェクト画像とグローバルなシーンコンテキストを含む画像入力をエンコードするためのシンプルかつ効果的な方法を導入する。

フレームワークの概要。 我々のマルチインスタンス拡散モデルは、既存の3Dオブジェクト拡散モデルを基に、複数のインスタンスの3D表現を同時にノイズ除去するように拡張したものである。 具体的には、ベースモデルのVAEを保持し、複数のインスタンスの3D幾何学的表現を低次元の潜在特徴{𝐳0i}i=1Nsuperscriptsubscriptsuperscriptsubscript𝐳0𝑖𝑖1𝑁\{\mathbf{z}_{0}^{i}\}_{i=1}^{N}{ bold_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPTに圧縮する。 我々はノイズ除去ネットワークϵθsubscriptitalic-ϵ𝜃\epsilon_{\theta}italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTを拡張し、グローバルなシーン画像𝒄gsubscript𝒄𝑔\bm{c}_{g}bold_italic_c start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPTN𝑁Nitalic_N個のローカルオブジェクトのRGB画像{𝒄li}i=1Nsuperscriptsubscriptsuperscriptsubscript𝒄𝑙𝑖𝑖1𝑁\{\bm{c}_{l}^{i}\}_{i=1}^{N}{ bold_italic_c start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT、およびそれらに対応するマスク{𝒎li}i=1Nsuperscriptsubscriptsuperscriptsubscript𝒎𝑙𝑖𝑖1𝑁\{\bm{m}_{l}^{i}\}_{i=1}^{N}{ bold_italic_m start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPTを条件として与える。 ノイズ除去ネットワークは、ノイズ{ϵi𝒩(0,I)}i=1Nsuperscriptsubscriptsimilar-tosuperscriptbold-italic-ϵ𝑖𝒩0𝐼𝑖1𝑁\{\bm{\epsilon}^{i}\sim\mathcal{N}(0,I)\}_{i=1}^{N}{ bold_italic_ϵ start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ∼ caligraphic_N ( 0 , italic_I ) } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPTを3Dデータ分布に変換することを学習し、インスタンスの空間的配置を効果的に捉える。

インスタンス間の相互作用。 構成的な3Dインスタンス生成では、生成された複数のインスタンスが3D空間で相互作用的な関係を示す必要がある。 これを実現するために、我々はノイズ除去プロセス内にマルチインスタンス注意機構を導入し、ノイズ除去中に潜在特徴空間でインスタンス間の相互作用をモデル化する。 この機構の統合により、複数のオブジェクトの生成が独立したプロセスから同期的な相互作用プロセスへと変換され、グローバルなシーンの一貫性が向上し、オブジェクト間の空間的関係が正確に表現されることが保証される。

画像条件付け。 すべての画像条件をエンコードするために、我々はシンプルかつ効果的な方法を提案する。これには、1) グローバルなシーン情報とローカルなインスタンスの詳細および位置の両方をViTベースの画像エンコーダτθsubscript𝜏𝜃\tau_{\theta}italic_τ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT[46]でエンコードすること、2) クロスアテンション層を用いて画像埋め込みを統合することが含まれる。 具体的には、各インスタンスzisuperscript𝑧𝑖z^{i}italic_z start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPTに対して、そのRGB画像𝒄lisuperscriptsubscript𝒄𝑙𝑖\bm{c}_{l}^{i}bold_italic_c start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT、マスク𝒎lisuperscriptsubscript𝒎𝑙𝑖\bm{m}_{l}^{i}bold_italic_m start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT、およびグローバルなシーン画像𝒄gsubscript𝒄𝑔\bm{c}_{g}bold_italic_c start_POSTSUBSCRIPT italic_g end_POSTSUBSCRIPTをチャンネル次元に沿って連結し、複合表現𝐲h×w×c𝐲superscript𝑤𝑐\mathbf{y}\in\mathbb{R}^{h\times w\times c}bold_y ∈ blackboard_R start_POSTSUPERSCRIPT italic_h × italic_w × italic_c end_POSTSUPERSCRIPTを得る。ここで、c=7𝑐7c=7italic_c = 7である。この複合画像は、入力チャンネルを拡張したViTベースのエンコーダに渡され、一連の画像特徴が抽出される。 最後に、トランスフォーマーベースのノイズ除去ネットワークでクロスアテンション機構を使用して、条件付け画像特徴を統合する。

Refer to caption
図4: マルチインスタンス注意。我々は、各オブジェクトのトークンが自身のみをクエリする元のオブジェクト自己注意を拡張し、各インスタンスのトークンがシーン内のすべてのインスタンスからのすべてのトークンをクエリするマルチインスタンス注意を導入した。

4.2 Multi-Instance Attention

我々は今、マルチインスタンス注意機構を紹介する。これはMIDIの核心であり、複数の3Dインスタンス間の空間的関係を強制するものである。 この機構は、異なるインスタンス間を注意計算内で接続することにより、元のオブジェクト自己注意層を拡張している( 3参照)。

具体的には、K𝐾Kitalic_K個の元のオブジェクト自己注意層を、全インスタンス{𝒇i}i=1Nsuperscriptsubscriptsuperscript𝒇𝑖𝑖1𝑁\{\bm{f}^{i}\}_{i=1}^{N}{ bold_italic_f start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPTの特徴を注意プロセスに統合することでマルチインスタンス注意層に変換する。これは以下のように定式化される:

𝒇outi=Attention(𝒇i,{𝒇j}j=1N),subscriptsuperscript𝒇𝑖outAttentionsuperscript𝒇𝑖superscriptsubscriptsuperscript𝒇𝑗𝑗1𝑁\bm{f}^{i}_{\text{out}}=\text{Attention}\left(\bm{f}^{i},\{\bm{f}^{j}\}_{j=1}^% {N}\right),bold_italic_f start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT start_POSTSUBSCRIPT out end_POSTSUBSCRIPT = Attention ( bold_italic_f start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT , { bold_italic_f start_POSTSUPERSCRIPT italic_j end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT ) , (1)

ここで、𝒇isuperscript𝒇𝑖\bm{f}^{i}bold_italic_f start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPTはインスタンスi𝑖iitalic_iの特徴であり、Attention()Attention\text{Attention}(\cdot)Attention ( ⋅ )は各インスタンスが自身を含むシーン内の全インスタンスの特徴に注意を向けることを可能にする注意関数を表す。 したがって、 4に示されているように、特定のインスタンス内の各トークンは、シーン内の全インスタンスのトークンから情報を照会するようになる。 これにより、注意機構はトークンの集合全体を考慮することで、インスタンス間の相互作用を効果的にモデル化し、オブジェクト間の関係や空間的依存性を捉えることが可能となる。

4.3 Training

MIDIを訓練するために、我々は整流フロー[39]アーキテクチャを利用する基本モデルの損失を、単一オブジェクトから複数インスタンスに拡張する。 各訓練ステップにおいて、すべてのインスタンス{𝐳i}i=1Nsuperscriptsubscriptsuperscript𝐳𝑖𝑖1𝑁\{\mathbf{z}^{i}\}_{i=1}^{N}{ bold_z start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPTに対して共有されるノイズレベルt𝑡titalic_t1111からT𝑇Titalic_Tの範囲でサンプリングし、単純な線形軌道に沿って摂動を加える:

{𝐳ti}i=1N=t{𝐳0i}i=1N+(1t){ϵi}i=1N,superscriptsubscriptsuperscriptsubscript𝐳𝑡𝑖𝑖1𝑁𝑡superscriptsubscriptsuperscriptsubscript𝐳0𝑖𝑖1𝑁1𝑡superscriptsubscriptsuperscriptbold-italic-ϵ𝑖𝑖1𝑁\{\mathbf{z}_{t}^{i}\}_{i=1}^{N}=t\{\mathbf{z}_{0}^{i}\}_{i=1}^{N}+(1-t)\{\bm{% \epsilon}^{i}\}_{i=1}^{N},{ bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT = italic_t { bold_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT + ( 1 - italic_t ) { bold_italic_ϵ start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT , (2)

ここで、ϵi𝒩(0,I)similar-tosuperscriptbold-italic-ϵ𝑖𝒩0𝐼\bm{\epsilon}^{i}\sim\mathcal{N}(0,I)bold_italic_ϵ start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT ∼ caligraphic_N ( 0 , italic_I )である。そして、我々は以下の損失関数を用いて、ノイズ除去ネットワークϵθsubscriptitalic-ϵ𝜃\epsilon_{\theta}italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTと画像エンコーダーτθsubscript𝜏𝜃\tau_{\theta}italic_τ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTを微調整する:

𝔼{𝐳i}i=1N,𝐲,{ϵi}i=1N,t[i=1N𝐳0iϵiϵθ(𝐳ti,t,τθ(𝐲))22].subscript𝔼superscriptsubscriptsuperscript𝐳𝑖𝑖1𝑁𝐲superscriptsubscriptsuperscriptbold-italic-ϵ𝑖𝑖1𝑁𝑡delimited-[]superscriptsubscript𝑖1𝑁superscriptsubscriptdelimited-∥∥superscriptsubscript𝐳0𝑖superscriptbold-italic-ϵ𝑖subscriptitalic-ϵ𝜃superscriptsubscript𝐳𝑡𝑖𝑡subscript𝜏𝜃𝐲22\mathbb{E}_{\{\mathbf{z}^{i}\}_{i=1}^{N},\mathbf{y},\{\bm{\epsilon}^{i}\}_{i=1% }^{N},t}\Big{[}\sum_{i=1}^{N}\lVert\mathbf{z}_{0}^{i}-\bm{\epsilon}^{i}-% \epsilon_{\theta}(\mathbf{z}_{t}^{i},t,\tau_{\theta}(\mathbf{y}))\rVert_{2}^{2% }\Big{]}.blackboard_E start_POSTSUBSCRIPT { bold_z start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT , bold_y , { bold_italic_ϵ start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT , italic_t end_POSTSUBSCRIPT [ ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT ∥ bold_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT - bold_italic_ϵ start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT - italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT , italic_t , italic_τ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_y ) ) ∥ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ] . (3)

我々の訓練データセットは単一オブジェクトの3D生成モデルの事前訓練データセットよりもはるかに小さいため、元の汎化能力を維持するために追加の3Dオブジェクトデータセットを訓練に組み込む。 実際には、30%percent3030\%30 %の確率で、Objaverseデータセット[9]のサブセットを用いて、複数インスタンスの注意機構をオフにし、単純な画像から3Dオブジェクト生成モデルとして複数インスタンス拡散モデルを訓練する。

表1: 合成データセット[15, 1]における定量的比較。シーンレベルのChamfer距離(CD-S)とFスコア(F-Score-S)、オブジェクトレベルのChamfer距離(CD-O)とFスコア(F-Score-O)、およびオブジェクトのバウンディングボックスのVolume IoU(IoU-B)を示す。
Method 3D-Front BlendSwap
CD-S\downarrow F-Score-S\uparrow CD-O\downarrow F-Score-O\uparrow IoU-B\uparrow CD-S\downarrow F-Score-S\uparrow CD-O\downarrow F-Score-O\uparrow IoU-B\uparrow Runtime\downarrow
PanoRecon [7] 0.150 40.65 0.211 35.05 0.240 0.427 19.11 0.713 13.06 0.119 32s
Total3D [45] 0.270 32.90 0.179 36.38 0.238 0.258 37.93 0.168 38.14 0.328 39s
InstPIFu [35] 0.138 39.99 0.165 38.11 0.299 0.129 50.28 0.167 38.42 0.340 32s
SSR [4] 0.140 39.76 0.170 37.79 0.311 0.132 48.72 0.173 38.11 0.336 32s
DiffCAD [17] 0.117 43.58 0.190 37.45 0.392 0.110 52.83 0.169 38.98 0.457 64s
Gen3DSR [11] 0.123 40.07 0.157 38.11 0.363 0.107 60.17 0.148 40.76 0.449 9min
REPARO [20] 0.129 41.68 0.160 40.85 0.339 0.115 62.39 0.151 42.84 0.410 4min
Ours 0.080 50.19 0.103 53.58 0.518 0.077 78.21 0.090 62.94 0.663 40s

5 Experiments

Refer to caption
図5: 3D-Front [15]とBlendSwap [1]を含む合成データセットにおける定性的比較。
Refer to caption
図6: Matterport3D [3]とScanNet [8]を含む実世界データにおける定性的比較。

5.1 Setup

実装の詳細。 我々は、既存の3D物体生成手法[73, 71]から発展させた、整流フロー構造[39]を利用し、21個の注意ブロックを用いてデノイジングトランスフォーマーネットワークを構築する独自の画像から3D物体生成モデルに基づいてMIDIを実装した。 MIDIの画像エンコーダτθsubscript𝜏𝜃\tau_{\theta}italic_τ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTをDINO[46]を用いて初期化し、入力投影層のチャンネル次元を拡張して、連結された入力𝐲𝐲\mathbf{y}bold_yすなわちシーン画像、物体画像、マスク)に対応する7チャンネルを収容する。 𝐲𝐲\mathbf{y}bold_yの解像度を512に設定する。 訓練中は、Low-Rank Adaptation (LoRA)技術[24]を採用し、事前訓練されたモデルを効率的に微調整する。 マルチインスタンス注意機構については、マルチインスタンス注意層の数K𝐾Kitalic_Kを5に設定する。 本稿では、シーン内のインスタンスとそれらの空間的関係の生成に焦点を当てていることに注意されたい。 床や壁などの平面的な背景構造は我々の生成範囲には含まれておらず、既存の手法[74, 11]を用いて容易に生成できる。

データセット。 我々はMIDIを3D-Frontデータセット[15]で訓練した。これは豊富なアノテーションを持つ屋内3Dシーンの合成3Dデータセットである。 物体の配置が不合理なシーン(例えば、物体が交差していたり浮いていたりするもの)を除外してクリーニングを行い、約15,000の高品質なシーンを得た。 データセットは訓練セットとテストセットに分割され、1,000のシーン画像がランダムに選択されてテストセットとなった。 我々はMIDIを、広く使用されている4つの3Dシーン再構成ベンチマークで評価した。これには合成データセット(すなわち3D-Front[15]のテストセット、BlendSwap[1])と実世界のデータセット(すなわちMatterport3D[3]、ScanNet[8])が含まれる。 さらにMIDIの汎化能力を検証するために、テキストから画像への拡散モデル[49]によって生成された様々なスタイルのシーン画像でもテストを行った。

ベースライン。 我々は主に、単一画像からのシーン再構成における最先端の手法と比較を行った。これには、フィードフォワード再構成手法であるPanoRecon[7]、Total3D[45]、InstPIFu[35]、SSR[4]、検索ベースの手法であるDiffCAD[17]、および構成的生成手法であるGen3DSR[11]とREPARO[20]が含まれる。

評価指標。 既存のシーン再構成手法[45, 74]に従い、我々はシーン全体を評価するためにChamfer Distanceとデフォルトのしきい値0.1のF-Scoreを使用する。 さらに、個々の3D物体の幾何学的品質を評価するために、シーン内の各物体について物体レベルでChamfer DistanceとF-Scoreを計算し、各物体の幾何形状の忠実度を独立して評価する。 加えて、再構成または生成されたシーンの物体のバウンディングボックスと真値シーンのそれとの間のVolumetric Intersection over Union (Volume IoU)を計算し、物体のレイアウトと空間的配置の精度を評価する。 また、各手法がシーンを1つ生成するのに要する平均実行時間も報告する。

5.2 Scene Generation on Synthetic Data

1は、3D-Front [15]とBlendSwap [1]を含む合成データセットにおける定量的比較を報告している。 我々の手法であるMIDIは、多くの時間を要することなく、評価されたすべての指標において最先端の手法の中で最高のパフォーマンスを達成している。 具体的には、オブジェクトレベルにおいて、我々の手法は事前学習された3Dオブジェクト事前分布に基づく新規設計により、既存の手法 [7, 45, 35, 4, 17, 11, 20] を大きく上回っている。 事前学習されたオブジェクト生成モデルを利用する我々のMIDIは、限られたデータからの再構成のみに依存する手法と比較して、品質において大幅な飛躍を達成している。 シーンレベルにおいて、全体的なシーン再構成の品質とオブジェクトの位置が真値と一致する度合いを評価する指標は、我々のマルチインスタンス拡散モデルが、マルチステージのオブジェクトごとの生成手法と比較して、より高い堅牢性と精度を示していることを実証している。 MIDIは、グローバルなシーンの知識とオブジェクト間の空間的関係を効果的にモデル化し、結果として一貫性があり正確に配置されたシーンを生成している。

定性的な比較を 5に示す。 既存のフィードフォワード再構成手法 [7, 45, 35] は、しばしば不正確な形状と位置ずれのあるシーンレイアウトを生成する。 検索ベースの手法 [17] は、入力画像と正確に一致しない結果を生成する。 マルチステージのオブジェクトごとの生成手法 [11, 20] は、オブジェクト画像の補完と3D生成の際にシーンコンテキストの制約がないため、全体的なシーンと正しく整合しないインスタンスを生成する。 対照的に、MIDIは事前学習されたオブジェクト事前分布の利用と効果的なマルチインスタンス注意機構により、高品質な形状を生成し、複数のインスタンス間の正確な空間的配置を保持している。

5.3 Scene Generation from Real Images

我々はさらに、Matterport3D [3]とScanNet [8]を用いて実画像でMIDIを評価する。 他の手法との定性的比較のため、これら2つのデータセットのテストセットから10のシーンを選択し、各シーンから1枚の画像を入力としてサンプリングする。 6に視覚的比較を示すが、我々は実画像からシーンを成功裏に生成し、精度と完全性において従来の手法を大きく上回っている。 これは、実世界の3Dシーンを生成する上での多インスタンス拡散モデルの大きな可能性と汎化能力を示している。

Refer to caption
図7: 多インスタンス注意層の数 K𝐾Kitalic_K、グローバルシーン画像条件付けの使用、および単一オブジェクトデータセットとの混合訓練に関する定性的アブレーション研究。

5.4 Scene Generation from Stylized Images

MIDIの汎化能力をさらに評価するため、我々はテキストから画像への拡散モデルであるSDXL [49]を使用して多様なスタイルのシーン画像を生成し、それらに対して我々の手法をテストする。 既存の手法がこのような多様な入力を扱うことに制限があるため、我々はMIDIをREPARO [20]とのみ比較する。 8に示すように、MIDIは多様な入力画像から正確で一貫性のある3Dシーンを生成しており、その強力な汎化能力を示している。

Refer to caption
図8: テキストから画像への拡散モデルによって生成されたスタイライズされた画像に対する定性的比較。

5.5 Ablation Study

表2: アブレーション実験。我々は、マルチインスタンス注意層の数(#K#𝐾\#K# italic_K)、全体的なシーン画像(S.)入力の包含、および混合訓練のためのObjaverse [9](O.)の使用を評価する。
#K#𝐾\#K# italic_K S. O. CD-S\downarrow F-Score-S\uparrow CD-O\downarrow F-Score-O\uparrow IoU-B\uparrow
00 0.152 41.16
00 0.145 40.94 0.096 54.16 0.327
5555 0.080 50.19 0.103 53.58 0.518
21212121 0.127 44.88 0.141 48.55 0.423
5555 0.134 41.49 0.102 52.91 0.459
5555 0.137 42.00 0.126 51.62 0.502

我々は、3D-Front [15] データセットでアブレーション実験を行い、MIDIの主要コンポーネントの影響を評価する。 具体的には、以下を検討する: 1) マルチインスタンス注意層の数 K𝐾Kitalic_K、 2) 条件付け入力としての全体的なシーン画像の包含、 3) 混合訓練のための単一オブジェクトデータセット [9] の使用。

設計のないベースモデル。 我々は、設計なしでシーンデータセットに対してオブジェクト生成モデルを直接微調整したベースラインから始める。 しかし、ベースラインモデルは分離可能なマルチインスタンスを生成できず、訓練用のシーンデータが限られているため、空間関係のモデリングが弱い( 7参照)。

マルチインスタンス注意層の数 K𝐾Kitalic_K 我々は K=0𝐾0K=0italic_K = 0K=5𝐾5K=5italic_K = 5、および K=21𝐾21K=21italic_K = 21 で実験を行う。 2の定量的結果と 7の定性的例は、K=5𝐾5K=5italic_K = 5 が最高のパフォーマンスを達成することを示している。 K=0𝐾0K=0italic_K = 0 の場合、モデルは正しい空間関係を捉えることができず、一貫性のないシーンレイアウトにつながり、我々が提案するマルチインスタンス注意の重要性を示している。 K=21𝐾21K=21italic_K = 21 の場合、過剰な注意層が過学習を引き起こし、比較的小さなシーンデータセットで訓練された後、事前学習された3Dプライアが破壊されることによってオブジェクトの幾何学が歪む。 我々は K=5𝐾5K=5italic_K = 5 を選択し、自己注意層の一部のみをマルチインスタンス注意に変換することで、相互作用のモデリングと事前学習されたプライアの保持のバランスを取る。

全体的なシーン画像の条件付け。 我々は入力から全体的なシーン画像を除去し、ローカルなオブジェクト画像とマスクのみでモデルを条件付けする。 2 7に示されているように、全体的なシーンコンテキストを除外すると、一貫性のある3Dシーンを生成するモデルの能力が著しく損なわれる。 結果として生成されるシーンは、不正確なオブジェクトの配置を示し、インスタンス間の適切な空間関係が欠如している。

単一オブジェクトデータセットとの混合訓練。 我々は、Objaverseデータセット [9] を訓練プロセスに組み込むことで、混合訓練の効果を探る。 2 7の結果は、この正則化がなければ、モデルはより小さなシーンデータセットに過学習するため、劣った幾何学を持つオブジェクトを生成する傾向があることを示している。 単一オブジェクトデータを含めることで、オブジェクトレベルの知識を保持し、モデルがオブジェクト間の相互作用を効果的にモデリングしながら、高品質の幾何学を生成することが可能になる。

6 Conclusion

今後の課題。 我々が提案した、事前学習済み物体生成モデルを活用した複合的な3Dシーン生成のためのマルチインスタンス拡散に基づき、今後の研究では以下の方向性を探究できる: 1) 特殊なデータセットを必要とする、キャラクターが物体と相互作用する(例えば「パンダがギターを弾いている」)ような、より複雑な相互作用をモデル化するためのアプローチの拡張; 2) より効率的で表現力豊かなマルチインスタンス注意機構を開発するための明示的な3D幾何学的知識の組み込み; 3) シーン生成モデルの潜在的かつ暗黙的な3D認識能力の調査; そして4) より多くの物体を扱い、オープンワールド環境で動作するようにフレームワークをスケールアップすること。

結論。 本稿は、単一画像からの3Dシーン生成を大きく進展させる革新的なアプローチであるMIDIを紹介している。 事前学習済みの画像から3D物体生成モデルをマルチインスタンス拡散モデルに拡張し、新規のマルチインスタンス注意機構を組み込むことで、MIDIは生成プロセス内で複雑な物体間相互作用と空間的一貫性を効果的に捉えている。 これにより、正確な空間関係を持つ複数の3Dインスタンスを同時に生成することが可能となり、精密な幾何学的形状と空間的レイアウトを持つ高品質な3Dシーンの生成につながっている。 広範な実験により、MIDIが最先端の性能を達成しつつ、強力な汎化能力を示すことが実証されている。

References

  • Azinović et al. [2022] Dejan Azinović, Ricardo Martin-Brualla, Dan B Goldman, Matthias Nießner, and Justus Thies. Neural rgb-d surface reconstruction. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6290–6301, 2022.
  • Blattmann et al. [2023] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, et al. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127, 2023.
  • Chang et al. [2017] Angel Chang, Angela Dai, Thomas Funkhouser, Maciej Halber, Matthias Niessner, Manolis Savva, Shuran Song, Andy Zeng, and Yinda Zhang. Matterport3d: Learning from rgb-d data in indoor environments. arXiv preprint arXiv:1709.06158, 2017.
  • Chen et al. [2024a] Yixin Chen, Junfeng Ni, Nan Jiang, Yaowei Zhang, Yixin Zhu, and Siyuan Huang. Single-view 3d scene reconstruction with high-fidelity shape and texture. In 2024 International Conference on 3D Vision (3DV), pages 1456–1467. IEEE, 2024a.
  • Chen et al. [2024b] Yongwei Chen, Tengfei Wang, Tong Wu, Xingang Pan, Kui Jia, and Ziwei Liu. Comboverse: Compositional 3d assets creation using spatially-aware diffusion guidance. arXiv preprint arXiv:2403.12409, 2024b.
  • Chu et al. [2023] Tao Chu, Pan Zhang, Qiong Liu, and Jiaqi Wang. Buol: A bottom-up framework with occupancy-aware lifting for panoptic 3d scene reconstruction from a single image. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4937–4946, 2023.
  • Dahnert et al. [2021] Manuel Dahnert, Ji Hou, Matthias Nießner, and Angela Dai. Panoptic 3d scene reconstruction from a single rgb image. Advances in Neural Information Processing Systems, 34:8282–8293, 2021.
  • Dai et al. [2017] Angela Dai, Angel X Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, and Matthias Nießner. Scannet: Richly-annotated 3d reconstructions of indoor scenes. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5828–5839, 2017.
  • Deitke et al. [2023] Matt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs, Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, and Ali Farhadi. Objaverse: A universe of annotated 3d objects. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13142–13153, 2023.
  • Deitke et al. [2024] Matt Deitke, Ruoshi Liu, Matthew Wallingford, Huong Ngo, Oscar Michel, Aditya Kusupati, Alan Fan, Christian Laforte, Vikram Voleti, Samir Yitzhak Gadre, et al. Objaverse-xl: A universe of 10m+ 3d objects. Advances in Neural Information Processing Systems, 36, 2024.
  • Dogaru et al. [2024] Andreea Dogaru, Mert Özer, and Bernhard Egger. Generalizable 3d scene reconstruction via divide and conquer from a single view. arXiv preprint arXiv:2404.03421, 2024.
  • Dong et al. [2025] Junting Dong, Qi Fang, Zehuan Huang, Xudong Xu, Jingbo Wang, Sida Peng, and Bo Dai. Tela: Text to layer-wise 3d clothed human generation. In European Conference on Computer Vision, pages 19–36. Springer, 2025.
  • Eftekhar et al. [2021] Ainaz Eftekhar, Alexander Sax, Jitendra Malik, and Amir Zamir. Omnidata: A scalable pipeline for making multi-task mid-level vision datasets from 3d scans. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 10786–10796, 2021.
  • Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first International Conference on Machine Learning, 2024.
  • Fu et al. [2021a] Huan Fu, Bowen Cai, Lin Gao, Ling-Xiao Zhang, Jiaming Wang, Cao Li, Qixun Zeng, Chengyue Sun, Rongfei Jia, Binqiang Zhao, et al. 3d-front: 3d furnished rooms with layouts and semantics. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 10933–10942, 2021a.
  • Fu et al. [2021b] Huan Fu, Rongfei Jia, Lin Gao, Mingming Gong, Binqiang Zhao, Steve Maybank, and Dacheng Tao. 3d-future: 3d furniture shape with texture. International Journal of Computer Vision, 129:3313–3337, 2021b.
  • Gao et al. [2024] Daoyi Gao, Dávid Rozenberszki, Stefan Leutenegger, and Angela Dai. Diffcad: Weakly-supervised probabilistic cad model retrieval and alignment from an rgb image. ACM Transactions on Graphics (TOG), 43(4):1–15, 2024.
  • Gkioxari et al. [2022] Georgia Gkioxari, Nikhila Ravi, and Justin Johnson. Learning 3d object shape and layout without 3d supervision. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1695–1704, 2022.
  • Gümeli et al. [2022] Can Gümeli, Angela Dai, and Matthias Nießner. Roca: Robust cad model retrieval and alignment from a single image. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 4022–4031, 2022.
  • Han et al. [2024] Haonan Han, Rui Yang, Huan Liao, Jiankai Xing, Zunnan Xu, Xiaoming Yu, Junwei Zha, Xiu Li, and Wanhua Li. Reparo: Compositional 3d assets generation with differentiable 3d layout alignment. arXiv preprint arXiv:2405.18525, 2024.
  • Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
  • Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
  • Hong et al. [2023] Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, and Hao Tan. Lrm: Large reconstruction model for single image to 3d. arXiv preprint arXiv:2311.04400, 2023.
  • Hu et al. [2021] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.
  • Huang et al. [2024] Zehuan Huang, Hao Wen, Junting Dong, Yaohui Wang, Yangguang Li, Xinyuan Chen, Yan-Pei Cao, Ding Liang, Yu Qiao, Bo Dai, et al. Epidiff: Enhancing multi-view synthesis via localized epipolar-constrained diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9784–9794, 2024.
  • Izadinia et al. [2017] Hamid Izadinia, Qi Shan, and Steven M Seitz. Im2cad. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5134–5143, 2017.
  • Jun and Nichol [2023] Heewoo Jun and Alex Nichol. Shap-e: Generating conditional 3d implicit functions. arXiv preprint arXiv:2305.02463, 2023.
  • Kingma [2013] Diederik P Kingma. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
  • Kirillov et al. [2023] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, and Ross Girshick. Segment anything. arXiv:2304.02643, 2023.
  • Kuo et al. [2020] Weicheng Kuo, Anelia Angelova, Tsung-Yi Lin, and Angela Dai. Mask2cad: 3d shape prediction by learning to segment and retrieve. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part III 16, pages 260–277. Springer, 2020.
  • Kuo et al. [2021] Weicheng Kuo, Anelia Angelova, Tsung-Yi Lin, and Angela Dai. Patch2cad: Patchwise embedding learning for in-the-wild shape retrieval from a single image. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 12589–12599, 2021.
  • Langer et al. [2022] Florian Langer, Gwangbin Bae, Ignas Budvytis, and Roberto Cipolla. Sparc: Sparse render-and-compare for cad model alignment in a single rgb image. arXiv preprint arXiv:2210.01044, 2022.
  • Li et al. [2024] Weiyu Li, Jiarui Liu, Rui Chen, Yixun Liang, Xuelin Chen, Ping Tan, and Xiaoxiao Long. Craftsman: High-fidelity mesh generation with 3d native generation and interactive geometry refiner. arXiv preprint arXiv:2405.14979, 2024.
  • Liu et al. [2024a] Anran Liu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Zhiyang Dou, Hao-Xiang Guo, Ping Luo, and Wenping Wang. Part123: part-aware 3d reconstruction from a single-view image. In ACM SIGGRAPH 2024 Conference Papers, pages 1–12, 2024a.
  • Liu et al. [2022a] Haolin Liu, Yujian Zheng, Guanying Chen, Shuguang Cui, and Xiaoguang Han. Towards high-fidelity single-view holistic reconstruction of indoor scenes. In European Conference on Computer Vision, pages 429–446. Springer, 2022a.
  • Liu et al. [2024b] Minghua Liu, Ruoxi Shi, Linghao Chen, Zhuoyang Zhang, Chao Xu, Xinyue Wei, Hansheng Chen, Chong Zeng, Jiayuan Gu, and Hao Su. One-2-3-45++: Fast single image to 3d objects with consistent multi-view generation and 3d diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10072–10083, 2024b.
  • Liu et al. [2024c] Minghua Liu, Chao Xu, Haian Jin, Linghao Chen, Mukund Varma T, Zexiang Xu, and Hao Su. One-2-3-45: Any single image to 3d mesh in 45 seconds without per-shape optimization. Advances in Neural Information Processing Systems, 36, 2024c.
  • Liu et al. [2023a] Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, et al. Grounding dino: Marrying dino with grounded pre-training for open-set object detection. arXiv preprint arXiv:2303.05499, 2023a.
  • Liu et al. [2022b] Xingchao Liu, Chengyue Gong, and Qiang Liu. Flow straight and fast: Learning to generate and transfer data with rectified flow. arXiv preprint arXiv:2209.03003, 2022b.
  • Liu et al. [2023b] Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, and Wenping Wang. Syncdreamer: Generating multiview-consistent images from a single-view image. arXiv preprint arXiv:2309.03453, 2023b.
  • Long et al. [2024] Xiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt, et al. Wonder3d: Single image to 3d using cross-domain diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9970–9980, 2024.
  • Lorensen and Cline [1998] William E Lorensen and Harvey E Cline. Marching cubes: A high resolution 3d surface construction algorithm. In Seminal graphics: pioneering efforts that shaped the field, pages 347–353. 1998.
  • Meng et al. [2024] Quan Meng, Lei Li, Matthias Nießner, and Angela Dai. Lt3sd: Latent trees for 3d scene diffusion. arXiv preprint arXiv:2409.08215, 2024.
  • Nichol et al. [2022] Alexander Quinn Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. GLIDE: towards photorealistic image generation and editing with text-guided diffusion models. In International Conference on Machine Learning, ICML 2022, 17-23 July 2022, Baltimore, Maryland, USA, pages 16784–16804, 2022.
  • Nie et al. [2020] Yinyu Nie, Xiaoguang Han, Shihui Guo, Yujian Zheng, Jian Chang, and Jian Jun Zhang. Total3dunderstanding: Joint layout, object pose and mesh reconstruction for indoor scenes from a single image. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 55–64, 2020.
  • Oquab et al. [2023] Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, et al. Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193, 2023.
  • Paschalidou et al. [2021] Despoina Paschalidou, Amlan Kar, Maria Shugrina, Karsten Kreis, Andreas Geiger, and Sanja Fidler. Atiss: Autoregressive transformers for indoor scene synthesis. Advances in Neural Information Processing Systems, 34:12013–12026, 2021.
  • Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4195–4205, 2023.
  • Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
  • Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2):3, 2022.
  • Ren et al. [2024] Tianhe Ren, Shilong Liu, Ailing Zeng, Jing Lin, Kunchang Li, He Cao, Jiayu Chen, Xinyu Huang, Yukang Chen, Feng Yan, Zhaoyang Zeng, Hao Zhang, Feng Li, Jie Yang, Hongyang Li, Qing Jiang, and Lei Zhang. Grounded sam: Assembling open-world models for diverse visual tasks, 2024.
  • Roessle et al. [2024] Barbara Roessle, Norman Müller, Lorenzo Porzi, Samuel Rota Bulò, Peter Kontschieder, Angela Dai, and Matthias Nießner. L3dg: Latent 3d gaussian diffusion. arXiv preprint arXiv:2410.13530, 2024.
  • Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
  • Saharia et al. [2022] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in neural information processing systems, 35:36479–36494, 2022.
  • Sohl-Dickstein et al. [2015] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning, pages 2256–2265. PMLR, 2015.
  • Song et al. [2020a] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020a.
  • Song et al. [2020b] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456, 2020b.
  • Straub et al. [2019] Julian Straub, Thomas Whelan, Lingni Ma, Yufan Chen, Erik Wijmans, Simon Green, Jakob J Engel, Raul Mur-Artal, Carl Ren, Shobhit Verma, et al. The replica dataset: A digital replica of indoor spaces. arXiv preprint arXiv:1906.05797, 2019.
  • Tang et al. [2025] Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, and Ziwei Liu. Lgm: Large multi-view gaussian model for high-resolution 3d content creation. In European Conference on Computer Vision, pages 1–18. Springer, 2025.
  • Voleti et al. [2025] Vikram Voleti, Chun-Han Yao, Mark Boss, Adam Letts, David Pankratz, Dmitry Tochilkin, Christian Laforte, Robin Rombach, and Varun Jampani. Sv3d: Novel multi-view synthesis and 3d generation from a single image using latent video diffusion. In European Conference on Computer Vision, pages 439–457. Springer, 2025.
  • Wang et al. [2021] Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura, and Wenping Wang. Neus: Learning neural implicit surfaces by volume rendering for multi-view reconstruction. Advances in Neural Information Processing Systems, 34:27171–27183, 2021.
  • Wang et al. [2024] Zhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, and Jun Zhu. Crm: Single image to 3d textured mesh with convolutional reconstruction model. arXiv preprint arXiv:2403.05034, 2024.
  • Wen et al. [2024] Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, and Lu Sheng. Ouroboros3d: Image-to-3d generation via 3d-aware recursive diffusion. arXiv preprint arXiv:2406.03184, 2024.
  • Wu et al. [2024a] Kailu Wu, Fangfu Liu, Zhihan Cai, Runjie Yan, Hanyang Wang, Yating Hu, Yueqi Duan, and Kaisheng Ma. Unique3d: High-quality and efficient 3d mesh generation from a single image. arXiv preprint arXiv:2405.20343, 2024a.
  • Wu et al. [2024b] Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Jingxi Xu, Philip Torr, Xun Cao, and Yao Yao. Direct3d: Scalable image-to-3d generation via 3d latent diffusion transformer. arXiv preprint arXiv:2405.14832, 2024b.
  • Wu et al. [2024c] Zhennan Wu, Yang Li, Han Yan, Taizhang Shang, Weixuan Sun, Senbo Wang, Ruikai Cui, Weizhe Liu, Hiroyuki Sato, Hongdong Li, et al. Blockfusion: Expandable 3d scene generation using latent tri-plane extrapolation. ACM Transactions on Graphics (TOG), 43(4):1–17, 2024c.
  • Xu et al. [2024a] Jiale Xu, Weihao Cheng, Yiming Gao, Xintao Wang, Shenghua Gao, and Ying Shan. Instantmesh: Efficient 3d mesh generation from a single image with sparse-view large reconstruction models. arXiv preprint arXiv:2404.07191, 2024a.
  • Xu et al. [2024b] Yinghao Xu, Zifan Shi, Wang Yifan, Hansheng Chen, Ceyuan Yang, Sida Peng, Yujun Shen, and Gordon Wetzstein. Grm: Large gaussian reconstruction model for efficient 3d reconstruction and generation. arXiv preprint arXiv:2403.14621, 2024b.
  • Zhang et al. [2021] Cheng Zhang, Zhaopeng Cui, Yinda Zhang, Bing Zeng, Marc Pollefeys, and Shuaicheng Liu. Holistic 3d scene understanding from a single image with implicit representation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8833–8842, 2021.
  • Zhang et al. [2024] Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, and Jingyi Yu. Clay: A controllable large-scale generative model for creating high-quality 3d assets. ACM Transactions on Graphics (TOG), 43(4):1–20, 2024.
  • Zhang et al. [2023] Xiang Zhang, Zeyuan Chen, Fangyin Wei, and Zhuowen Tu. Uni-3d: A universal model for panoptic 3d scene reconstruction. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9256–9266, 2023.
  • Zhao et al. [2024] Zibo Zhao, Wen Liu, Xin Chen, Xianfang Zeng, Rui Wang, Pei Cheng, Bin Fu, Tao Chen, Gang Yu, and Shenghua Gao. Michelangelo: Conditional 3d shape generation based on shape-image-text aligned latent representation. Advances in Neural Information Processing Systems, 36, 2024.
  • Zhou et al. [2024] Junsheng Zhou, Yu-Shen Liu, and Zhizhong Han. Zero-shot scene reconstruction from single images with deep prior assembly. arXiv preprint arXiv:2410.15971, 2024.
  • Zou et al. [2024] Zi-Xin Zou, Zhipeng Yu, Yuan-Chen Guo, Yangguang Li, Ding Liang, Yan-Pei Cao, and Song-Hai Zhang. Triplane meets gaussian splatting: Fast and generalizable single-view 3d reconstruction with transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10324–10335, 2024.

7 Background

ベースモデル。 スケーラブルな3Dオブジェクト生成手法に倣い[73, 71, 66, 33]、我々はまず、3D幾何表現を低次元の潜在空間に圧縮するVAEを訓練する。 具体的には、𝐱L×6𝐱superscript𝐿6\mathbf{x}\in\mathbb{R}^{L\times 6}bold_x ∈ blackboard_R start_POSTSUPERSCRIPT italic_L × 6 end_POSTSUPERSCRIPTL𝐿Litalic_L点の位置と法線を表す)が𝐳=(𝐱)𝐳𝐱\mathbf{z}=\mathcal{E}(\mathbf{x})bold_z = caligraphic_E ( bold_x )によって潜在空間にマッピングされる。ここで、𝐳l×c𝐳superscript𝑙𝑐\mathbf{z}\in\mathbb{R}^{l\times c}bold_z ∈ blackboard_R start_POSTSUPERSCRIPT italic_l × italic_c end_POSTSUPERSCRIPTであり、l𝑙litalic_lは圧縮後のトークンの長さを表す。 潜在変数は𝐬=𝒟(𝐳)𝐬𝒟𝐳\mathbf{s}=\mathcal{D}(\mathbf{z})bold_s = caligraphic_D ( bold_z )を用いて符号付き距離関数(SDF)値を回帰することで3D空間に戻される。

次に、ノイズ除去ネットワークϵθsubscriptitalic-ϵ𝜃\epsilon_{\theta}italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTが圧縮された潜在空間で訓練され、ノイズϵ𝒩(0,I)similar-tobold-italic-ϵ𝒩0𝐼\bm{\epsilon}\sim\mathcal{N}(0,I)bold_italic_ϵ ∼ caligraphic_N ( 0 , italic_I )を元の3Dデータ分布に変換する。 訓練中は、整流フローアーキテクチャ[39]に従い、元のデータ𝐳0subscript𝐳0\mathbf{z}_{0}bold_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTは単純な線形軌道に沿って摂動が加えられる:

𝐳t=t𝐳0+(1t)ϵsubscript𝐳𝑡𝑡subscript𝐳01𝑡bold-italic-ϵ\mathbf{z}_{t}=t\mathbf{z}_{0}+(1-t)\bm{\epsilon}bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = italic_t bold_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + ( 1 - italic_t ) bold_italic_ϵ (4)

ここで、t=1,,T𝑡1𝑇t=1,\cdots,Titalic_t = 1 , ⋯ , italic_Tであり、T𝑇Titalic_Tは拡散過程のステップ数を表す。 実際には、我々は中間ステップの重みを増やすためにロジットノーマルサンプリング[14]を採用している。 残差接続を持つ21の注意ブロックを特徴とするノイズ除去ネットワークϵθsubscriptitalic-ϵ𝜃\epsilon_{\theta}italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTは、以下の損失を最小化することで分布変換軌道の傾きを近似するよう訓練される:

𝔼𝐳,𝐲,ϵ𝒩(0,I),t[𝐳0ϵϵθ(𝐳t,t,τθ(𝐲))22]subscript𝔼formulae-sequencesimilar-to𝐳𝐲bold-italic-ϵ𝒩0𝐼𝑡delimited-[]superscriptsubscriptdelimited-∥∥subscript𝐳0bold-italic-ϵsubscriptitalic-ϵ𝜃subscript𝐳𝑡𝑡subscript𝜏𝜃𝐲22\mathbb{E}_{\mathbf{z},\mathbf{y},\bm{\epsilon}\sim\mathcal{N}(0,I),t}[\lVert% \mathbf{z}_{0}-\bm{\epsilon}-\epsilon_{\theta}(\mathbf{z}_{t},t,\tau_{\theta}(% \mathbf{y}))\rVert_{2}^{2}]blackboard_E start_POSTSUBSCRIPT bold_z , bold_y , bold_italic_ϵ ∼ caligraphic_N ( 0 , italic_I ) , italic_t end_POSTSUBSCRIPT [ ∥ bold_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT - bold_italic_ϵ - italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , italic_τ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_y ) ) ∥ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ] (5)

ここで、τθsubscript𝜏𝜃\tau_{\theta}italic_τ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTは画像エンコーダであり、𝐲𝐲\mathbf{y}bold_yは条件付け画像で、クロスアテンション機構を通じてノイズ除去トランスフォーマーに組み込まれる。

8 Implementation Details

トレーニング。 我々はMIDIを、最大N=5𝑁5N=5italic_N = 5個のインスタンスを同時に生成するようトレーニングした。 この値は3D-FRONTデータセット[15]の分析に基づいて選択した。そこでは、5個以下のオブジェクトを含むシーンが大多数を占め、5個を超えるオブジェクトを持つシーンは比較的稀であることが観察された。 5555個を超えるオブジェクトを持つシーンを除外する代わりに、我々はクラスタリング手法を用いて、そのようなシーンから代表的な5個のオブジェクトを選択してトレーニングに使用した。 トレーニング中、我々は0.1の確率で画像条件付けをランダムにドロップした。 ベースモデルのトレーニングと同様の戦略を採用し、ロジット正規サンプリング[14]を利用して中間拡散ステップの重みを増加させ、生成プロセスのより困難な段階にモデルが焦点を当てるのを助けた。 トレーニング設定として、学習率5×1055superscript1055\times 10^{-5}5 × 10 start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPTを使用し、8台のNVIDIA A100 GPUで5エポックにわたってMIDIをトレーニングした。

推論。 我々の実験設定では、まずGrounded-SAM[52]を使用してシーン画像をセグメント化し、個々のオブジェクトのマスクを取得した。 次に、我々のマルチインスタンス拡散モデルを適用して、クラシファイアフリーガイダンス[21]を用いて構成的な3Dインスタンスを生成した。これにより、生成されたシーンの忠実性と一貫性が向上する。 推論ステップ数を50に、ガイダンススケールを7.0に設定した。 単一の画像から3Dシーンを生成する全プロセスは、NVIDIA A100 GPUで約40秒を要する。

9 Additional Discussions

MIDIと構成的生成手法の比較。 9に示すように、既存の構成的生成手法は、3Dオブジェクトを1つずつ生成し、その後それらの空間的関係を最適化するという多段階プロセスを含んでいる。 しかし、この種の手法はオブジェクトを生成する際にグローバルなシーンの文脈情報が不足しているため、不正確または不適合な3Dオブジェクトを生成してしまう。 さらに、単一の画像に基づいて正確なシーンレイアウトを最適化することは非常に困難であり、シーン内に類似したオブジェクトがある場合、類似オブジェクトの位置が逆転してしまう( 9に示すとおりである)。 対照的に、我々の手法はオブジェクトの補完、3D生成、および空間的関係をマルチインスタンス拡散モデルでモデル化しているため、一貫性があり正確な3Dシーンを生成することができる。

10 Limitations

MIDIは3Dインスタンスをグローバルシーン座標系内、具体的には11-1- 1から1111の範囲の正規化された空間内で生成するが、このアプローチでは小さなオブジェクトが全体の空間のごく一部を占めるにすぎない。 結果として、これらの小さなオブジェクトは、モデルの全容量が単一のオブジェクトに集中できる正規空間で生成されたオブジェクトと比較して、解像度が低くなる可能性がある。 我々は、マルチインスタンス拡散モデルを拡張し、オブジェクトをそれぞれの正規空間で生成し、さらにシーン内での空間的位置も生成することで、各オブジェクトを最適な解像度で生成できるようにし、この問題に対処できると考えている。

また、我々のモデルは既存のシーンデータセットに存在する相互作用関係の単純さによって制約されている。 その結果、MIDIは動的な相互作用を持つオブジェクトなど、複雑な相互作用を特徴とするシーンの生成に苦戦する可能性がある。 我々は、より複雑で多様な訓練データを導入し、より広範なオブジェクトの相互作用や空間的関係を包含することで、モデルのオブジェクト空間的相互作用レベルでの一般化能力が向上すると予想している。 この改善により、より洗練された現実的なオブジェクト間のダイナミクスを持つシーンの生成が可能になるであろう。