arXiv	https://arxiv.org/abs/2411.16856
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Yongwei Chen¹ Yushi Lan¹ Shangchen Zhou¹ Tengfei Wang² Xingang Pan¹
¹S-Lab, Nanyang Technological University
²Shanghai Artificial Intelligence Laboratory
https://cyw-3d.github.io/projects/SAR3D/

Abstract

自己回帰モデルは、大規模言語モデル（LLM）から大規模マルチモーダルモデル（LMM）、2D コンテンツ生成に至るまで、様々な分野で顕著な成功を収め、人工汎用知能（AGI）に近づいている。これらの進歩にもかかわらず、3D オブジェクトの生成と理解に自己回帰アプローチを適用することは、ほとんど探求されていない。本稿では、Scale AutoRegressive 3D（SAR3D）を紹介する。これは、マルチスケール 3D ベクトル量子化変分オートエンコーダー（VQVAE）を活用して 3D オブジェクトをトークン化し、効率的な自己回帰生成と詳細な理解を可能にする新しいフレームワークである。次の単一トークンではなく、マルチスケール潜在表現における次のスケールを予測することで、SAR3D は生成時間を大幅に短縮し、A6000 GPU 上でわずか $0.82$ 秒での高速な 3D オブジェクト生成を実現する。さらに、階層的な 3D 認識情報が豊富なトークンを用いて、事前学習済みの LLM をファインチューニングすることで、3D コンテンツのマルチモーダルな理解を可能にする。我々の実験では、SAR3D が速度と品質の両面で現在の 3D 生成手法を凌駕し、LLM が 3D モデルを包括的に解釈およびキャプション付けできることを示している。

1 Introduction

自己回帰モデルは、大規模言語モデル（LLM）[5, 1, 14, 50, 72, 73]、2D生成[88, 71, 66]、大規模マルチモーダルモデル（LMM）[67, 2, 17]など、様々な分野で顕著な成功を収めており、人工汎用知能（AGI）に向けて大きな進歩を遂げている。次のトークン[1]またはスケール[71]を予測することにより、自己回帰モデルは単純なクロスエントロピー損失を用いて訓練され、類似のアーキテクチャを共有している。この共通点により、コミュニティが長年にわたってLLMのために開発してきた最適化の恩恵を容易に受けることができる。しかしながら、この次のトークン/スケール予測アプローチを3D物体生成と理解にどのように適用できるかについての探求は限られている。

これまで、3Dデータの不足により、研究者たちは事前学習された2D拡散モデル [58] を事前分布として利用し、マルチビュースコア蒸留サンプリング（SDS）損失 [52] を通じて3Dオブジェクトを生成せざるを得なかった。これに続いて、代替アプローチ [27, 68] では、Objaverse [16, 15] のような大規模3Dオブジェクトデータセットを活用し、高速3D再構成のためのフィードフォワード3D再構成モデルの訓練に焦点を当てている。これらの手法は、わずか数秒で3Dアセットを生成することが可能である。最近では、ネイティブ3D生成モデル [48, 29, 93, 34] が登場し、様々な条件下（例えば、テキストや画像）でノイズから3Dアセットをサンプリングすることを試みている。しかし、これらのモデルの多くは拡散ベースの手法に依存しているため、推論時間が遅いという問題がある。並行して、メッシュベースの生成モデル [63, 11] は自己回帰的予測を用いて3Dトポロジーを生成しようとしているが、詳細さに限界があり、面ごとの遅い予測を必要とする。3D理解に関しては、いくつかの研究 [85, 19, 25] が3Dデータに対してLLMをファインチューニングし、3D世界を解釈しようとしている。しかし、これらの手法は主に3D点群表現を使用しており、オブジェクトの細かい詳細を捉えるには限界がある。

自己回帰的な次トークン予測パラダイムの膨大な可能性と、3D生成および理解におけるその未開拓の状況を踏まえ、我々は重要な問題を提起する：自己回帰モデルを効果的に適用して、高速な3Dオブジェクト生成と詳細な理解の両方を達成することは可能であろうか？この課題に取り組むには、3Dオブジェクトに関する詳細な情報をコンパクトなトークンに封じ込める能力を持つ3Dトークナイザー、および自己回帰的予測のための効率的なスケジュールが必要である。

本稿では、我々はScale AutoRegressive 3D（SAR3D）を提案する。これは、高速な物体生成と包括的な理解の両方のために自己回帰モデルを活用するフレームワークである。 SAR3Dの中核は、3D物体を階層的なレベルのトークンに分割できる多スケール3Dベクトル量子化変分オートエンコーダー（VQVAE）である。これらの多スケールトークンは、次のスケール予測トレーニングを容易にし、拡散モデルや従来の次トークン予測手法と比較して、3D生成に必要なステップを大幅に削減する。さらに、3D認識情報が豊富なこれらのトークンは、詳細な3D理解のためのLLMのファインチューニングと自然に互換性がある。

具体的には、我々のSAR3Dは、多視点RGBイメージとそれに対応する深度およびカメラパラメータを、多スケールの潜在トリプレーン表現にエンコードする多スケール3D VQVAEを導入する。 3D生成のために、我々は単一の画像またはテキストプロンプトを条件として、前のスケールに基づいてこの潜在トリプレーンの次のスケールを予測する自己回帰モデルを訓練する。次の単一トークンではなく次のスケールを予測することで、我々のアプローチは生成時間を大幅に短縮し、A6000 GPUで0.82秒という短時間で3D物体生成を実現する。3D理解については、我々の3D多スケールVQVAEから得られる切り詰められたスケールトークンを使用して事前訓練されたLLMをファインチューニングし、テキストと3Dトークンを組み合わせたマルチモーダル入力を処理できるようにする。特筆すべきは、我々のファインチューニングされたLLMが、我々のVQVAEによってエンコードされた3Dトークンだけでなく、自己回帰モデルによって生成された3Dトークンも解釈できることであり、3Dキャプショニングと同時生成・理解の両方をサポートする。

実験により、SAR3Dが速度と品質の両面で既存の3D生成手法を凌駕し、我々のVQVAEがLLMに3D物体の詳細なキャプションを生成する能力を与えることが示されている。我々の主要な技術的貢献は以下の通りである：

•

我々は、高速な3Dオブジェクト生成と詳細な3D理解の両方を目的としたSAR3Dフレームワークを紹介する。
•

3D生成において、我々の手法はテキストから3Dおよび単一画像から3Dの両方に対して次スケール予測アプローチを活用し、既存の手法と比較してより高速な生成とより高品質な結果を達成している。
•

3D理解に関しては、我々の3DマルチスケールVQVAEによって生成された切り捨てられたスケールトークンを活用して事前学習済みLLMをファインチューニングし、3Dモデルを解釈・記述する能力を付与することで、マルチモーダルアプリケーションにおける我々のアプローチの可能性を示している。

2 Related Works

3D生成モデル。 2D拡散モデルの成功[65, 23]に伴い、3D生成への適応が広く探求されている。スコア蒸留サンプリング[52, 10, 69, 77, 12]はこれらの2Dモデルを活用して3Dコンテンツを蒸留するが、最適化のコストが高い、モード崩壊、ヤヌス問題などの課題に直面している。より最近のアプローチは二段階のパイプラインを採用し、まず多視点画像を生成し[62, 42, 61, 78]、その後フィードフォワードプロセスを通じて3D構造を再構築する[26, 84, 70]。これらの手法は有望ではあるが、多視点画像生成の品質に制約されており、しばしば視点の一貫性が欠如し[41]、より高い解像度への拡張に失敗する[61]。さらに、この二段階のセットアップは3D認識の潜在空間が欠如しているため、3D編集能力を制限している。

これらの制限を克服するため、ネイティブ3D拡散モデル [92, 91, 75, 93, 34, 37, 35] が導入された。これらは高品質で効率的かつスケーラブルな3D生成を提供する。ネイティブ3D拡散パイプラインは2段階の訓練プロセスを使用する：まず3DオブジェクトをVAE潜在空間にエンコードし [32, 33]、次に結果として得られるコードに潜在拡散モデルを適用する。しかし、拡散ベースの3D生成は推論時に遅く、その潜在空間は3D理解のために容易に改良することができない。並行して、メッシュ生成モデル [63, 11] は自己回帰的予測を通じて3Dトポロジーを生成する。しかし、これらは詳細に欠け、面ごとの遅い予測を必要とする。本稿では、我々の自己回帰型 SAR3D が効率的なサンプリングと優れた品質を達成し、大規模言語モデルをカスケード接続することで自然に3D理解に使用できることを示す。

自己回帰的視覚生成。 PixelCNN [59]によって先駆けられ、研究者たちは画像をピクセル列として生成することを提案した。初期の研究であるVQVAE [74]とVQGAN [18]は、さらに画像パッチを離散的なトークンに量子化し、言語モデリング [1]と同様にトランスフォーマーを用いて自己回帰的な事前分布を学習する。その後の研究では、サンプリング速度 [8]とトークン化の効率 [89]をさらに改善している。再構成品質をさらに向上させるため、RQVAE [36]はマルチスケール量子化を提案し、VAR [71]はこれを次のスケール予測に変換し、サンプリング速度を大幅に向上させた。並行して、テキスト条件付き視覚生成タスクにおける自己回帰モデルのスケールアップにも努力が払われている [56, 66, 76, 38]。 3D領域では、いくつかの予備的な研究 [47, 90]がテクスチャのないおもちゃのデータセット [7]で3D自己回帰モデリングを研究しているが、大規模3Dデータセット [16, 15]における自己回帰的3D生成の研究は欠如している。

大規模マルチモーダルモデル。大規模言語モデル（LLM）の大きな成功に触発され[6, 72, 73]、テキストベースのデータを超えた幅広い情報を理解し生成するために、大規模マルチモーダルモデル（LMM）が提案されている。モデルをエンドツーエンドで訓練するには、2つの顕著なパラダイムが存在する：モデルをゼロから訓練する方法[45]と、事前訓練されたLLMと単一モーダルエンコーダーを整列させる方法である[2, 39]。後者の戦略は通常、2段階のプロセスを含む：単一モーダルエンコーダーをLLMの特徴空間に整列させる段階と、指示ベースの微調整段階である。後続の研究では、LMMを3D理解、特に点群に拡張している[85, 53, 25, 86]。しかし、点群は与えられた3D入力の詳細を大幅に無視している。本稿では、我々の3D VQVAEがLLMと接続して詳細な3D理解を可能にすることを示す。

3 Preliminaries

3.1 Multi-scale Visual Autoregressive Generation

VAR [71]は、画像生成のためのマルチスケール視覚的モデリング手法を提示しており、「次のトークン予測」から「次のスケール予測」へと移行することで、自己回帰モデルの推論速度を大幅に向上させている。入力画像 $I$ の符号化された特徴マップ $f\in\mathbb{R}^{h\times w\times C}$ が与えられた場合、VARは $f$ を $K$ 個のマルチスケールトークンマップ $R=(r_{1},r_{2},...,r_{K})$ に量子化する。これらは徐々に高解像度 $h_{k}\times w_{k}$ になり、 $r_{K}$ は入力特徴マップ $f$ の解像度と一致する。自己回帰尤度は以下のように表される：

p(r_{1},r_{2},...,r_{K})=\prod_{k=1}^{K}p(r_{k}|r_{1},r_{2},...,r_{k-1}),

(1)

ここで、各自己回帰ユニット $r_{k}\in[V]^{h_{k}\times w_{k}}$ はスケール $k$ におけるトークンマップであり、シーケンス $(r_{1},r_{2},...,r_{k-1})$ は $r_{k}$ の接頭辞として機能する。次のスケール予測の学習のために入力画像 $I$ をマルチスケールの離散トークンマップ $R$ にトークン化するために、VARはマルチスケール量子化器 $\mathcal{Q}(\cdot)$ を持つマルチスケールVQVAEを提案している：

f=\mathcal{E}(I),\quad R=\mathcal{Q}(f),

(2)

ここで、 $I$ は生の画像を表し、 $\mathcal{E}$ は画像エンコーダーである。この量子化プロセスは、コードブック $Z\in\mathbb{R}^{V\times C}$ 内の最近傍コード[74]を探すことで、 $f$ をマルチスケールトークンマップのシーケンスにマッピングする：

z_{k}^{(i,j)}=\left(\arg\min_{v\in[V]}\left\|\text{lookup}(Z,v)-r_{k}^{(i,j)}% \right\|_{2}\right)\in[V],

(3)

ここで、lookup $(Z,v)$ はコードブック $Z$ 内の $v$ 番目のベクトルを取ることを意味する。量子化されたオートエンコーダーを訓練するために、 $z_{k}(i,j)$ ごとに $Z$ が参照され、 $\hat{f}$ （元の $f$ の近似）が得られる。その後、 $\hat{f}$ が与えられたデコーダー $D(\cdot)$ を使用して、新しい画像 $\hat{I}$ が再構成される：

\hat{f}=\text{lookup}(Z,z),\quad\hat{I}=\mathcal{D}(\hat{f}).

(4)

完全に訓練されると、オートエンコーダー $\{\mathcal{E},\mathcal{Q},\mathcal{D}\}$ は、一方向自己回帰モデルの訓練のために入力画像をトークン化する。

3.2 PointLLM for Point Cloud Understanding

点群 $P\in\mathbb{R}^{n\times d}$ とテキストの両方を含むマルチモーダル文が与えられた場合、ここで $n$ は点の数、 $d$ は各点の次元数を表す。PointLLM [85]は、事前学習された大規模言語モデル [73, 13]をファインチューニングすることで、3D点群理解を行うことを目的としている。これは主に3つの要素で構成されている：事前学習された点群エンコーダ $\Gamma_{\text{pe}}$ （例えば、Point-BERT [90]）、プロジェクタ $\Gamma_{\text{proj}}$ 、そして事前学習された大規模言語モデルのバックボーン $\Gamma_{\text{llm}}$ である。 $\Gamma_{\text{pe}}$ と $\Gamma_{\text{proj}}$ は $P$ を点群トークン列 $Z_{p}\in\mathbb{R}^{m\times c^{\prime}}$ に投影する。ここで $m$ はトークンの総数、 $c^{\prime}$ は点トークンの投影次元である。最終的な混合トークン列 $Z_{m}=(z_{1},z_{2},...,z_{l})\in\mathbb{R}^{l\times c}$ は、点トークン $Z_{p}$ とテキストトークン $Z_{t}$ の両方で構成される：

Z_{p}=\Gamma_{\text{proj}}(\Gamma_{\text{pe}}(P)),\quad Z_{m}=\text{Concat}(Z_% {p},Z_{t}),

(5)

ここで $Z_{t}$ は $\Gamma_{\text{llm}}$ のトークナイザーによって得られ、 $\text{Concat}(\cdot)$ は2つのベクトルの連結を意味する。 LLMバックボーン $\Gamma_{\text{llm}}$ はGPT形式のTransformers [5]であり、前のマルチモーダルトークンの列 $Z_{<i}=(z_{1},\dots,z_{i-1})$ を受け取り、次のトークンを予測する：

z_{i}=\Gamma_{\text{llm}}(Z_{<i}).

(6)

ファインチューニングのプロセスは2段階ある。第1段階では、 $\{\Gamma_{\text{pe}},\Gamma_{\text{llm}}\}$ を固定し、 $\Gamma_{\text{proj}}$ をファインチューニングして点の特徴をテキストトークン空間に整合させる。第2段階では、 $\Gamma_{\text{pe}}$ を固定し、 $\{\Gamma_{\text{llm}},\Gamma_{\text{proj}}\}$ を一緒にファインチューニングする。

Refer to caption — 図2: マルチスケールVQVAEの概要。3Dモデルが与えられると、我々はマルチビューRGB-D（深度）レンダリングとプリュッカー埋め込みを我々のマルチビューエンコーダ $\mathcal{E}$ への入力として活用する。エンコーダは連続的な特徴マップを予測し、それがマルチスケール量子化器 $\mathcal{Q}$ によって量子化され、潜在的なトリプレーン特徴の $R=(r_{1},r_{2},\dots,r_{K})$ が得られる。異なるスケールの各コードは同じコードブックを共有する。トリプレーンデコーダは、量子化された潜在トリプレーン特徴を平面ごとの方法でトリプレーン表現に変換する。予測されたトリプレーンは、真の画像、深度、法線とマルチビュー教師あり学習が行われる。

4 Method

本節では、高品質な3Dオブジェクト生成と詳細な理解のためのSAR3Dについて説明する。まず、4.1節で多階層3Dベクトル量子化変分オートエンコーダー（VQVAE）を紹介する。これは入力3Dモデルを多階層のトークンに分割する。図2に我々の3D VQVAEの設計を示す。次に、4.2節では、異なる階層の特徴トークンの全シーケンスを用いて、単一の画像またはテキストプロンプトが与えられた場合に次の階層を予測する自己回帰モデルを訓練する。これは単純なクロスエントロピー損失によってのみ監督される。最後に、4.3節では、全シーケンスの切り詰められた階層を使用して、事前訓練された大規模言語モデル（LLM）[72, 73, 13]を微調整し、3Dトークンとテキストトークンの両方を含むマルチモーダル入力シーケンスを処理することで、入力3Dモデルの理解を可能にする。図3に我々の3D生成と理解のパイプラインを示す。生成と理解のために異なるエンコーダーを訓練する他の手法[80]とは異なり、我々は単一のVQVAEを訓練し、生成には全シーケンスを、理解には切り詰められたシーケンスを使用する。以下にSAR3Dの詳細を示す。

4.1 Multi-scale 3D VQVAE

先行研究[57, 8, 4, 34]が示すように、高品質な視覚生成の鍵は、特別に設計された変分オートエンコーダ[32, 74]によって実現されるコンパクトな潜在空間にある。 高速な3D生成と詳細な理解の両方を達成するために、我々は与えられた3Dオブジェクトを離散的なマルチスケール潜在空間にマッピングするマルチスケール3D VQVAEを提案する。 3Dモデルをエンコードするために、我々はその多視点のポーズ付きRGB-Dレンダリングを入力として活用する。このアプローチは3D構造の包括的な表現を提供し、既存のアーキテクチャ[81]との互換性を可能にする。

具体的には、VQVAEの入力は3Dオブジェクトの6視点からの多視点レンダリングのセットである。各レンダリング $M=(I,0pt,\pi)$ は、特定の視点からオブジェクトを表現する本質的な3D属性を捉えている：RGB画像 $I\in^{H\times W\times 3}$ 、深度マップ $0pt\in^{H\times W}$ 、および対応するカメラポーズ $\pi$ である。これらの3D属性を標準化するために、我々はカメラポーズ $\pi$ をプリュッカー座標[64]に変換し、 ${\mathbf{p}}_{i}=({\mathbf{o}}\times{\mathbf{d}}_{u,v},{\mathbf{d}}_{u,v})\in^% {6}$ として表現する。ここで、 ${\mathbf{o}}_{i}\in^{3}$ はカメラの原点、 ${\mathbf{d}}_{u,v}\in^{3}$ は正規化された光線方向、 $\times$ は外積を表す。結果として、カメラのプリュッカー埋め込み $\pi$ は ${\mathbf{P}}\in^{H\times W\times 6}$ として表現される。最終的な表現は、これらの要素をチャンネル方向に連結することで形成され、 $\tilde{M}=[I\oplus 0pt\oplus{\mathbf{P}}]\in^{H\times W\times 10}$ となる。ここで、 $\oplus$ は連結を表す。

$M$ の幾何学的形状とテクスチャの詳細を維持するために、LN3Diff[34]と同様に、我々は多視点畳み込みエンコーダ[62, 70]を通じて入力をエンコードする。より良い3D認識のために、潜在空間は潜在トリプレーン[82, 34] $f\in\mathbb{R}^{3\times h\times w\times C}$ として設計されている。さらに、この表現は空間的な帰納バイアスを持ち、VAR[71]のスケールと補間設計と互換性がある。エンコーディング後、 $f$ は異なるスケールに補間され、潜在トリプレーン量子化層 $\mathcal{Q}$ を用いて量子化される：

f=\mathcal{E}(\tilde{M}),\quad R=\mathcal{Q}(f),

(7)

ここで、 $\mathcal{E}$ は我々のVQVAEのエンコーダであり、 $R=(r_{1},r_{2},...,r_{K})$ はスケールシーケンスで $r_{k}\in\mathbb{R}^{3\times h_{k}\times w_{k}\times C}$ である。各サブ潜在平面 $r_{k}^{i}\in\mathbb{R}^{h_{k}\times w_{k}\times C}$ は独立して量子化され、共有コードブック $Z$ 上で補間される。量子化と補間の詳細については、補足資料を参照されたい。

その後、デコーダ $\mathcal{D}$ は離散スケール $R$ をトリプレーンにデコードし、複数の視点をレンダリングして再構成損失を計算する。訓練の安定性とメッシュ抽出の品質のバランスを取るために、我々はまずボリュームレンダリング[46]でモデルを訓練し、損失は以下のように読み取られる：

\displaystyle\mathcal{L}

\displaystyle=\lambda_{\text{render}}\mathcal{L}_{\text{render}}+\lambda_{% \text{VQ}}\mathcal{L}_{\text{VQ}}+\lambda_{\text{GAN}}\mathcal{L}_{\text{GAN}},

(8)

ここで、 $\mathcal{L}_{\text{render}}$ はマスク付きのレンダリングされたRGB-D画像と真値との間の平均絶対誤差（MAE）と知覚損失[94]を組み合わせたものであり、 $\mathcal{L}_{\text{VQ}}$ はエンコーディング誤差とコミットメント損失[74]の両方を含み、 $\mathcal{L}_{\text{GAN}}$ は知覚的に豊かな潜在空間を促進する敵対的損失として機能する。 $\lambda_{\text{*}}$ は対応する損失の重みである。

3Dメッシュ抽出を容易にするために、我々はさらにモデルをFlexicubes[60, 84]のハイブリッド表現に微調整し、追加の $\mathcal{L}_{\text{flex}}$ 損失を用いる：

\displaystyle\mathcal{L}_{\text{flex}}

\displaystyle=\lambda_{\text{normal}}\mathcal{L}_{\text{normal}}+\lambda_{% \text{reg}}\mathcal{L}_{\text{reg}},

(9)

ここで、 $\mathcal{L}_{\text{normal}}$ はレンダリングされた法線と真値との間のMAE損失であり、 $\mathcal{L}_{\text{reg}}$ はFlexicubesパラメータ[60]の正則化項である。 $\lambda_{\text{*}}$ は対応する損失の重みである。 LATTE3D[83]と同様に、安定した訓練のために、我々はこの段階でVQVAEのデコーダのみを微調整する。

4.2 3D Generation via Multi-scale Autoregressive Modeling

SAR3D トランスフォーマー。我々の生成フレームワークを図3に示す。 VARと同様に[71]、我々は標準的なGPTスタイルのトランスフォーマー[5]をAdaLNレイヤー[51]とともに使用し、スケーリング則の単純な規則に従って特定のレイヤー設計を行う[30]。我々は式1による自己回帰予測のためにトリプレーン潜在表現を採用し、異なる潜在平面 $r_{k}^{i}$ は対応する学習可能な位置埋め込みによって区別される。

条件付き3D生成。入力画像を3Dにマッピングするフィードフォワード3D再構成モデル[27, 70]とは異なり、我々は図3に示すように、多様な条件を導入することで柔軟なマルチモーダル3D生成を実現する。テキスト条件については、CLIP ${}_{\text{T}}$ [55] ViT-Lテキストエンコーダーを使用し、テキスト埋め込みをクロスアテンションを通じて自己回帰モデルに注入する。画像条件付きモデルについては、DINOv2 [49] ViT-Lを使用してローカルパッチ特徴を抽出し、それらを事前クロスアテンションブロック[27]を通じて自己回帰モデルに送り込む。これは経験的により良いパフォーマンスをもたらす。ローカルパッチ特徴に加えて、我々はCLIP ${}_{\text{T}}$ /DINOv2のプールされた出力特徴もシーケンスの開始トークンとして活用する。我々のトランスフォーマーブロックの詳細については、 補足資料を参照されたい。

分類器フリーガイダンス。拡散モデルで最初に提案された[23, 57]分類器フリーガイダンス[22] (CFG)は、生成品質と条件整合性を向上させるのに効果的であることが示されている。そのため、我々のモデルでもCFGを可能にし、入力条件の $10\%$ をランダムにドロップアウトし、nullの無条件埋め込みに置き換える[51]。推論時には、各トークンのロジット $r_{g}$ は、条件付きロジット $r_{g}=r_{u}+s(r_{c}-r_{u})$ と無条件ロジット $r_{c}$ が与えられた場合、 $r_{u}$ によって計算される。 $s$ は分類器フリーガイダンスのスケールを表す。

表1: 画像条件付き3D生成の定量的評価。我々は2Dレンダリングと3D形状の両方の品質を評価する。以下に示すように、提案手法はすべての指標で強力なパフォーマンスを示している。マルチビュー画像から3DへのアプローチであるLGMは、FIDでわずかに優れたパフォーマンスを達成しているが、MUSIQなどのより高度な画像品質評価指標では劣っており、3D形状品質も大幅に悪い。マルチビューから3Dへの手法については、入力ビュー数（V=

\#

）も含めている。レイテンシー時間はすべてTesla V100アーキテクチャでプロファイリングされている。

Method	FID $\downarrow$	KID(%) $\downarrow$	MUSIQ $\uparrow$	COV(%) $\uparrow$	MMD(‰) $\downarrow$	Latency-V100 (s) $\downarrow$
Splatter-Image	48.80	3.65	30.33	37.66	30.69	0.83
OpenLRM	38.41	1.87	45.46	39.33	29.08	7.21
One-2-3-45 (V=12)	88.39	6.34	59.02	33.33	35.09	59.23
Lara (V=4)	43.74	1.95	39.37	39.33	28.84	11.93
CRM (V=6)	45.53	1.93	64.10	38.83	28.91	22.10
LGM (V=4)	19.93	0.55	54.78	50.83	22.06	3.87
Shap-E	138.53	11.95	31.51	61.33	19.17	9.54
LN3Diff	29.08	0.89	50.39	55.17	19.94	7.51
SAR3D-NeRF	22.55	0.42	67.24	71.50	15.24	1.64
SAR3D-Flexicubes	27.30	0.63	65.17	59.50	15.48	2.92

4.3 SAR3D-LLM for 3D Object Understanding

我々の3D VQVAEモデルは与えられた3Dオブジェクトの包括的なエンコーディングを提供するため、3Dオブジェクト理解に自然に拡張することができる。PointLLM [85]に従い、我々は事前学習された3D VQVAEの潜在空間を大規模言語モデル、例えばLLaMA [72, 73]に整合させる。第3.2節で簡単に述べたように、エンコードされた3Dトークン $R$ は言語潜在空間に投影され、テキスト指示トークン $Z_{t}$ と連結される。ここでは、事前学習されたSAR3D VQVAEからの出力トークンを直接プロジェクター $\Gamma_{\text{proj}}$ に使用する。本稿では3Dキャプショニング[43]タスクのみを研究しているため、指示トークン $Z_{t}$ は"Give a concise interpretation of the 3D data presented here"からトークン化された $\tilde{Z_{t}}$ に固定される。最終的なフレームワークであるSAR3D-LLMは、3Dオブジェクトが与えられた場合の詳細な3Dキャプショニングと、テキストまたは画像が与えられた場合の同時3D生成とキャプショニングの両方をサポートする。

さらに、ここでの驚くべき観察は、3D理解トレーニングには $R$ のすべてのスケールが必要ではないということである。経験的に、我々はLLMへの入力として切り捨てられたスケール潜在コード $\tilde{R}=(r_{1},r_{2},...,r_{K-2})$ を使用しており、これは3D生成のトレーニングに必要な全トークンの37.5%のみを含んでいる。 LLMへの入力として機能する最終的なマルチモーダルトークン $Z_{m}$ は以下のように表される：

Z_{proj}=\Gamma_{\text{proj}}(\tilde{R}),\quad Z_{m}=\text{Concat}(Z_{proj},% \tilde{Z_{t}}),

(10)

ここで、 $Z_{proj}$ は投影された3Dトークンであり、 $\text{Concat}(\cdot,\cdot)$ は連結を意味する。同様の観察はJanus [80]でも言及されており、マルチモーダル理解と生成には異なる特徴が必要とされる。さらに、Cap3D [43, 44]のような他の3Dキャプショニングアプローチとは異なり、我々の手法は $8$ マルチビューレンダリングからキャプションを個別に抽出し、それらを統一されたキャプションにマージするための後処理を必要とするのではなく、単一のエンコーディングステップで効率的に詳細なキャプションを生成する。

5 Experiments

データセット。我々のモデルを訓練するために、G-Objaverse [54, 16] からのレンダリングを使用し、約 $176K$ の高品質な3Dインスタンスのサブセットを選択した。各インスタンスは、RGB、法線、深度マップ、およびカメラポーズを含む $40$ のランダムビューで構成されている。テキスト条件付き生成と3D理解訓練のために、3DTopia [24] が提供するキャプションを使用した。画像条件付き訓練のために、対応する3Dインスタンスのランダムビューを条件として選択した。

実装の詳細。我々のマルチスケールVQVAEでは、入力として解像度 $H=W=256$ の画像を使用している。特徴マップは10のスケールにわたって量子化され、サイズは $3\times(1^{2},2^{2},3^{2},4^{2},5^{2},6^{2},8^{2},10^{2},13^{2},16^{2})$ である。コードブックの利用を向上させ、3D生成訓練を安定化させるために、[87, 66] に従い、コードブックベクトルに $\ell_{2}$ -正規化を適用し、低いコードブックベクトル次元 $C=8$ を設定し、大きなコードブックサイズ $V=16384$ を使用している。

3D生成に関しては、我々はVAR [71]をベースとしたアーキテクチャを採用し、各平面に平面位置エンコーディングを追加している。テキスト条件付き生成では、モデルは16個のトランスフォーマーブロックと16個のヘッドを持ち、画像条件付き生成では24個のトランスフォーマーブロックと16個のヘッドを持つ。我々はAdamWオプティマイザを学習率 $10^{-4}$ で使用している。3D理解については、PointLLM [85]に倣い、LLaMA [73]のVicuna-7Bチェックポイント [13]を利用している。トレーニングは $7$ 台のNVIDIA A100 GPUで実施され、マルチスケールVQVAEにはバッチサイズ $28$ 、画像条件付きトランスフォーマーにはバッチ $63$ 、テキスト条件付きトランスフォーマーにはバッチサイズ $52$ を使用した。SAR3D-LLMについては、ステージ1のアライメントはバッチサイズ $140$ で、ステージ2は $112$ でトレーニングされている。

5.1 Single Image to 3D

我々は、SAR3Dを3つのカテゴリーの手法と比較する：単一画像から3Dへの手法（Splatter-Image [68]、OpenLRM [20, 26]）、複数視点画像から3Dへの手法（One-2-3-45 [40]、Lara [9]、CRM [79]、LGM [70]）、そしてネイティブ3D拡散モデル（Shap-E [29]、LN3Diff-image [34]）である。定量的には、FID [21]、KID [3]、MUSIQ [31, 95]を用いてレンダリング指標のベンチマークを行う。3D品質評価については、Coverage Score（COV）とMinimum Matching Distance（MMD）スコアを表1に示す通り報告する。我々のSAR3Dは、全ての指標において強力な性能を示している。

さらに、生成速度についても分析を行った。このタイミングは、入力画像の処理からメッシュ抽出までの完全なプロセスをカバーしている。効率的な次スケール予測のおかげで、SAR3Dは非常に高速な生成速度を達成し、単一のA6000 GPUでそれぞれ $0.82$ 秒と $1.46$ 秒を実現している。他のベースライン手法はTesla V100 GPUでテストされているため、公平な比較のために表1では我々の結果を $2$ 倍にスケーリングしている。

SAR3Dと既存手法との定性的比較も図4に含まれている。OpenLRM[20]のような単一画像から3Dへの手法や、LGM [70]のような複数視点画像から3Dへの手法と比較して、我々のアプローチは視点間での3D一貫性をより良く達成し、生成された3Dオブジェクトの歪みを軽減している。LN3Diff [34]のようなネイティブ3D拡散モデルと比較して、SAR3Dはより完全な3Dモデルを生成する。追加の定性的結果を図5に示す。他の手法との比較の詳細については、補足資料を参照されたい。

5.2 Text to 3D

画像から3Dへの生成に加えて、SAR3Dはテキストプロンプトから高品質な3Dアセットの作成もサポートしている。図5に示すように、SAR3Dは同じテキスト入力に基づいて多様で詳細な3Dオブジェクトを生成する。例えば、1番目と2番目のサンプルでは、SAR3Dは大砲の砲身と椅子の台座に異なる形状を生成し、3番目のサンプルでは木製の箱のテクスチャを変化させている。図6では、我々の手法を他のテキストから3Dを生成するアプローチと比較している。これにはPoint-E [48]、Shap-E [29]、3DTopia [24]、およびLN3Diff [34]が含まれる。これらのベースラインと比較して、SAR3Dはより鮮明な視覚結果を達成し、入力プロンプトとのより良い一致を示している。例えば、2番目のサンプルでは、SAR3Dは入力テキストに密接に一致する赤いパターンを柄に生成している。対照的に、Point-E [48]は柄と刃の色を反転させ、3DTopia [24]は完全に赤い剣を生成し、Shap-E [29]はより詳細さに欠ける結果を生成している。

5.3 3D Captioning

3Dオブジェクトキャプショニング。本節では、様々な3Dモデルに適用した我々の3D理解モデルの結果を提示する。図8に示すように、「ここに提示された3Dデータの簡潔な解釈を提供してください。」というプロンプトが与えられた場合、SAR3D-LLMは入力3Dモデルの正確なカテゴリーと詳細な特徴の両方を生成することができる。例えば、椅子の事例では、SAR3Dは形状（湾曲した背もたれ）、色（青と白）、構成要素（黒い台座、クッション付きの座面）を正確に記述しているが、正解テキストにはこれらの詳細が欠けている。さらに、我々の3Dトークンにより、LLMはモデルの異なる部分間の空間的関係を捉えることが可能となる。例えば、図8の3列目では、SAR3Dは「につながる」や「の前に」といった表現を用いて、階段、入口、パティオエリアの空間的関係を描写しているが、正解ラベルはこれらの部分を単に列挙するのみで、それらの空間的つながりを捉えていない。

同時3D生成とキャプショニング。我々の3D VQVAEによってエンコードされたトークンを解釈することに加えて、SAR3Dは我々のオートリグレッシブモデルによって生成された3Dトークンも処理することができ、図7に示すように、同時3D生成とキャプショニングを可能にする。条件入力画像またはテキストが与えられると、SAR3Dはオブジェクト全体を生成するだけでなく、生成された3Dトークンの切り詰められたスケールに基づいて詳細なキャプションも生成する。特筆すべきは、テキスト条件付き生成と理解において、SAR3Dは入力テキストで指定された以上の追加詳細を生成し、生成されたコンテンツの正確で包括的な説明を結果として生み出すことである。

6 Limitations

第一の制限は、SAR3Dが高品質な3Dオブジェクトと詳細な解釈を生成できるものの、現在は2つの別個の自己回帰モデルに依存していることである。今後の研究では、テキストと3D情報を統合したトークンを処理し、3Dとテキストの両方の出力を生成できる真のマルチモーダルモデル[80]の開発に焦点を当てることができるであろう。さらに、ジオメトリとテクスチャの品質はボリュームレンダリングによって制限されている。より効率的な3D表現[28]やカスケード生成[93]を使用することで、全体的な品質をさらに向上させることができる。最後に、我々の手法は本質的なスケーラビリティを示しているが、リソースの制限により、そのスケーリング挙動は本稿で十分に検証されていない。我々は、より多くのリソースがあれば、我々の手法が3D生成と理解において好ましいスケーリング則を示す可能性があると考えている。

7 Conclusion

本稿では、SAR3Dという新しいフレームワークを提示した。これは、マルチスケールVQVAEと自己回帰モデリングを通じて、高速な3Dオブジェクト生成と包括的な3D理解の両方を進展させるものである。潜在的な三平面次スケール予測アプローチを導入することで、既存の拡散ベースの3D生成手法の速度制限に対処し、高品質な結果を維持しつつ1秒未満の生成時間を実現した。さらに、我々のマルチスケールVQVAEは、切り捨てられたスケール3Dトークンを活用することで、事前学習済みLLMがマルチモーダル入力を処理し解釈することを可能にし、LLMが詳細な3Dオブジェクトのキャプション生成および同時の3D生成とキャプション生成を行う能力を実証した。実験結果は、3D生成と理解タスクにおけるSAR3Dの効率性と有効性を裏付けており、マルチモーダルAIアプリケーションのための多用途なツールとしての位置づけを示している。今後の研究では、スケーラビリティをさらに探求し、SAR3Dのより広範な3Dコンテンツとマルチモーダル理解の課題への応用を拡張することが考えられる。

補足資料 SAR3D: マルチスケール3D VQVAEを用いた自己回帰型3Dオブジェクト生成と理解

Yongwei Chen¹ Yushi Lan¹ Shangchen Zhou¹ Tengfei Wang² Xingang Pan¹

¹S-Lab, 南洋理工大学
²上海人工知能研究所

https://cyw-3d.github.io/projects/SAR3D/

Appendix A Multi-scale quantization and interpolation

VAR [71]と同様に、我々は潜在的な三平面特徴マップに対して残差設計における量子化と補間を採用している。これはアルゴリズム1とアルゴリズム2に記述されている通りである。特に、全てのスケールが同じコードブックを共有し、潜在的な三平面の各平面は、対応する平面の前のスケールに基づいて独立して量子化されることを示している。 $z_{k}^{i}$ を $h_{K}\times w_{K}$ の解像度にアップサンプリングするために、我々は畳み込み層 $\phi_{k}^{i}(\cdot)$ を使用する。 $z_{k}^{i}$ を解像度 $h_{K}\times w_{K}$ に補間する際には、ネットワークは使用しない。

アルゴリズム1 マルチスケール3D VQVAEエンコーディング

1:マルチビューレンダリング

\tilde{M}

2:ステップ

K

、解像度

(3,h_{k},w_{k})_{k=1}^{K}

f\leftarrow\mathcal{E}(\tilde{M})

、

R\leftarrow[];

4:for

k=1,\dots,K

5: for

i=1,\dots,3

r_{k}^{i}\leftarrow\mathcal{Q}(\text{interpolate}(f,h_{k},w_{k}))

R\leftarrow\text{queue\_push}(R,r_{k}^{i})

z_{k}^{i}\leftarrow\text{lookup}(Z,r_{k}^{i})

z_{k}^{i}\leftarrow\text{interpolate}(z_{k}^{i},h_{K},w_{K})

10:

f^{i}\leftarrow f^{i}-\phi_{k}^{i}(z_{k}^{i})

11: end for

12:end for

13:return マルチスケール潜在三平面トークン

R

アルゴリズム2 マルチスケール3D VQVAE再構成

1:マルチスケールの潜在トライプレーントークンマップ

R

2:ステップ

K

、解像度

(3,h_{k},w_{k})_{k=1}^{K}

\hat{f}\leftarrow 0

4:for

k=1,\dots,K

5: for

i=1,\dots,3

r_{k}^{i}\leftarrow\text{queue\_pop}(R)

z_{k}^{i}\leftarrow\text{lookup}(Z,r_{k}^{i})

z_{k}^{i}\leftarrow\text{interpolate}(z_{k}^{i},h_{K},w_{K})

\hat{f^{i}}\leftarrow\hat{f^{i}}+\phi_{k}^{i}(z_{k})

10: end for

11:end for

12:

\hat{T}\leftarrow\mathcal{D}(\hat{f})

13:return 再構成されたトライプレーン表現

\hat{T}

Appendix B Transformer blocks

3D生成のための我々のTransformerブロックのアーキテクチャを図S1に示す。我々は、テキストおよび画像埋め込みを処理するために、それぞれCLIPテキストエンコーダーまたはDINOv2画像エンコーダーを使用する。プールされたトークンは、その後MLPを通過し、マルチヘッド自己注意機構とフィードフォワードネットワーク（FFN）モジュールのスケールおよびシフトパラメータを計算する。さらに、特徴ベクトルはマルチヘッドクロス注意ブロックに組み込まれ、クロスモーダル注意を促進する。モデルへのクロスモーダル情報の統合を強化するために、[35]と同様に、我々はテキスト条件付きおよび画像条件付きTransformerブロックにおいて、自己注意とクロス注意の順序を再配置することでTransformerブロックの構造を修正している。

Appendix C More 3D captioning results

3Dキャプション生成の追加結果を図S2に示す。3Dモデルが与えられると、我々のSAR3D-LLMは詳細なキャプションを生成することが可能である。例えば、スケートボードランプの場合、我々の手法は曲線的、平らな上部、傾斜のある底部といったその形状に関する具体的な詳細や、トリックやジャンプを行うといった機能性について記述することができる。

Appendix D More image-to-3D comparison

図S3に示すように、我々は本稿のSAR3Dを3つのカテゴリーの手法と比較したさらなる結果を示す：単一画像から3Dへの手法（Splatter-Image [68]、OpenLRM [20, 26]）、多視点画像から3Dへの手法（One-2-3-45 [40]、Lara [9]、CRM [79]、LGM [70]）、そしてネイティブ3D拡散モデル（Shap-E [29]、LN3Diff-image [34]）である。ベースライン手法と比較して、我々のSAR3Dは完全で歪みのない結果を生成し、参照視点と新規視点の両方で高品質な視覚効果を提供する。

References

Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
Alayrac et al. [2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. NeurIPS, 2022.
Bińkowski et al. [2018] Mikołaj Bińkowski, Dougal J. Sutherland, Michael Arbel, and Arthur Gretton. Demystifying MMD GANs. In ICLR, 2018.
Brooks et al. [2024] Tim Brooks, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, Clarence Ng, Ricky Wang, and Aditya Ramesh. Video generation models as world simulators. 2024.
Brown et al. [2020a] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In NeurIPS, 2020a.
Brown et al. [2020b] Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. 2020b.
Chang et al. [2015] Angel X. Chang, Thomas Funkhouser, Leonidas Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, Shuran Song, Hao Su, Jianxiong Xiao, Li Yi, and Fisher Yu. ShapeNet: An Information-Rich 3D Model Repository. arXiv preprint arXiv:1512.03012, 2015.
Chang et al. [2022] Huiwen Chang, Han Zhang, Lu Jiang, Ce Liu, and William T. Freeman. MaskGIT: Masked generative image transformer. In CVPR, 2022.
Chen et al. [2024a] Anpei Chen, Haofei Xu, Stefano Esposito, Siyu Tang, and Andreas Geiger. Lara: Efficient large-baseline radiance fields. In ECCV, 2024a.
Chen et al. [2023] Rui Chen, Yongwei Chen, Ningxin Jiao, and Kui Jia. Fantasia3D: Disentangling geometry and appearance for high-quality text-to-3d content creation. In ICCV, 2023.
Chen et al. [2024b] Yiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Xin Chen, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, and Chi Zhang. Meshanything: Artist-created mesh generation with autoregressive transformers, 2024b.
Chen et al. [2024c] Yongwei Chen, Tengfei Wang, Tong Wu, Xingang Pan, Kui Jia, and Ziwei Liu. Comboverse: Compositional 3D assets creation using spatially-aware diffusion guidance. arXiv preprint arXiv:2403.12409, 2024c.
Chiang et al. [2023] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality, 2023.
Chowdhery et al. [2023] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. Palm: Scaling language modeling with pathways. Journal of Machine Learning Research, 24(240):1–113, 2023.
Deitke et al. [2023a] Matt Deitke, Ruoshi Liu, Matthew Wallingford, Huong Ngo, Oscar Michel, Aditya Kusupati, Alan Fan, Christian Laforte, Vikram Voleti, Samir Yitzhak Gadre, Eli VanderBilt, Aniruddha Kembhavi, Carl Vondrick, Georgia Gkioxari, Kiana Ehsani, Ludwig Schmidt, and Ali Farhadi. Objaverse-XL: A universe of 10M+ 3D objects. arXiv preprint arXiv:2307.05663, 2023a.
Deitke et al. [2023b] Matt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs, Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, and Ali Farhadi. Objaverse: A universe of annotated 3D objects. In CVPR, 2023b.
Driess et al. [2023] Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, et al. Palm-e: An embodied multimodal language model. In ICML. PMLR, 2023.
Esser et al. [2021] Patrick Esser, Robin Rombach, and Björn Ommer. Taming transformers for high-resolution image synthesis. In CVPR, 2021.
Guo et al. [2023] Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Yiwen Tang, Xianzheng Ma, Jiaming Han, Kexin Chen, Peng Gao, Xianzhi Li, Hongsheng Li, et al. Point-bind & point-llm: Aligning point cloud with multi-modality for 3d understanding, generation, and instruction following. arXiv preprint arXiv:2309.00615, 2023.
He and Wang [2023] Zexin He and Tengfei Wang. OpenLRM: Open-source large reconstruction models. https://github.com/3DTopia/OpenLRM, 2023.
Heusel et al. [2017] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. GANs trained by a two time-scale update rule converge to a local nash equilibrium. NeurIPS, 2017.
Ho [2021] Jonathan Ho. Classifier-free diffusion guidance. In NeurIPS, 2021.
Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. NeurIPS, 2020.
Hong et al. [2024a] Fangzhou Hong, Jiaxiang Tang, Ziang Cao, Min Shi, Tong Wu, Zhaoxi Chen, Tengfei Wang, Liang Pan, Dahua Lin, and Ziwei Liu. 3DTopia: Large text-to-3d generation model with hybrid diffusion priors. arXiv preprint arXiv:2403.02234, 2024a.
Hong et al. [2023] Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, and Chuang Gan. 3d-llm: Injecting the 3D world into large language models. NeurIPS, 2023.
Hong et al. [2024b] Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, and Hao Tan. Lrm: Large reconstruction model for single image to 3d. In ICLR, 2024b.
Hong et al. [2024c] Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, and Hao Tan. Lrm: Large reconstruction model for single image to 3d. In ICLR, 2024c.
Huang et al. [2024] Binbin Huang, Zehao Yu, Anpei Chen, Andreas Geiger, and Shenghua Gao. 2d gaussian splatting for geometrically accurate radiance fields. In SIGGRAPH 2024 Conference Papers. Association for Computing Machinery, 2024.
Jun and Nichol [2023] Heewoo Jun and Alex Nichol. Shap-E: Generating conditional 3D implicit functions. arXiv preprint arXiv:2305.02463, 2023.
Kaplan et al. [2020] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models, 2020.
Ke et al. [2021] Junjie Ke, Qifei Wang, Yilin Wang, Peyman Milanfar, and Feng Yang. Musiq: Multi-scale image quality transformer. In ICCV, pages 5148–5157, 2021.
Kingma and Welling [2013] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. arXiv, 2013.
Kosiorek et al. [2021] Adam R. Kosiorek, Heiko Strathmann, Daniel Zoran, Pol Moreno, Rosalia Schneider, Sovna Mokr’a, and Danilo Jimenez Rezende. NeRF-VAE: A geometry aware 3D scene generative model. ICML, 2021.
Lan et al. [2024a] Yushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, and Chen Change Loy. Ln3diff: Scalable latent neural fields diffusion for speedy 3D generation. In ECCV, 2024a.
Lan et al. [2024b] Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, and Chen Change Loy. Gaussiananything: Interactive point cloud latent diffusion for 3d generation. 2024b.
Lee et al. [2022] Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, and Wook-Shin Han. Autoregressive image generation using residual quantization. In CVPR, 2022.
Li et al. [2024] Weiyu Li, Jiarui Liu, Rui Chen, Yixun Liang, Xuelin Chen, Ping Tan, and Xiaoxiao Long. CraftsMan: High-fidelity mesh generation with 3D native generation and interactive geometry refiner, 2024.
Liu et al. [2024] Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, and Peng Gao. Lumina-mgpt: Illuminate flexible photorealistic text-to-image generation with multimodal generative pretraining, 2024.
Liu et al. [2023a] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning, 2023a.
Liu et al. [2023b] Minghua Liu, Chao Xu, Haian Jin, Linghao Chen, Zexiang Xu, Hao Su, et al. One-2-3-45: Any single image to 3D mesh in 45 seconds without per-shape optimization. arXiv preprint arXiv:2306.16928, 2023b.
Liu et al. [2023c] Ruoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, and Carl Vondrick. Zero-1-to-3: Zero-shot one image to 3D object, 2023c.
Long et al. [2024] Xiaoxiao Long, Yuan-Chen Guo, Cheng Lin, Yuan Liu, Zhiyang Dou, Lingjie Liu, Yuexin Ma, Song-Hai Zhang, Marc Habermann, Christian Theobalt, et al. Wonder3D: Single image to 3D using cross-domain diffusion. In CVPR, 2024.
Luo et al. [2023] Tiange Luo, Chris Rockwell, Honglak Lee, and Justin Johnson. Scalable 3D captioning with pretrained models. arXiv preprint arXiv:2306.07279, 2023.
Luo et al. [2024] Tiange Luo, Justin Johnson, and Honglak Lee. View selection for 3D captioning via diffusion ranking. arXiv preprint arXiv:2404.07984, 2024.
Lv et al. [2023] Tengchao Lv, Yupan Huang, Jingye Chen, Lei Cui, Shuming Ma, Yaoyao Chang, Shaohan Huang, Wenhui Wang, Li Dong, Weiyao Luo, et al. Kosmos-2.5: A multimodal literate model. arXiv preprint arXiv:2309.11419, 2023.
Mildenhall et al. [2020] Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi, and Ren Ng. NeRF: Representing scenes as neural radiance fields for view synthesis. In ECCV, 2020.
Mittal et al. [2022] Paritosh Mittal, Yen-Chi Cheng, Maneesh Singh, and Shubham Tulsiani. AutoSDF: Shape priors for 3D completion, reconstruction and generation. In CVPR, 2022.
Nichol et al. [2022] Alex Nichol, Heewoo Jun, Prafulla Dhariwal, Pamela Mishkin, and Mark Chen. Point-E: A system for generating 3D point clouds from complex prompts, 2022.
Oquab et al. [2023] Maxime Oquab, Timothée Darcet, Theo Moutakanni, Huy V. Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Russell Howes, Po-Yao Huang, Hu Xu, Vasu Sharma, Shang-Wen Li, Wojciech Galuba, Mike Rabbat, Mido Assran, Nicolas Ballas, Gabriel Synnaeve, Ishan Misra, Herve Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, and Piotr Bojanowski. DINOv2: Learning robust visual features without supervision, 2023.
Ouyang et al. [2022] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. NeurIPS, 35:27730–27744, 2022.
Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In ICCV, 2023.
Poole et al. [2022] Ben Poole, Ajay Jain, Jonathan T. Barron, and Ben Mildenhall. DreamFusion: Text-to-3D using 2D diffusion. ICLR, 2022.
Qi et al. [2024] Zekun Qi, Runpei Dong, Shaochen Zhang, Haoran Geng, Chunrui Han, Zheng Ge, Li Yi, and Kaisheng Ma. Shapellm: Universal 3D object understanding for embodied interaction. arXiv preprint arXiv:2402.17766, 2024.
Qiu et al. [2023] Lingteng Qiu, Guanying Chen, Xiaodong Gu, Qi zuo, Mutian Xu, Yushuang Wu, Weihao Yuan, Zilong Dong, Liefeng Bo, and Xiaoguang Han. Richdreamer: A generalizable normal-depth diffusion model for detail richness in text-to-3d. arXiv preprint arXiv:2311.16918, 2023.
Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In ICML, 2021.
Ramesh et al. [2021] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In ICML, 2021.
Rombach et al. [2022a] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022a.
Rombach et al. [2022b] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2022b.
Salimans et al. [2017] Tim Salimans, Andrej Karpathy, Xi Chen, and Diederik P. Kingma. Pixelcnn++: A pixelcnn implementation with discretized logistic mixture likelihood and other modifications. In ICLR, 2017.
Shen et al. [2023] Tianchang Shen, Jacob Munkberg, Jon Hasselgren, Kangxue Yin, Zian Wang, Wenzheng Chen, Zan Gojcic, Sanja Fidler, Nicholas Sharp, and Jun Gao. Flexible isosurface extraction for gradient-based mesh optimization. ACM Trans. Graph., 42(4), 2023.
Shi et al. [2023a] Ruoxi Shi, Hansheng Chen, Zhuoyang Zhang, Minghua Liu, Chao Xu, Xinyue Wei, Linghao Chen, Chong Zeng, and Hao Su. Zero123++: a single image to consistent multi-view diffusion base model. In arXiv, 2023a.
Shi et al. [2023b] Yichun Shi, Peng Wang, Jianglong Ye, Long Mai, Kejie Li, and Xiao Yang. Mvdream: Multi-view diffusion for 3D generation. arXiv:2308.16512, 2023b.
Siddiqui et al. [2023] Yawar Siddiqui, Antonio Alliegro, Alexey Artemov, Tatiana Tommasi, Daniele Sirigatti, Vladislav Rosov, Angela Dai, and Matthias Nießner. Meshgpt: Generating triangle meshes with decoder-only transformers. In CVPR, 2023.
Sitzmann et al. [2021] Vincent Sitzmann, Semon Rezchikov, William T. Freeman, Joshua B. Tenenbaum, and Fredo Durand. Light field networks: Neural scene representations with single-evaluation rendering. In NeurIPS, 2021.
Song et al. [2021] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In ICLR, 2021.
Sun et al. [2024] Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, and Zehuan Yuan. Autoregressive model beats diffusion: Llama for scalable image generation. arXiv preprint arXiv:2406.06525, 2024.
Sun et al. [2023] Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, and Xinlong Wang. Emu: Generative pretraining in multimodality. In ICLR, 2023.
Szymanowicz et al. [2023] Stanislaw Szymanowicz, Christian Rupprecht, and Andrea Vedaldi. Splatter image: Ultra-fast single-view 3D reconstruction. In arXiv, 2023.
Tang et al. [2023] Junshu Tang, Tengfei Wang, Bo Zhang, Ting Zhang, Ran Yi, Lizhuang Ma, and Dong Chen. Make-it-3d: High-fidelity 3d creation from a single image with diffusion prior. In Proceedings of the IEEE/CVF international conference on computer vision, pages 22819–22829, 2023.
Tang et al. [2024] Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, and Ziwei Liu. Lgm: Large multi-view gaussian model for high-resolution 3D content creation. In ECCV, 2024.
Tian et al. [2024] Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, and Liwei Wang. Visual autoregressive modeling: Scalable image generation via next-scale prediction. NeurIPS, 2024.
Touvron et al. [2023a] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023a.
Touvron et al. [2023b] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023b.
van den Oord et al. [2017] Aäron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural discrete representation learning. In NeurIPS, 2017.
Wang et al. [2023a] Tengfei Wang, Bo Zhang, Ting Zhang, Shuyang Gu, Jianmin Bao, Tadas Baltrusaitis, Jingjing Shen, Dong Chen, Fang Wen, Qifeng Chen, et al. Rodin: A generative model for sculpting 3d digital avatars using diffusion. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 4563–4573, 2023a.
Wang et al. [2024a] Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, et al. Emu3: Next-token prediction is all you need. arXiv preprint arXiv:2409.18869, 2024a.
Wang et al. [2023b] Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, and Jun Zhu. Prolificdreamer: High-fidelity and diverse text-to-3D generation with variational score distillation. In NeurIPS, 2023b.
Wang et al. [2024b] Zhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, and Rynson WH Lau. Phidias: A generative model for creating 3d content from text, image, and 3d conditions with reference-augmented diffusion. arXiv preprint arXiv:2409.11406, 2024b.
Wang et al. [2024c] Zhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, and Jun Zhu. CRM: Single image to 3D textured mesh with convolutional reconstruction model. In ECCV, 2024c.
Wu et al. [2024a] Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, et al. Janus: Decoupling visual encoding for unified multimodal understanding and generation. arXiv preprint arXiv:2410.13848, 2024a.
Wu et al. [2023] Chao-Yuan Wu, Justin Johnson, Jitendra Malik, Christoph Feichtenhofer, and Georgia Gkioxari. Multiview compressive coding for 3D reconstruction. arXiv preprint arXiv:2301.08247, 2023.
Wu et al. [2024b] Shuang Wu, Youtian Lin, Feihu Zhang, Yifei Zeng, Jingxi Xu, Philip Torr, Xun Cao, and Yao Yao. Direct3D: Scalable image-to-3d generation via 3D latent diffusion transformer, 2024b.
Xie et al. [2024] Kevin Xie, Jonathan Lorraine, Tianshi Cao, Jun Gao, James Lucas, Antonio Torralba, Sanja Fidler, and Xiaohui Zeng. Latte3d: Large-scale amortized text-to-enhanced3d synthesis. ECCV, 2024.
Xu et al. [2024a] Jiale Xu, Weihao Cheng, Yiming Gao, Xintao Wang, Shenghua Gao, and Ying Shan. Instantmesh: Efficient 3D mesh generation from a single image with sparse-view large reconstruction models. arXiv preprint arXiv:2404.07191, 2024a.
Xu et al. [2024b] Runsen Xu, Xiaolong Wang, Tai Wang, Yilun Chen, Jiangmiao Pang, and Dahua Lin. Pointllm: Empowering large language models to understand point clouds. In ECCV, 2024b.
Xue et al. [2022] Le Xue, Mingfei Gao, Chen Xing, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, and Silvio Savarese. Ulip: Learning unified representation of language, image and point cloud for 3D understanding. arXiv preprint arXiv:2212.05171, 2022.
Yu et al. [2022a] Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, et al. Scaling autoregressive models for content-rich text-to-image generation. arXiv preprint arXiv:2206.10789, 2(3):5, 2022a.
Yu et al. [2024a] Lijun Yu, Jose Lezama, Nitesh Bharadwaj Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Agrim Gupta, Xiuye Gu, Alexander G Hauptmann, et al. Language model beats diffusion-tokenizer is key to visual generation. In ICLR, 2024a.
Yu et al. [2024b] Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, and Liang-Chieh Chen. An image is worth 32 tokens for reconstruction and generation. In NeurIPS, 2024b.
Yu et al. [2022b] Xumin Yu, Lulu Tang, Yongming Rao, Tiejun Huang, Jie Zhou, and Jiwen Lu. Point-bert: Pre-training 3D point cloud transformers with masked point modeling. In CVPR, 2022b.
Zeng et al. [2022] Xiaohui Zeng, Arash Vahdat, Francis Williams, Zan Gojcic, Or Litany, Sanja Fidler, and Karsten Kreis. Lion: Latent point diffusion models for 3D shape generation. In NeurIPS, 2022.
Zhang et al. [2023] Biao Zhang, Jiapeng Tang, Matthias Nießner, and Peter Wonka. 3DShape2VecSet: A 3D shape representation for neural fields and generative diffusion models. ACM Trans. Graph., 42(4), 2023.
Zhang et al. [2024] Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, and Jingyi Yu. Clay: A controllable large-scale generative model for creating high-quality 3D assets. ACM TOG, 43(4):1–20, 2024.
Zhang et al. [2018] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In CVPR, 2018.
Zhou et al. [2022] Shangchen Zhou, Kelvin C.K. Chan, Chongyi Li, and Chen Change Loy. Towards robust blind face restoration with codebook lookup transformer. In NeurIPS, 2022.