JaLMS
最新の AI 研究を日本語で解読

VeGaS: Video Gaussian Splatting

Weronika Smolak-Dyżewska, Dawid Malarz, Kornel Howil,
Jan Kaczmarczyk, Marcin Mazur, Przemysław Spurek
Jagiellonian University
Faculty of Mathematics and Computer Science
weronika.smolak@doctoral.uj.edu.pl
Abstract

暗黙的ニューラル表現(INR)は、離散データを連続関数として近似するためにニューラルネットワークを使用する。動画データの文脈では、このようなモデルを用いて、ピクセル位置の座標とフレーム発生時間(またはインデックス)をRGB色値に変換することができる。INRは効果的な圧縮を可能にするが、編集目的には適していない。一つの潜在的な解決策は、Video Gaussian Representation(VGR)のような3D Gaussian Splatting(3DGS)ベースのモデルを使用することである。これは、動画を多数の3Dガウス分布としてエンコードし、編集を含む多くの動画処理操作に適用可能である。しかしながら、この場合、修正の能力は限られた基本的な変換のセットに制限される。この問題に対処するため、我々はVideo Gaussian Splatting(VeGaS)モデルを導入する。これは、動画データの現実的な修正を可能にする。VeGaSを構築するために、我々は動画ストリームの非線形ダイナミクスを捉え、連続するフレームをそれぞれの条件付き分布として得られる2Dガウス分布によってモデル化するように設計された、新しい折り畳みガウス分布のファミリーを提案する。我々の実験は、VeGaSがフレーム再構成タスクにおいて最先端のソリューションを上回り、動画データの現実的な修正を可能にすることを示している。コードは以下で入手可能である:https://github.com/gmum/VeGaS

1 Introduction

暗黙的ニューラル表現(INRs)[27]は、離散的なデータを滑らかで連続的な関数として記述するためにニューラルネットワークを使用する。これらは、画像[14]、動画[5]、音声[30]、3D形状[24]など、様々な信号を連続的にエンコードする有望な方法として登場した。INRsは2D画像の文脈で頻繁に使用され、ピクセル座標をRGB色値にマッピングするネットワークを訓練することで、画像の構造をニューラルネットワークの重みにエンコードする。このアプローチは、圧縮[5]、超解像[14]、あるいは生成モデルの不可欠な部分[28, 11]としての応用など、いくつかの利点を提供する。

一方、3Dガウシアンスプラッティング(3DGS)フレームワーク[13]は、当初3Dシーンのモデリングのために提案されたが、最近2D画像に適用されるようになった。特に、GaussianImage法[40]は、モデルの効率性と訓練時間の短縮に重点を置きながら、2D空間で効率的に画像をエンコードすることで、画像再構成において有望な結果を示している。さらに、MiraGe表現[33]は、2D画像の現実的な修正を生成することの実現可能性を実証している。

2D画像と同様に、INRは動画の連続的な表現を生成する[5]。このような場合、ニューラルネットワークはピクセル座標と時間フレームをRGB色に変換する。このようなモデルは良好な再構成品質と圧縮率を提供する。しかし残念ながら、INRは最終的に動画の編集に失敗した。 このような問題を解決するために、我々はガウシアンスプラッティングソリューションを使用することができる。ビデオガウシアン表現(VGR)[29]は、正規位置にガウシアンを使用し、各時間フレームにそのようなガウシアンを転送する変形関数を用いる。このモデルは、動画編集などの様々な動画処理タスクを処理することができる。それにもかかわらず、これらの変更は線形変換と平行移動に制限されている。

本稿では、ビデオガウシアンスプラッティング(VeGaS)モデルを紹介する。これは、3DGSアプローチが2D動画データに適用できることを示すものである。特に、動画フレームは3D空間内の平行平面として扱われ、3Dガウシアンスプラッティングが連続するフレーム間のコンテンツの遷移をモデル化するために使用される。指定された時点で3Dガウシアン成分を条件付けることにより、2Dガウシアンが選択されたフレームに合わせて調整される。我々のソリューションが古典的なガウシアンスプラッティングモデルを凌駕していることを強調することが重要である。これは、複雑な分布を統合する能力を向上させ、動画シーケンスにおける急速な変化のより正確なモデリングを可能にする。特に、我々は折り畳みガウシアン(Folded-Gaussians)を導入する。これは非線形構造をモデル化し、条件付けの後に古典的な2Dガウシアン分布を生成する関数族である。動画モデリングに3DGSフレームワークを使用することで、時間とともにほとんど静的な背景を表現する広範なガウシアンと、わずか数フレームにのみ存在する要素を表現する短期的なガウシアンの両方を利用できることに注目すべきである。さらに、VeGaSはMiraGeベースの表現を使用して個々のフレームをモデル化する。これにより、動画全体と選択されたフレームの両方を修正することができ、図2に示すように高品質のレンダリングが可能となる。

以下は、我々の重要な貢献の包括的な説明である:

  • 我々は、非線形構造をモデル化し、3Dガウシアンスプラッティングフレームワークに容易に組み込むことができる新しい関数族である折り畳みガウス分布(Folded-Gaussians)を導入する。

  • 我々は、折り畳みガウス分布を使用して2D動画データを処理することを可能にするVeGaSモデルを提案する。

  • 我々は、再構成タスクにおけるVeGaSの優位性を実証し、動画データの現実的な修正を生成する効率性を示す実験を行う。

Vanishing  Original  Multiplication  Original  Scale  Original

Refer to caption
図2: 動画編集。VeGaSは、乗算やスケーリングなどの操作を含む、選択されたオブジェクトのグローバルな修正を可能にすることに注目されたい。このモデルはDAVISデータセット[25]で訓練された。

2 Related Works

動画を層状の表現に分解することで、高度な動画編集技術の利用が可能となる。[12]では、著者らは画像をテクスチャ層に分解し、対応する変形場を学習することで、効率的な動画編集を可能にしている。[38]で概説されている手法は、動画を個別の動きグループに分割し、各グループをMLPベースの表現で駆動する。INVE [9]は、長時間にわたる広範な動画追跡と編集を可能にするために双方向ワーピング場を採用している。[2]では、著者らは照明と色の詳細のレンダリングを改善することを提案している。これは、追加の層と残差カラーマップを組み込むことで達成され、動画内の照明効果の表現を向上させる。CoDeF [23]は、マルチ解像度ハッシュグリッドと浅いMLPを使用して、正規画像に対するフレームごとの変形をモデル化する。このアプローチにより、正規空間での編集が可能となり、変更が動画全体に効果的に伝播される。同様の表現がGenDeF [35]で制御可能な動画の生成に使用されている。

潜在拡散モデルの生成能力は、動画編集の文脈内で様々な研究の取り組みに活用されている[26][41]では、著者らは動画再構成中にネットワークに制御信号を統合し、それによって編集プロセスを誘導している。関連する技術として、特定の編集されたキーフレームから編集された動画を生成するためのフレーム補間がある[22]。また、別の手法では、トークンマージングアプローチを採用して制御信号を組み込んでいる[18]。さらに、一部の研究では動画編集のための反転技術を調査している[17, 42]

3D Gaussian Splatting (3DGS) [13]は、3D静的シーンをガウス成分の集合を用いてモデル化する手法である。最近、動的シーンの表現のための多くの一般化が提案されている。[21]では、著者らはマルチビューの動的データセットと増分的なフレームベースの戦略を採用している。しかしながら、この手法はフレーム間の相関を考慮しておらず、長時間のシーケンスに対して相当量の記憶領域を必要とする。[37, 15]で提示されたアプローチは、ガウス分布の時間的変化を表現するためにMLPを使用している。対照的に、[36]では、著者らはMLPと分解された神経ボクセルエンコーディング技術を組み合わせて、トレーニングと記憶効率を向上させている。[20]では、動的シーンを動的セグメントと静的セグメントに分割し、それらを独立に最適化した後、結合してデカップリングを促進している。他の研究では、外部の事前知識を組み込むことで動的シーンの再構成を改善しようとしている。例えば、拡散事前分布が最適化プロセスにおいて効果的な正則化項として機能することが示されている[39][6]では、著者らは4DRotorGSを提案しており、これは4次元ガウス分布を使用し、第4次元を時間に割り当てている。

Refer to caption
Refer to caption
Refer to caption
Refer to caption

f(x)=0𝑓𝑥0f(x)=0italic_f ( italic_x ) = 0 f(x)=x𝑓𝑥𝑥f(x)=-xitalic_f ( italic_x ) = - italic_x f(x)=x2𝑓𝑥superscript𝑥2f(x)=x^{2}italic_f ( italic_x ) = italic_x start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT f(x)=x3𝑓𝑥superscript𝑥3f(x)=x^{3}italic_f ( italic_x ) = italic_x start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT

図3: 折り畳みガウス分布は、線形および非線形パターンの両方を捉えることができる。条件付き分布(赤で示されている)が古典的なガウス分布であることを強調することが重要である。

さらに、3DGSは基礎となるメッシュに基づいてシーンジオメトリを修正するために使用された。[7]では、3Dガウシアンを明示的なメッシュ上に配置することで、メッシュレンダリングを利用して適応的な精緻化を促進することが可能となる。この手法は抽出されたメッシュをプロキシとして使用することに依存しているため、メッシュ抽出プロセスが失敗した場合には機能しない。一方、[8]では、3DGS表現から明示的なメッシュが導出され、これは表面上でガウシアンを正則化することによって行われる。この過程は、大規模な最適化と精緻化フェーズを含み、特に計算資源を多く必要とする。別の例として、[10]では、3Dシーンダイナミクスにスパースな制御点が使用されている。しかし、この手法は広範な編集移動に困難を伴い、正確な静的ノードの選択を必要とする。一方、GaMeS [32]は3DGSとメッシュ抽出を統合しているが、この手法は静的なシーンにのみ有効である。対照的に、D-MiSo [31]はメッシュベースのアプローチであり、動的なシーン用に特別に設計されており、シンプルな3DGS技術パイプラインを採用して動的シーンのリアルタイム編集を可能にしている。

[29]において、著者らはビデオガウシアン表現(VGR)を導入している。これは3Dガウシアンスプラッティングを用いてビデオデータをモデル化するものである。このアプローチは我々のものと密接に関連しており、したがってVeGaSモデルにとって最も合理的なベースラインとなる。VGRは正規位置にあるガウシアンを使用し、それらを各フレームの出現時間に転送し、変形関数を適用する。このモデルはビデオ編集などの様々なビデオ処理タスクを扱うことができる。しかしながら、可能な変更は線形変換と平行移動に限定されており、これは我々の提案するソリューションと比較して制限となっている。

3 Folded-Gaussians

本節では、折り畳みガウス分布の概念を導入する。これは、非線形構造を捉えるために古典的なガウス分布を一般化したものとみなすことができる。折り畳みガウス分布は、我々が動画データの表現に更に活用する新しい分布族であることに注意されたい(次節参照)。したがって、この関係性を強調するために、時空間変数の概念に基づいた用語を用いる。各動画は離散的な時点で連続的に発生するフレームの系列とみなすことができるためである。読者の便宜のため、我々はまず単純な2次元のおもちゃの例から始め、その後多次元の場合へと説明を拡張する。

Toy Example in 2superscript2\mathbb{R}^{2}blackboard_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT

我々のトイ例は、空間時間ランダム変数x=(s,t)×x𝑠𝑡\mathrm{x}=(s,t)\in\mathbb{R}\times\mathbb{R}roman_x = ( italic_s , italic_t ) ∈ blackboard_R × blackboard_Rの2次元ガウス分布𝒩(m,Σ)𝒩mΣ\mathcal{N}(\mathrm{m},\Sigma)caligraphic_N ( roman_m , roman_Σ )から始まる。これは平均ベクトルm=(ms,mt)msubscript𝑚𝑠subscript𝑚𝑡\mathrm{m}=(m_{s},m_{t})roman_m = ( italic_m start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT , italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )と共分散行列によって与えられる。

Σ=[σs200σt2].Σmatrixsuperscriptsubscript𝜎𝑠200superscriptsubscript𝜎𝑡2\Sigma=\begin{bmatrix}\sigma_{s}^{2}&0\\ 0&\sigma_{t}^{2}\end{bmatrix}.roman_Σ = [ start_ARG start_ROW start_CELL italic_σ start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_CELL start_CELL 0 end_CELL end_ROW start_ROW start_CELL 0 end_CELL start_CELL italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_CELL end_ROW end_ARG ] . (1)

この場合、密度関数は以下の式で定義される:

N(m,Σ)(x)=N(ms,σs2)(s)N(mt,σt2)(t),𝑁mΣx𝑁subscript𝑚𝑠superscriptsubscript𝜎𝑠2𝑠𝑁subscript𝑚𝑡superscriptsubscript𝜎𝑡2𝑡N(\mathrm{m},\Sigma)(\mathrm{x})=N(m_{s},\sigma_{s}^{2})(s)\cdot N(m_{t},% \sigma_{t}^{2})(t),italic_N ( roman_m , roman_Σ ) ( roman_x ) = italic_N ( italic_m start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT , italic_σ start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ( italic_s ) ⋅ italic_N ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ( italic_t ) , (2)

ここで、

N(m,σ2)(x)=12πσexp(|xm|22σ2).𝑁𝑚superscript𝜎2𝑥12𝜋𝜎superscript𝑥𝑚22superscript𝜎2N(m,\sigma^{2})(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{|x-m|^{2}}{2% \sigma^{2}}\right).italic_N ( italic_m , italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ( italic_x ) = divide start_ARG 1 end_ARG start_ARG square-root start_ARG 2 italic_π end_ARG italic_σ end_ARG roman_exp ( - divide start_ARG | italic_x - italic_m | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG 2 italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG ) . (3)

このような分布を用いることで、座標軸に沿って広がる単純な線形構造と考えられる楕円をモデル化することができる。したがって、我々は非線形パターンを扱うことができる古典的な2次元ガウス分布の一般化を提案する。具体的には、時間変数で条件付けすると、図3に示すように、任意の曲線(必ずしも線形でない)に沿って整列した1次元ガウス分布を生成する2次元分布を探求している。可能な解決策は、s|tconditional𝑠𝑡s|titalic_s | italic_tの条件付き分布がガウス分布であることを保証することである。

𝒩(ms+f(mtt),a(t)σs2),𝒩subscript𝑚𝑠𝑓subscript𝑚𝑡𝑡𝑎𝑡superscriptsubscript𝜎𝑠2\mathcal{N}(m_{s}+f(m_{t}-t),a(t)\sigma_{s}^{2}),caligraphic_N ( italic_m start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT + italic_f ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_t ) , italic_a ( italic_t ) italic_σ start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) , (4)

ここで、f::𝑓f\colon\mathbb{R}\to\mathbb{R}italic_f : blackboard_R → blackboard_Ra:[0,1]:𝑎01a\colon\mathbb{R}\to[0,1]italic_a : blackboard_R → [ 0 , 1 ]は、空間変数の望ましい時間依存シフトとリスケーリングをそれぞれ捉えるように設計された関数である。実際には、我々はf𝑓fitalic_fとして与えられた次数の多項式を使用し、a𝑎aitalic_aとして時間変数の尤度(単位区間にスケーリングされた)を使用する。すなわち、

a(t)=𝒩(mt,σt2)(t)𝒩(mt,σt2)(mt).𝑎𝑡𝒩subscript𝑚𝑡subscriptsuperscript𝜎2𝑡𝑡𝒩subscript𝑚𝑡subscriptsuperscript𝜎2𝑡subscript𝑚𝑡a(t)=\frac{\mathcal{N}(m_{t},\sigma^{2}_{t})(t)}{\mathcal{N}(m_{t},\sigma^{2}_% {t})(m_{t})}.italic_a ( italic_t ) = divide start_ARG caligraphic_N ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ( italic_t ) end_ARG start_ARG caligraphic_N ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) end_ARG . (5)

最後に、空間時間変数の結合分布を回復するために、ランダム変数の標準的な連鎖律を適用することができ、これにより以下の式で与えられる密度関数が導かれる:

𝒩(ms+f(mtt),a(t)σs2)(s|t)𝒩(mt,σt2)(t).𝒩subscript𝑚𝑠𝑓subscript𝑚𝑡𝑡𝑎𝑡superscriptsubscript𝜎𝑠2conditional𝑠𝑡𝒩subscript𝑚𝑡superscriptsubscript𝜎𝑡2𝑡\mathcal{N}(m_{s}+f(m_{t}-t),a(t)\sigma_{s}^{2})(s|t)\cdot\mathcal{N}(m_{t},% \sigma_{t}^{2})(t).caligraphic_N ( italic_m start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT + italic_f ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_t ) , italic_a ( italic_t ) italic_σ start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ( italic_s | italic_t ) ⋅ caligraphic_N ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ( italic_t ) . (6)

t𝑡titalic_tの周辺分布とs|tconditional𝑠𝑡s|titalic_s | italic_tの条件付き分布の両方がガウス分布である一方で、結果として得られる結合分布はもはやガウス分布ではないことに注意することが重要である。これは、応用面だけでなく、さらなる理論的研究のためにも興味深い対象となる。我々の貢献をより広範な文脈に適用できるようにするため、次の段落では任意の次元への議論の拡張を行う。

Folded-Gaussians in dsuperscript𝑑\mathbb{R}^{d}blackboard_R start_POSTSUPERSCRIPT italic_d end_POSTSUPERSCRIPT

我々は多変量ガウス分布𝒩(m,Σ)𝒩mΣ\mathcal{N}(\mathrm{m},\Sigma)caligraphic_N ( roman_m , roman_Σ )から始める。これは時空間ランダム変数x=(s,t)d1×xs𝑡superscript𝑑1\mathrm{x}=(\mathrm{s},t)\in\mathbb{R}^{d-1}\times\mathbb{R}roman_x = ( roman_s , italic_t ) ∈ blackboard_R start_POSTSUPERSCRIPT italic_d - 1 end_POSTSUPERSCRIPT × blackboard_Rに対して、平均ベクトルm=(ms,mt)msubscriptmssubscript𝑚𝑡\mathrm{m}=(\mathrm{m}_{\mathrm{s}},m_{t})roman_m = ( roman_m start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPT , italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )と共分散行列

Σ=[Σs00σt2],ΣmatrixsubscriptΣs00superscriptsubscript𝜎𝑡2\Sigma=\begin{bmatrix}\Sigma_{\mathrm{s}}&0\\ 0&\sigma_{t}^{2}\end{bmatrix},roman_Σ = [ start_ARG start_ROW start_CELL roman_Σ start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPT end_CELL start_CELL 0 end_CELL end_ROW start_ROW start_CELL 0 end_CELL start_CELL italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_CELL end_ROW end_ARG ] , (7)

によって定義される。ここでΣssubscriptΣs\Sigma_{\mathrm{s}}roman_Σ start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPTxx\mathrm{x}roman_xの空間成分の対角共分散行列を表す。確率密度関数(PDF)は、二つの独立した正規密度に因数分解される。すなわち、

𝒩(m,Σ)(x)=𝒩(ms,Σs)(s)𝒩(mt,σt2)(t).𝒩mΣx𝒩subscriptmssubscriptΣss𝒩subscript𝑚𝑡superscriptsubscript𝜎𝑡2𝑡\mathcal{N}(\mathrm{m},\Sigma)(\mathrm{x})=\mathcal{N}({\mathrm{m}}_{\mathrm{s% }},\Sigma_{\mathrm{s}})(\mathrm{s})\cdot\mathcal{N}(m_{t},\sigma_{t}^{2})(t).caligraphic_N ( roman_m , roman_Σ ) ( roman_x ) = caligraphic_N ( roman_m start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPT , roman_Σ start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPT ) ( roman_s ) ⋅ caligraphic_N ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ( italic_t ) . (8)

このような分布は、座標軸に沿って広がる単純な線形構造のみをモデル化することができることに注意されたい(2次元の場合の適切な例については、図3の左端の図を参照)。

前述の制限に対処するため、我々はより柔軟な表現を可能にする非自明な条件付けを導入することを提案する。具体的には、空間変数に以下の時間依存変換を適用する:

sa(t)(sms)+ms+f(mtt),s𝑎𝑡ssubscriptmssubscriptms𝑓subscript𝑚𝑡𝑡\mathrm{s}\to\sqrt{a(t)}(\mathrm{s}-\mathrm{m}_{\mathrm{s}})+\mathrm{m}_{% \mathrm{s}}+f(m_{t}-t),roman_s → square-root start_ARG italic_a ( italic_t ) end_ARG ( roman_s - roman_m start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPT ) + roman_m start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPT + italic_f ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_t ) , (9)

ここでa:(0,1]:𝑎01a\colon\mathbb{R}\to(0,1]italic_a : blackboard_R → ( 0 , 1 ]f:d1:𝑓superscript𝑑1f\colon\mathbb{R}\to\mathbb{R}^{d-1}italic_f : blackboard_R → blackboard_R start_POSTSUPERSCRIPT italic_d - 1 end_POSTSUPERSCRIPTは適切に選択された関数である。これにより、条件付き正規密度を持つ新しい空間変数が得られる:

𝒩(ms|t,Σs|t,a,f)(s|t)=𝒩(ms+f(mtt),a(t)Σs)(s|t),𝒩subscriptmconditional𝑠𝑡subscriptΣconditional𝑠𝑡𝑎𝑓|s𝑡𝒩subscriptms𝑓subscript𝑚𝑡𝑡𝑎𝑡subscriptΣsconditionals𝑡\begin{split}\mathcal{N}(\mathrm{m}_{s|t},\Sigma_{s|t},&a,f)(\mathrm{s}|t)=\\ &\mathcal{N}(\mathrm{m}_{\mathrm{s}}+f(m_{t}-t),a(t)\Sigma_{\mathrm{s}})(% \mathrm{s}|t),\end{split}start_ROW start_CELL caligraphic_N ( roman_m start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , roman_Σ start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , end_CELL start_CELL italic_a , italic_f ) ( roman_s | italic_t ) = end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL caligraphic_N ( roman_m start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPT + italic_f ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_t ) , italic_a ( italic_t ) roman_Σ start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPT ) ( roman_s | italic_t ) , end_CELL end_ROW (10)

これは次のPDFで定義される新しい折り畳みガウス分布を生み出す11この場合、ランダム変数に対する標準的な連鎖律を使用していることに注意。

𝒩(m,Σ,a,f)(x)=𝒩(ms|t,Σs|t,a,f)(s|t)𝒩(mt,σt2)(t),𝒩mΣ𝑎𝑓x𝒩subscriptmconditional𝑠𝑡subscriptΣconditional𝑠𝑡𝑎𝑓conditional𝑠𝑡𝒩subscript𝑚𝑡superscriptsubscript𝜎𝑡2𝑡\begin{split}\mathcal{FN}(\mathrm{m},&\Sigma,a,f)(\mathrm{x})=\\ &\mathcal{N}(\mathrm{m}_{s|t},\Sigma_{s|t},a,f)(s|t)\cdot\mathcal{N}(m_{t},% \sigma_{t}^{2})(t),\end{split}start_ROW start_CELL caligraphic_F caligraphic_N ( roman_m , end_CELL start_CELL roman_Σ , italic_a , italic_f ) ( roman_x ) = end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL caligraphic_N ( roman_m start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , roman_Σ start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , italic_a , italic_f ) ( italic_s | italic_t ) ⋅ caligraphic_N ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ( italic_t ) , end_CELL end_ROW (11)

ここでs|tconditionals𝑡\mathrm{s}|troman_s | italic_tは新しい時間条件付き空間ランダム変数を表し、x=(s|t,t)xconditionals𝑡𝑡\mathrm{x}=(\mathrm{s}|t,t)roman_x = ( roman_s | italic_t , italic_t )(混乱を避けるため表記は変更しない)。折り畳みガウス分布の顕著な利点は、データに存在する様々な関係を効果的に捉えることができる点である。これは、関数f𝑓fitalic_fa𝑎aitalic_aの選択に固有の柔軟性によるものである。VeGaSモデルの文脈では、多項式関数f𝑓fitalic_f(訓練された係数を持つ)が尤度ベースの関数a𝑎aitalic_a(式5のように)と組み合わせて使用される。結果として、我々のアプローチは線形および非線形パターンの両方を包含することができる。これは図3に示されており、2次元分布の簡略化されたケースを参照している。さらに、尤度ベースの時間依存スケーリングの導入により、折り畳みガウス分布の裾が消失し、ビデオストリームの一部にのみ存在する要素の捕捉が容易になる(最適なシナリオでは、これらの要素が最初にカメラに近づき、その後視界から遠ざかる)。

以下の段落では、折り畳みガウス分布に関するさらなる理論的洞察を提供し、式(10)および(11)を裏付ける形式的な議論を含む。

Theoretical Study

まず、方程式(9)で与えられる変換がアフィン形式As+b𝐴s𝑏A\mathrm{s}+bitalic_A roman_s + italic_bであることに注目すべきである。その結果、確率変数s|tconditional𝑠𝑡s|titalic_s | italic_tの分布もまたパラメータAms+b𝐴subscriptm𝑠𝑏A\mathrm{m}_{s}+bitalic_A roman_m start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT + italic_bおよびAΣsAT𝐴subscriptΣ𝑠superscript𝐴𝑇A\Sigma_{s}A^{T}italic_A roman_Σ start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT italic_A start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPTを持つガウス分布となる。我々の場合、以下のようになる:

A=a(t)Id,b=(1a(t))ms+f(mtt),formulae-sequence𝐴𝑎𝑡subscript𝐼𝑑b1𝑎𝑡subscriptms𝑓subscript𝑚𝑡𝑡A=\sqrt{a(t)}I_{d},\;\mathrm{b}=\left(1-\sqrt{a(t)}\right)\mathrm{m}_{\mathrm{% s}}+f(m_{t}-t),italic_A = square-root start_ARG italic_a ( italic_t ) end_ARG italic_I start_POSTSUBSCRIPT italic_d end_POSTSUBSCRIPT , roman_b = ( 1 - square-root start_ARG italic_a ( italic_t ) end_ARG ) roman_m start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPT + italic_f ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_t ) , (12)

したがって、以下のように結論付けることができる:

s|t𝒩(ms+f(mtt),a(t)Σs),similar-toconditionals𝑡𝒩subscriptms𝑓subscript𝑚𝑡𝑡𝑎𝑡subscriptΣs\mathrm{s}|t\sim\mathcal{N}(\mathrm{m}_{\mathrm{s}}+f(m_{t}-t),a(t)\Sigma_{% \mathrm{s}}),roman_s | italic_t ∼ caligraphic_N ( roman_m start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPT + italic_f ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_t ) , italic_a ( italic_t ) roman_Σ start_POSTSUBSCRIPT roman_s end_POSTSUBSCRIPT ) , (13)

これは方程式(10)で主張されたことを正当化する。 さらに、方程式(11)で与えられた折り畳みガウス分布の定義の正確性について、以下の計算を通じて直接的な評価を行うことができる:

𝒩(m,Σ,a,f)(x)𝑑x=(𝒩(ms|t,Σs|t,a,f)(s|t)𝑑s|t)𝒩(mt,σt2)(t)𝑑t=𝒩(mt,σt2)(t)𝑑t=1.𝒩mΣ𝑎𝑓xdifferential-d𝑥conditional𝒩subscriptmconditional𝑠𝑡subscriptΣconditional𝑠𝑡𝑎𝑓conditionals𝑡differential-d𝑠𝑡𝒩subscript𝑚𝑡superscriptsubscript𝜎𝑡2𝑡differential-d𝑡𝒩subscript𝑚𝑡superscriptsubscript𝜎𝑡2𝑡differential-d𝑡1\begin{split}&\!\!\!\!\!\int\mathcal{FN}(\mathrm{m},\Sigma,a,f)(\mathrm{x})dx=% \\ &\!\!\!\!\!\int\left(\int\mathcal{N}(\mathrm{m}_{s|t},\Sigma_{s|t},a,f)(% \mathrm{s}|t)ds|t\right)\mathcal{N}(m_{t},\sigma_{t}^{2})(t)dt\\ &\!\!\!\!\!=\int\mathcal{N}(m_{t},\sigma_{t}^{2})(t)dt=1.\end{split}start_ROW start_CELL end_CELL start_CELL ∫ caligraphic_F caligraphic_N ( roman_m , roman_Σ , italic_a , italic_f ) ( roman_x ) italic_d italic_x = end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL ∫ ( ∫ caligraphic_N ( roman_m start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , roman_Σ start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , italic_a , italic_f ) ( roman_s | italic_t ) italic_d italic_s | italic_t ) caligraphic_N ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ( italic_t ) italic_d italic_t end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL = ∫ caligraphic_N ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ( italic_t ) italic_d italic_t = 1 . end_CELL end_ROW (14)

同様に、方程式(10)に基づいて、確率変数s|tconditionals𝑡\mathrm{s}|troman_s | italic_tの条件付き分布のPDFは以下のように計算できる:

𝒩(m,Σ,a,f)(s|t,t)𝒩(m,Σ,a,f)(s|t,t)𝑑s=𝒩(mt,σt2)(t)𝒩(ms|t,Σs|t,a,f)(s|t)𝒩(mt,σt2)(t)𝒩(ms|t,Σs|t,a,f)(s|t)𝑑s|t=𝒩(ms|t,Σs|t,a,f)(s|t),𝒩mΣ𝑎𝑓conditionals𝑡𝑡𝒩mΣ𝑎𝑓conditionals𝑡𝑡differential-d𝑠𝒩subscript𝑚𝑡subscriptsuperscript𝜎2𝑡𝑡𝒩subscriptmconditional𝑠𝑡subscriptΣconditional𝑠𝑡𝑎𝑓conditionals𝑡conditional𝒩subscript𝑚𝑡superscriptsubscript𝜎𝑡2𝑡𝒩subscriptmconditional𝑠𝑡subscriptΣconditional𝑠𝑡𝑎𝑓conditionals𝑡differential-d𝑠𝑡𝒩subscriptmconditional𝑠𝑡subscriptΣconditional𝑠𝑡𝑎𝑓conditional𝑠𝑡\begin{split}&\frac{\mathcal{FN}(\mathrm{m},\Sigma,a,f)(\mathrm{s}|t,t)}{\int% \mathcal{FN}(\mathrm{m},\Sigma,a,f)(\mathrm{s}|t,t)ds}=\\ &\frac{\mathcal{N}(m_{t},\sigma^{2}_{t})(t)\cdot\mathcal{N}(\mathrm{m}_{s|t},% \Sigma_{s|t},a,f)(\mathrm{s}|t)}{\mathcal{N}(m_{t},\sigma_{t}^{2})(t)\cdot\int% \mathcal{N}(\mathrm{m}_{s|t},\Sigma_{s|t},a,f)(\mathrm{s}|t)ds|t}\\ &=\mathcal{N}(\mathrm{m}_{s|t},\Sigma_{s|t},a,f)(s|t),\end{split}start_ROW start_CELL end_CELL start_CELL divide start_ARG caligraphic_F caligraphic_N ( roman_m , roman_Σ , italic_a , italic_f ) ( roman_s | italic_t , italic_t ) end_ARG start_ARG ∫ caligraphic_F caligraphic_N ( roman_m , roman_Σ , italic_a , italic_f ) ( roman_s | italic_t , italic_t ) italic_d italic_s end_ARG = end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL divide start_ARG caligraphic_N ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) ( italic_t ) ⋅ caligraphic_N ( roman_m start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , roman_Σ start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , italic_a , italic_f ) ( roman_s | italic_t ) end_ARG start_ARG caligraphic_N ( italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) ( italic_t ) ⋅ ∫ caligraphic_N ( roman_m start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , roman_Σ start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , italic_a , italic_f ) ( roman_s | italic_t ) italic_d italic_s | italic_t end_ARG end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL = caligraphic_N ( roman_m start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , roman_Σ start_POSTSUBSCRIPT italic_s | italic_t end_POSTSUBSCRIPT , italic_a , italic_f ) ( italic_s | italic_t ) , end_CELL end_ROW (15)

これは我々の先の主張を裏付けるものである。

4 Video Gaussian Splatting

本節では、我々のビデオガウシアンスプラッティング (VeGaS) モデルを紹介する。まず、3Dガウシアンスプラッティング (3DGS) [13] 手法の概要を簡単に説明し、次に2D画像に対するMiraGe [33] アプローチについて述べる。同時に、我々が提案する解決策への直接的な統合を容易にするよう説明を調整する。最後に、VeGaSモデルの詳細な説明で本節を締めくくる。

3D Gaussian Splatting

3Dガウシアンスプラッティング (3DGS) [13] 手法は、三次元ガウス分布の集合を使用する

𝒢3DGS={(𝒩(m,Σ),ρ,c)},subscript𝒢3DGS𝒩mΣ𝜌𝑐\mathcal{G}_{\text{3DGS}}=\{(\mathcal{N}(\mathrm{m},\Sigma),\rho,c)\},caligraphic_G start_POSTSUBSCRIPT 3DGS end_POSTSUBSCRIPT = { ( caligraphic_N ( roman_m , roman_Σ ) , italic_ρ , italic_c ) } , (16)

これらは位置(平均)mm\mathrm{m}roman_m、共分散行列 ΣΣ\Sigmaroman_Σ、不透明度 ρ𝜌\rhoitalic_ρ、色 c𝑐citalic_c を含む一連の属性によって特徴付けられる。実際には、共分散行列 ΣΣ\Sigmaroman_Σ は以下のように因数分解される Σ=RSSRT,Σ𝑅𝑆𝑆superscript𝑅𝑇\Sigma=RSSR^{T},roman_Σ = italic_R italic_S italic_S italic_R start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT , ここで、R𝑅Ritalic_R は回転行列であり、S𝑆Sitalic_S はスケーリングパラメータを含む対角行列である。したがって、N(m,Σ)𝑁mΣN(\mathrm{m},\Sigma)italic_N ( roman_m , roman_Σ ) の代わりに N(m,R,S)𝑁m𝑅𝑆N(\mathrm{m},R,S)italic_N ( roman_m , italic_R , italic_S ) という表記を使用することも可能である。

3DGS技術の効率性は、主に3Dガウス分布を二次元空間に投影するレンダリングプロセスに起因する。 トレーニングプロセス全体を通じて、すべてのパラメータは平均二乗誤差(MSE)コスト関数に従って最適化される。このような手順はしばしば局所的最小値をもたらすため、3DGSは提案されたヒューリスティックに基づいて、コンポーネントの作成、削除、再配置を含む補助的なトレーニング方法を採用することができる。これは高速かつ効果的な戦略である。さらに、GSトレーニングプロセスはCUDAカーネル内で実行され、迅速なトレーニングとリアルタイムレンダリングを可能にしている。

Gaussian Spatting for 2D images

MiraGeアプローチ[33]は、2D画像に対応するために3DGS技術を採用している。これは、正準ベクトルe1=(1,0,0)subscripte1100\mathrm{e}_{1}=(1,0,0)roman_e start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = ( 1 , 0 , 0 )e2=(0,1,0)subscripte2010\mathrm{e}_{2}=(0,1,0)roman_e start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = ( 0 , 1 , 0 )が張る平面上に配置された平坦なガウシアンを使用することで実現され、特定のタイプのパラメータ化をもたらす。本質的に、この方法は以下の形式の3Dガウシアン成分の族を扱う。

𝒢MiraGe={(𝒩(m,R,S),ρ,c)},subscript𝒢MiraGe𝒩m𝑅𝑆𝜌𝑐\mathcal{G}_{\text{MiraGe}}=\{(\mathcal{N}(\mathrm{m},R,S),\rho,c)\},caligraphic_G start_POSTSUBSCRIPT MiraGe end_POSTSUBSCRIPT = { ( caligraphic_N ( roman_m , italic_R , italic_S ) , italic_ρ , italic_c ) } , (17)

ここで、m=(m1,m2,0)msubscript𝑚1subscript𝑚20\mathrm{m}=(m_{1},m_{2},0)roman_m = ( italic_m start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_m start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , 0 )S=diag(s1,s2,ε)𝑆diagsubscript𝑠1subscript𝑠2𝜀S=\mathrm{diag}(s_{1},s_{2},\varepsilon)italic_S = roman_diag ( italic_s start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_s start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_ε )、そして

R=[r1,r2,e3]=[cosθsinθ0sinθcosθ0001].𝑅subscriptr1subscriptr2subscripte3matrix𝜃𝜃0𝜃𝜃0001R=[\mathrm{r}_{1},\mathrm{r}_{2},\mathrm{e}_{3}]=\begin{bmatrix}\cos{\theta}&-% \sin{\theta}&0\\ \sin{\theta}&\cos{\theta}&0\\ 0&0&1\end{bmatrix}.italic_R = [ roman_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , roman_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , roman_e start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT ] = [ start_ARG start_ROW start_CELL roman_cos italic_θ end_CELL start_CELL - roman_sin italic_θ end_CELL start_CELL 0 end_CELL end_ROW start_ROW start_CELL roman_sin italic_θ end_CELL start_CELL roman_cos italic_θ end_CELL start_CELL 0 end_CELL end_ROW start_ROW start_CELL 0 end_CELL start_CELL 0 end_CELL start_CELL 1 end_CELL end_ROW end_ARG ] . (18)

ε𝜀\varepsilonitalic_εは3次元フレームワークとの互換性を確保するための小さな正の定数である。)その後、GaMeSモデル[32]によって提案されたパラメータ化を利用して、このような平坦なガウシアンは3点(三角形の面)で表現できる。

V=[m,v1,v2]=𝒯(m,R,S),𝑉msubscriptv1subscriptv2𝒯m𝑅𝑆V=[\mathrm{m},\mathrm{v}_{1},\mathrm{v}_{2}]=\mathcal{T}(\mathrm{m},R,S),italic_V = [ roman_m , roman_v start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , roman_v start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ] = caligraphic_T ( roman_m , italic_R , italic_S ) , (19)

頂点は以下のように定義される。 v1=m+s1r1subscriptv1msubscript𝑠1subscriptr1\mathrm{v}_{1}=\mathrm{m}+s_{1}\mathrm{r}_{1}roman_v start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = roman_m + italic_s start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT roman_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT、およびv2=m+s2r2subscriptv2msubscript𝑠2subscriptr2\mathrm{v}_{2}=\mathrm{m}+s_{2}\mathrm{r}_{2}roman_v start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = roman_m + italic_s start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT roman_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT。一方、面表現V=[m,v1,v2]𝑉msubscriptv1subscriptv2V=[\mathrm{m},\mathrm{v}_{1},\mathrm{v}_{2}]italic_V = [ roman_m , roman_v start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , roman_v start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ]が与えられた場合、ガウシアン成分

𝒩(m,R,S)=𝒩(𝒯1(V))𝒩m𝑅𝑆𝒩superscript𝒯1𝑉\mathcal{N}(\mathrm{m},R,S)=\mathcal{N}(\mathcal{T}^{-1}(V))caligraphic_N ( roman_m , italic_R , italic_S ) = caligraphic_N ( caligraphic_T start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ( italic_V ) ) (20)

は平均mm\mathrm{m}roman_m、回転行列R=[r1,r2,e3]𝑅subscriptr1subscriptr2subscripte3R=[\mathrm{r}_{1},\mathrm{r}_{2},\mathrm{e}_{3}]italic_R = [ roman_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , roman_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , roman_e start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT ]、およびスケーリング行列S=diag(s1,s2,ε)𝑆diagsubscript𝑠1subscript𝑠2𝜀S=\mathrm{diag}(s_{1},s_{2},\varepsilon)italic_S = roman_diag ( italic_s start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_s start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_ε )を通じて再構築できる。ここで、パラメータは以下の式によって定義される:

r1=v1mv1m,r2=orth(v2m;r1,e2),formulae-sequencesubscriptr1subscriptv1mnormsubscriptv1msubscriptr2orthsubscriptv2msubscriptr1subscripte2\mathrm{r}_{1}=\frac{\mathrm{v}_{1}-\mathrm{m}}{\|\mathrm{v}_{1}-\mathrm{m}\|}% ,\;\;\mathrm{r}_{2}=\mathrm{orth}(\mathrm{v}_{2}-\mathrm{m};\mathrm{r}_{1},% \mathrm{e}_{2}),roman_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = divide start_ARG roman_v start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT - roman_m end_ARG start_ARG ∥ roman_v start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT - roman_m ∥ end_ARG , roman_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = roman_orth ( roman_v start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT - roman_m ; roman_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , roman_e start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) , (21)
s1=v1m,s2=v2m,r2.formulae-sequencesubscripts1normsubscriptv1msubscript𝑠2subscriptv2msubscriptr2\mathrm{s}_{1}=\|\mathrm{v}_{1}-\mathrm{m}\|,\;\;s_{2}=\langle\mathrm{v}_{2}-% \mathrm{m},\mathrm{r}_{2}\rangle.roman_s start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = ∥ roman_v start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT - roman_m ∥ , italic_s start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = ⟨ roman_v start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT - roman_m , roman_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ⟩ . (22)

この文脈において、orth()orth\mathrm{orth}(\cdot)roman_orth ( ⋅ )はグラム・シュミット過程[1]の1回の反復を表す。我々は、上記の式が我々のフレームワークに合わせて調整されており、したがって[32, 33]で提供されているものとわずかに異なる可能性があることを強調したい。

GaMeSパラメータ化の使用により、基礎となる三角形の面を変更することで、ガウシアンの位置、スケール、および回転を修正することが可能となる。さらに、MiraGe拡張により、2D画像を3D空間内で操作することが可能となり、それによって3次元効果の錯覚を生み出すことができる。

Refer to caption
図4: ビデオ編集。VeGaSは単一のフレームを選択し、その一部の要素を修正することを可能にすることに注意されたい。このモデルはDAVISデータセット[25]で訓練された。

Video Gaussian Splatting

単位区間[0,1]01[0,1][ 0 , 1 ]にスケーリングされた発生時間によってインデックス付けされたフレームのシーケンス[It1,,Itn]subscript𝐼subscript𝑡1subscript𝐼subscript𝑡𝑛[I_{t_{1}},\ldots,I_{t_{n}}][ italic_I start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUBSCRIPT , … , italic_I start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUBSCRIPT ]からなるビデオを考える。この文脈において、MiraGeモデルは各連続フレームに対して適用可能である。なぜなら、各フレームは個別の2D画像として扱うことができるからである。結果として、これは3Dガウス分布の結合族をもたらす

𝒢MiraGet1𝒢MiraGetn,superscriptsubscript𝒢MiraGesubscript𝑡1superscriptsubscript𝒢MiraGesubscript𝑡𝑛\mathcal{G}_{\text{MiraGe}}^{t_{1}}\cup\ldots\cup\mathcal{G}_{\text{MiraGe}}^{% t_{n}},caligraphic_G start_POSTSUBSCRIPT MiraGe end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUPERSCRIPT ∪ … ∪ caligraphic_G start_POSTSUBSCRIPT MiraGe end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , (23)

ここで、各𝒢MiraGetisuperscriptsubscript𝒢MiraGesubscript𝑡𝑖\mathcal{G}_{\text{MiraGe}}^{t_{i}}caligraphic_G start_POSTSUBSCRIPT MiraGe end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPTは式(17)によって与えられ、これはデータ全体の適切な表現と考えることができる。しかしながら、このようなアプローチはビデオストリーム内に自然に存在する関係性を完全に無視している。

前述の制限を克服するために、我々は連続するフレームに関連するガウス分布を、フレーム発生時間における対応する3次元折り畳みガウス分布の条件付けによって構築することを提案する。結果として得られるビデオガウシアンスプラッティング(VeGaS)モデルは、したがって形式的に3D折り畳みガウス分布の集合として定義される

𝒢VeGaS={(𝒩(m,Σ,a,f),ρ,c)},subscript𝒢VeGaS𝒩mΣ𝑎𝑓𝜌𝑐\mathcal{G}_{\text{VeGaS{}}}=\{(\mathcal{FN}(\mathrm{m},\Sigma,a,f),\rho,c)\},caligraphic_G start_POSTSUBSCRIPT VeGaS end_POSTSUBSCRIPT = { ( caligraphic_F caligraphic_N ( roman_m , roman_Σ , italic_a , italic_f ) , italic_ρ , italic_c ) } , (24)

ここで、各成分について、2次元条件付き分布の周りの3次元拡張(前段落参照)

𝒩(ms|t1,Σs|t1,a,f),,𝒩(ms|tn,Σs|tn,a,f)𝒩subscriptmconditional𝑠subscript𝑡1subscriptΣconditional𝑠subscript𝑡1𝑎𝑓𝒩subscriptmconditional𝑠subscript𝑡𝑛subscriptΣconditional𝑠subscript𝑡𝑛𝑎𝑓\mathcal{N}(\mathrm{m}_{s|t_{1}},\Sigma_{s|t_{1}},a,f),\ldots,\mathcal{N}(% \mathrm{m}_{s|t_{n}},\Sigma_{s|t_{n}},a,f)caligraphic_N ( roman_m start_POSTSUBSCRIPT italic_s | italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUBSCRIPT , roman_Σ start_POSTSUBSCRIPT italic_s | italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUBSCRIPT , italic_a , italic_f ) , … , caligraphic_N ( roman_m start_POSTSUBSCRIPT italic_s | italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUBSCRIPT , roman_Σ start_POSTSUBSCRIPT italic_s | italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUBSCRIPT , italic_a , italic_f ) (25)

は、共通の不透明度ρ𝜌\rhoitalic_ρと色c𝑐citalic_cに関して、式(10)を用いて構築される。

我々の手法が固定されたフレーム発生時間t1,t2,,tnsubscript𝑡1subscript𝑡2subscript𝑡𝑛t_{1},t_{2},\ldots,t_{n}italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_t start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPTを使用せず、優れた再構成品質を保証する最適化手順を通じてそれらを学習することを強調することが重要である。具体的には、我々は動的フレームフィッティング関数ft:+[0,1]:subscript𝑓𝑡subscript01f_{t}\colon\mathbb{Z}_{+}\to[0,1]italic_f start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT : blackboard_Z start_POSTSUBSCRIPT + end_POSTSUBSCRIPT → [ 0 , 1 ]を使用する。これはフレーム番号k𝑘kitalic_kをそのスケーリングされた発生時間tksubscript𝑡𝑘t_{k}italic_t start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPTに以下のようにマッピングする

tk=ft(k)=i=1kσ(w)i=i=1kewij=1n1ewj,subscript𝑡𝑘subscript𝑓𝑡𝑘superscriptsubscript𝑖1𝑘𝜎subscript𝑤𝑖superscriptsubscript𝑖1𝑘superscript𝑒subscript𝑤𝑖superscriptsubscript𝑗1𝑛1superscript𝑒subscript𝑤𝑗t_{k}=f_{t}(k)=\sum_{i=1}^{k}\sigma{(w)}_{i}=\sum_{i=1}^{k}\frac{e^{w_{i}}}{% \sum_{j=1}^{n-1}e^{w_{j}}},italic_t start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT = italic_f start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ( italic_k ) = ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_k end_POSTSUPERSCRIPT italic_σ ( italic_w ) start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_k end_POSTSUPERSCRIPT divide start_ARG italic_e start_POSTSUPERSCRIPT italic_w start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPT end_ARG start_ARG ∑ start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n - 1 end_POSTSUPERSCRIPT italic_e start_POSTSUPERSCRIPT italic_w start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT end_POSTSUPERSCRIPT end_ARG , (26)

ここで、w1,w2,,wn1subscript𝑤1subscript𝑤2subscript𝑤𝑛1w_{1},w_{2},...,w_{n-1}italic_w start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_w start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_w start_POSTSUBSCRIPT italic_n - 1 end_POSTSUBSCRIPTは訓練可能なパラメータである。(Iksubscript𝐼𝑘I_{k}italic_I start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPTIk+1subscript𝐼𝑘1I_{k+1}italic_I start_POSTSUBSCRIPT italic_k + 1 end_POSTSUBSCRIPTの間の補間されたフレームについては、tksubscript𝑡𝑘t_{k}italic_t start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPTtk+1subscript𝑡𝑘1t_{k+1}italic_t start_POSTSUBSCRIPT italic_k + 1 end_POSTSUBSCRIPTの間で均等に間隔を置いた時間を使用する)。 さらに、VeGaSモデルでは2種類の空間分布を扱っていることに注意すべきである。まず、ビデオストリームのダイナミクスを表す折り畳みガウス分布がある。次に、平坦な条件付き分布を生成し、それらを小さな直交成分(ε𝜀\varepsilonitalic_εの値によって制御される)を追加することで3Dガウス分布に拡張する。この場合、2つの対向するカメラが単一の2D画像を再構成する - 1つは元の画像を生成し、もう1つはその鏡像版を生成する。

表1: フレーム再構成。 DAVISデータセット[25]からの様々なビデオを使用した、[29]で提案された評価設定におけるVeGaSモデルのパフォーマンス(PSNR指標による)。各状況において、VeGaSが最良の指標スコアを得ていることに注目されたい。
Model Bear Cows Elephant Breakdance-Flare Train Camel Kite-surf Average
Omnimotion [34] 22.96 23.93 26.59 24.45 22.85 23.98 23.72 24.07
CoDeF [23] 29.17 28.82 30.50 25.99 26.53 26.10 27.17 27.75
VGR [29] 30.17 28.24 29.82 27.18 28.09 27.74 27.82 28.44
VeGaS-Full (our) 31.79 27.64 30.93 29.37 31.20 30.76 35.84 31.08
VeGaS-480p (our) 33.23 30.27 33.28 33.19 32.86 32.23 38.23 33.31

5 Experiments

本節では、VeGaSモデルの様々な設定における広範な実験研究を紹介し、多様な最先端のソリューションと比較してその効率性を検討する。

Refer to caption
図5: フレーム補間。 DAVISデータセット[25]から選択された動画オブジェクトに対して、VeGaSとVGR [29]によって得られた定性的結果。時刻t𝑡titalic_tt+1𝑡1t+1italic_t + 1のフレームは2つの連続する元のフレームの再構成であり、時刻t+1/4𝑡14t+1/4italic_t + 1 / 4t+2/4𝑡24t+2/4italic_t + 2 / 4、およびt+3/4𝑡34t+3/4italic_t + 3 / 4のフレームは補間されたものである。VeGaSがわずかに好ましい結果を生成していることに注目されたい。
表2: フレーム再構成。 [43]で提案された設定におけるVeGaSモデルの性能を、DAVISデータセット[25]の様々な動画に対して、PSNRとSSIMメトリクスの観点から評価したもの。VeGaSがすべてのベースラインモデルを上回っていることに注目されたい。
NeRV [3] E-NeRV [19] HNeRV [4] DNeRV [43] VeGaS (our)
PSNR\uparrow SSIM\uparrow PSNR\uparrow SSIM\uparrow PSNR\uparrow SSIM\uparrow PSNR\uparrow SSIM\uparrow PSNR\uparrow SSIM\uparrow
Blackswan 28.48 0.812 29.38 0.867 30.35 0.891 30.92 0.913 34.92 0.932
Bmx-bumps 29.42 0.864 28.90 0.851 29.98 0.872 30.59 0.890 33.01 0.915
Bmx-trees 26.24 0.789 27.26 0.876 28.76 0.861 29.63 0.882 31.78 0.896
Breakdance 26.45 0.915 28.33 0.941 30.45 0.961 30.88 0.968 32.27 0.950
Camel 24.81 0.781 25.85 0.844 26.71 0.844 27.38 0.887 31.12 0.886
Car-round 24.68 0.857 26.01 0.912 27.75 0.912 29.35 0.937 32.75 0.941
Car-shadow 26.41 0.871 30.41 0.922 31.32 0.936 31.95 0.944 36.41 0.956
Car-turn 27.45 0.813 29.02 0.888 29.65 0.879 30.25 0.892 31.44 0.852
Cows 22.55 0.702 23.74 0.819 24.11 0.792 24.88 0.827 27.97 0.834
Dance-twril 25.79 0.797 27.07 0.864 28.19 0.845 29.13 0.870 30.45 0.850
Dog 28.17 0.795 30.40 0.882 30.96 0.898 31.32 0.905 34.52 0.914
Average 26.40 0.818 27.85 0.879 28.93 0.881 29.66 0.901 32.42 0.902
表3: アブレーション研究。 バッチサイズと多項式関数f𝑓fitalic_fの次数がVeGaSの性能に与える影響を、PSNRメトリクスと最終的なガウス分布の数(括弧内)の観点から示したもの。モデルはBunnyデータセット[16]で訓練された。
Polynomial degree
Batch size 1 3 5 7 9 Mean training time
1 36.73 (1.26M) 37.31 (1.77M) 37.30 (1.73M) 37.36 (1.72M) 37.42 (1.83M) 31m20s
3 38.15 (0.57M) 38.31 (0.58M) 38.39 (0.59M) 38.53 (0.62M) 38.24 (0.59M) 56m30s
5 37.84 (0.33M) 37.94 (0.32M) 37.95 (0.32M) 37.92 (0.31M) 37.94 (0.31M) 1h15m29s

Datasets

我々の手法の有効性は、Bunnyデータセット[16]とDAVISデータセット[25]の2つのデータセットで評価された。Bunnyデータセットは、720×\times×1280の解像度を持つ132フレームで構成されている。[4]で概説された仕様に従い、動画は640×\times×1280の解像度にクロップされる。DAVISデータセットは、ビデオオブジェクトセグメンテーションの目的で使用される高品質かつ高解像度の動画コレクションである。これは、それぞれ100フレーム未満の多数の動画を含んでいる。このデータセットは、フル解像度版とよりコンパクトな480p版の2つの異なるバージョンで利用可能である。

Implementation Details

初期化プロセスでは、ガウス分布の平均m1subscript𝑚1m_{1}italic_m start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTm2subscript𝑚2m_{2}italic_m start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTを、2次元のバウンディングボックス内の点として一様にサンプリングする。mtsubscript𝑚𝑡m_{t}italic_m start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTに使用される活性化関数はシグモイド関数であり、活性化プロセスから得られる値が001111の間で一様に分布するように初期化される。同様に、σtsubscript𝜎𝑡\sigma_{t}italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTの活性化関数には指数関数が使用され、初期値は0.010.010.010.011111の間で一様に分布する。多項式関数f𝑓fitalic_fの係数は11-1- 11111の間で一様にサンプリングされる。さらに、回転行列は単一の数(回転角)としてパラメータ化され、使用される活性化関数はシグモイド関数に2π2𝜋2\pi2 italic_πを乗じたものである。角度は002π2𝜋2\pi2 italic_πの間で一様に分布するように初期化される。

モデルは、特に指定がない限り、バッチサイズ3で30,000ステップ訓練され、7次の多項式関数と500,000の初期ガウス分布を使用する。 学習率、密度化、剪定、不透明度のリセット設定はすべて3DGS[13]フレームワークと一致している。MiraGeアプローチに従い、2台のカメラが使用される:最初のカメラは元の画像を生成し、2台目のカメラはその鏡像版を生成する。

Frame Reconstruction

我々は、フレーム再構成タスクにおける我々の手法の有効性を評価するために一連の実験を行った。最初の実験設定は、[29]で提案されたものを適用した。そこでは、著者らがVGRモデルを紹介し、Omnimotion [34]とCoDeF [23]という2つの最先端のベースラインと比較してその性能を評価している。表1は、DAVISデータセットの様々な動画に対するレンダリング品質メトリクスの値を示している。[29]では評価に使用された解像度に関する情報がないため、我々は両方のケースで結果を報告する。各状況において、VeGaSが最良のメトリクススコアを獲得していることに注目すべきである。さらに、我々のモデルは高品質かつ忠実に動画を再構成することが可能である。これは図6に示されており、DAVISデータセット[25]から選択されたオブジェクトに基づく可視化を提供している。

Refer to caption
図6: フレーム再構成。DAVISデータセット[25]から選択された動画オブジェクトに対するVeGaSとVGR [29]によって得られた定性的結果。下段は、真値と再構成された画像との差異を示している。VeGaSが高品質かつ忠実に動画を再構成できることに注目されたい。

他の実験では、[43]の著者らによって提案されたシーン設定を使用し、DNeRVモデルを様々なNeRFベースのベースライン、すなわち[3]、E-NeRV [19]、HNeRV [4]、およびDNeRV [43]と比較評価した。このプロトコルに従い、各シーンのフル解像度版を960×\times×1920の解像度に中央クロップした。結果(すなわち、レンダリング品質メトリクスの値)は表2に示されており、DAVISデータセットの様々な動画オブジェクトに対して得られた値を示している。VeGaSが考慮されたすべてのNeRFベースのモデルを上回っていることに注目すべきである。

表4: アブレーション研究。ガウス分布の初期数がVeGaSの性能に与える影響を、PSNRメトリクス、最終的なガウス分布の数、および訓練時間の観点から示している。モデルはBunnyデータセット[16]を用いて、バッチサイズ3、多項式次数7で訓練された。
Initial Gaussians PSNR↑ Final Gaussians Training time
0.10M 38.53 0.62M 57m00s
0.20M 38.85 0.62M 57m29s
0.30M 38.99 0.62M 58m03s
0.40M 38.96 0.64M 59m36s
0.50M 39.02 0.65M 58m58s
0.60M 38.86 0.66M 1h00m53s

Frame Interpolation

その後の実験では、我々のモデルによって提供される動画データの連続的な表現を利用して、所望のアップサンプリングレートでのフレーム補間の可能性を検討した。追加フレームを生成するために、連続する各フレームペア間で均一な間隔でFolded-Gaussiansをスライスした。図5は、DAVISデータセットから選択された動画オブジェクトに対するVeGaSとVGR [29]の結果を比較している。定性的研究により、我々の手法を用いた補間がより優れた結果をもたらすことが明らかになった。しかしながら、[29]の著者らによってVGRのソースコードが公開されていないため、それぞれのレンダリングメトリクススコアの直接比較ができないことに注意すべきである。

Video Edition

VeGaSモデルの動画データ編集における適応性を示すために、DAVISデータセットの全シーンおよび特定のオブジェクトに対して一連の実験を行った。図2および4に示された結果は、我々の手法が選択されたオブジェクトのグローバルな修正(例:乗算やスケーリング)と、単一フレームを選択してその要素の一部を修正することの両方を可能にすることを確認している。

Ablation Study

我々のアブレーション研究では、Bunnyデータセット[16]で訓練されたVeGaSモデルの異なるハイパーパラメータの影響を検討した。表3は、様々なバッチサイズと多項式関数f𝑓fitalic_fの次数に対する最終的なレンダリング品質メトリクススコアと得られたガウス分布の数を示している。一方、表4は、初期のガウス分布の数に関連して、最終的なメトリクス値、ガウス分布の数、および訓練時間を示している。観察されるように、VeGaSはバッチサイズ3、多項式次数7、0.50Mのガウス成分の初期数で適用した場合に優れた結果を達成している。

6 Conclusions

本稿では、動画処理のために設計されたVeGaSモデルを提案する。VeGaSを構築するにあたり、我々は新しい折り畳みガウス分布族を導入した。これにより、動画ストリーム内の非線形パターンを捉えることが可能となる。実施した実験の結果は、我々の手法が動画フレーム内でより優れた再構成と現実的な修正を可能にすることを示している。

References

  • Björck [1994] Ake Björck. Numerics of Gram-Schmidt orthogonalization. Linear Algebra and Its Applications, 197:297–316, 1994.
  • Chan et al. [2023] Cheng-Hung Chan, Cheng-Yang Yuan, Cheng Sun, and Hwann-Tzong Chen. Hashing neural video decomposition with multiplicative residuals in space-time. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 7743–7753, 2023.
  • Chen et al. [2021] Hao Chen, Bo He, Hanyu Wang, Yixuan Ren, Ser Nam Lim, and Abhinav Shrivastava. Nerv: Neural representations for videos. Advances in Neural Information Processing Systems, 34:21557–21568, 2021.
  • Chen et al. [2023] Hao Chen, Matthew Gwilliam, Ser-Nam Lim, and Abhinav Shrivastava. Hnerv: A hybrid neural representation for videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10270–10279, 2023.
  • Chen et al. [2022] Zeyuan Chen, Yinbo Chen, Jingwen Liu, Xingqian Xu, Vidit Goel, Zhangyang Wang, Humphrey Shi, and Xiaolong Wang. Videoinr: Learning video implicit neural representation for continuous space-time super-resolution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2047–2057, 2022.
  • Duan et al. [2024] Yuanxing Duan, Fangyin Wei, Qiyu Dai, Yuhang He, Wenzheng Chen, and Baoquan Chen. 4d-rotor gaussian splatting: towards efficient novel view synthesis for dynamic scenes. In ACM SIGGRAPH 2024 Conference Papers, pages 1–11, 2024.
  • Gao et al. [2024] Lin Gao, Jie Yang, Bo-Tao Zhang, Jia-Mu Sun, Yu-Jie Yuan, Hongbo Fu, and Yu-Kun Lai. Mesh-based gaussian splatting for real-time large-scale deformation, 2024.
  • Guédon and Lepetit [2023] Antoine Guédon and Vincent Lepetit. Sugar: Surface-aligned gaussian splatting for efficient 3d mesh reconstruction and high-quality mesh rendering. arXiv preprint arXiv:2311.12775, 2023.
  • Huang et al. [2023a] Jiahui Huang, Leonid Sigal, Kwang Moo Yi, Oliver Wang, and Joon-Young Lee. Inve: Interactive neural video editing. arXiv preprint arXiv:2307.07663, 2023a.
  • Huang et al. [2023b] Yi-Hua Huang, Yang-Tian Sun, Ziyi Yang, Xiaoyang Lyu, Yan-Pei Cao, and Xiaojuan Qi. Sc-gs: Sparse-controlled gaussian splatting for editable dynamic scenes. arXiv preprint arXiv:2312.14937, 2023b.
  • [11] Adam Kania, Artur Kasymov, Maciej Zięba, and Przemysław Spurek. Hypernerfgan: Hypernetwork approach to 3d nerf gan. arXiv preprint arXiv:2301.11631.
  • Kasten et al. [2021] Yoni Kasten, Dolev Ofri, Oliver Wang, and Tali Dekel. Layered neural atlases for consistent video editing. ACM Transactions on Graphics (TOG), 40(6):1–12, 2021.
  • Kerbl et al. [2023] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, and George Drettakis. 3d gaussian splatting for real-time radiance field rendering. ACM Trans. Graph., 42(4):139–1, 2023.
  • Klocek et al. [2019] Sylwester Klocek, Łukasz Maziarka, Maciej Wołczyk, Jacek Tabor, Jakub Nowak, and Marek Śmieja. Hypernetwork functional image representation. In International Conference on Artificial Neural Networks, pages 496–510. Springer, 2019.
  • Kratimenos et al. [2023] Agelos Kratimenos, Jiahui Lei, and Kostas Daniilidis. Dynmf: Neural motion factorization for real-time dynamic view synthesis with 3d gaussian splatting. arXiV, 2023.
  • Kristensen [2010] Janus B. Kristensen. Big buck bunny. 2010.
  • Li et al. [2024a] Maomao Li, Yu Li, Tianyu Yang, Yunfei Liu, Dongxu Yue, Zhihui Lin, and Dong Xu. A video is worth 256 bases: Spatial-temporal expectation-maximization inversion for zero-shot video editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7528–7537, 2024a.
  • Li et al. [2024b] Xirui Li, Chao Ma, Xiaokang Yang, and Ming-Hsuan Yang. Vidtome: Video token merging for zero-shot video editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7486–7495, 2024b.
  • Li et al. [2022] Zizhang Li, Mengmeng Wang, Huaijin Pi, Kechun Xu, Jianbiao Mei, and Yong Liu. E-nerv: Expedite neural video representation with disentangled spatial-temporal context. In European Conference on Computer Vision, pages 267–284. Springer, 2022.
  • Liang et al. [2023] Yiqing Liang, Numair Khan, Zhengqin Li, Thu Nguyen-Phuoc, Douglas Lanman, James Tompkin, and Lei Xiao. Gaufre: Gaussian deformation fields for real-time dynamic novel view synthesis, 2023.
  • Luiten et al. [2024] Jonathon Luiten, Georgios Kopanas, Bastian Leibe, and Deva Ramanan. Dynamic 3d gaussians: Tracking by persistent dynamic view synthesis. In 3DV, 2024.
  • Ma et al. [2024] Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, and Xiaohui Xie. Maskint: Video editing via interpolative non-autoregressive masked transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7403–7412, 2024.
  • Ouyang et al. [2024] Hao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, and Yujun Shen. Codef: Content deformation fields for temporally consistent video processing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8089–8099, 2024.
  • Park et al. [2019] Jeong Joon Park, Peter Florence, Julian Straub, Richard Newcombe, and Steven Lovegrove. Deepsdf: Learning continuous signed distance functions for shape representation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 165–174, 2019.
  • Perazzi et al. [2016] Federico Perazzi, Jordi Pont-Tuset, Brian McWilliams, Luc Van Gool, Markus H. Gross, and Alexander Sorkine-Hornung. A benchmark dataset and evaluation methodology for video object segmentation. In 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, 2016.
  • Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
  • Sitzmann et al. [2020] Vincent Sitzmann, Julien Martel, Alexander Bergman, David Lindell, and Gordon Wetzstein. Implicit neural representations with periodic activation functions. In Advances in Neural Information Processing Systems, pages 7462–7473. Curran Associates, Inc., 2020.
  • Skorokhodov et al. [2021] Ivan Skorokhodov, Savva Ignatyev, and Mohamed Elhoseiny. Adversarial generation of continuous images. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10753–10764, 2021.
  • Sun et al. [2024] Yang-Tian Sun, Yi-Hua Huang, Lin Ma, Xiaoyang Lyu, Yan-Pei Cao, and Xiaojuan Qi. Splatter a video: Video gaussian representation for versatile processing. arXiv preprint arXiv:2406.13870, 2024.
  • Szatkowski et al. [2023] Filip Szatkowski, Karol J Piczak, Przemysław Spurek, Jacek Tabor, and Tomasz Trzciński. Hypernetworks build implicit neural representations of sounds. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 661–676. Springer, 2023.
  • Waczyńska et al. [2024a] Joanna Waczyńska, Piotr Borycki, Joanna Kaleta, Sławomir Tadeja, and Przemysław Spurek. D-miso: Editing dynamic 3d scenes using multi-gaussians soup. arXiv preprint arXiv:2405.14276, 2024a.
  • Waczyńska et al. [2024b] Joanna Waczyńska, Piotr Borycki, Sławomir Tadeja, Jacek Tabor, and Przemysław Spurek. Games: Mesh-based adapting and modification of gaussian splatting. arXiv preprint arXiv:2402.01459, 2024b.
  • Waczyńska et al. [2024c] Joanna Waczyńska, Tomasz Szczepanik, Piotr Borycki, Sławomir Tadeja, Thomas Bohné, and Przemysław Spurek. Mirage: Editable 2d images using gaussian splatting. arXiv preprint arXiv:2410.01521, 2024c.
  • Wang et al. [2023a] Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, and Noah Snavely. Tracking everything everywhere all at once. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 19795–19806, 2023a.
  • Wang et al. [2023b] Wen Wang, Kecheng Zheng, Qiuyu Wang, Hao Chen, Zifan Shi, Ceyuan Yang, Yujun Shen, and Chunhua Shen. Gendef: Learning generative deformation field for video generation. arXiv preprint arXiv:2312.04561, 2023b.
  • Wu et al. [2023] Guanjun Wu, Taoran Yi, Jiemin Fang, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Qi Tian, and Wang Xinggang. 4d gaussian splatting for real-time dynamic scene rendering. arXiv preprint arXiv:2310.08528, 2023.
  • Yang et al. [2023] Ziyi Yang, Xinyu Gao, Wen Zhou, Shaohui Jiao, Yuqing Zhang, and Xiaogang Jin. Deformable 3d gaussians for high-fidelity monocular dynamic scene reconstruction. arXiv preprint arXiv:2309.13101, 2023.
  • Ye et al. [2022] Vickie Ye, Zhengqi Li, Richard Tucker, Angjoo Kanazawa, and Noah Snavely. Deformable sprites for unsupervised video decomposition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2657–2666, 2022.
  • Zhang et al. [2024a] Tingyang Zhang, Qingzhe Gao, Weiyu Li, Libin Liu, and Baoquan Chen. Bags: Building animatable gaussian splatting from a monocular video with diffusion priors, 2024a.
  • Zhang et al. [2024b] Xinjie Zhang, Xingtong Ge, Tongda Xu, Dailan He, Yan Wang, Hongwei Qin, Guo Lu, Jing Geng, and Jun Zhang. Gaussianimage: 1000 fps image representation and compression by 2d gaussian splatting. In European Conference on Computer Vision, 2024b.
  • Zhang et al. [2023] Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, and Qi Tian. Controlvideo: Training-free controllable text-to-video generation. arXiv preprint arXiv:2305.13077, 2023.
  • Zhang et al. [2024c] Youyuan Zhang, Xuan Ju, and James J Clark. Fastvideoedit: Leveraging consistency models for efficient text-to-video editing. arXiv preprint arXiv:2403.06269, 2024c.
  • Zhao et al. [2023] Qi Zhao, M Salman Asif, and Zhan Ma. Dnerv: Modeling inherent dynamics via difference neural representation for videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2031–2040, 2023.