VeGaS: Video Gaussian Splatting
Abstract
暗黙的ニューラル表現(INR)は、離散データを連続関数として近似するためにニューラルネットワークを使用する。動画データの文脈では、このようなモデルを用いて、ピクセル位置の座標とフレーム発生時間(またはインデックス)をRGB色値に変換することができる。INRは効果的な圧縮を可能にするが、編集目的には適していない。一つの潜在的な解決策は、Video Gaussian Representation(VGR)のような3D Gaussian Splatting(3DGS)ベースのモデルを使用することである。これは、動画を多数の3Dガウス分布としてエンコードし、編集を含む多くの動画処理操作に適用可能である。しかしながら、この場合、修正の能力は限られた基本的な変換のセットに制限される。この問題に対処するため、我々はVideo Gaussian Splatting(VeGaS)モデルを導入する。これは、動画データの現実的な修正を可能にする。VeGaSを構築するために、我々は動画ストリームの非線形ダイナミクスを捉え、連続するフレームをそれぞれの条件付き分布として得られる2Dガウス分布によってモデル化するように設計された、新しい折り畳みガウス分布のファミリーを提案する。我々の実験は、VeGaSがフレーム再構成タスクにおいて最先端のソリューションを上回り、動画データの現実的な修正を可能にすることを示している。コードは以下で入手可能である:https://github.com/gmum/VeGaS。
1 Introduction
暗黙的ニューラル表現(INRs)[27]は、離散的なデータを滑らかで連続的な関数として記述するためにニューラルネットワークを使用する。これらは、画像[14]、動画[5]、音声[30]、3D形状[24]など、様々な信号を連続的にエンコードする有望な方法として登場した。INRsは2D画像の文脈で頻繁に使用され、ピクセル座標をRGB色値にマッピングするネットワークを訓練することで、画像の構造をニューラルネットワークの重みにエンコードする。このアプローチは、圧縮[5]、超解像[14]、あるいは生成モデルの不可欠な部分[28, 11]としての応用など、いくつかの利点を提供する。
一方、3Dガウシアンスプラッティング(3DGS)フレームワーク[13]は、当初3Dシーンのモデリングのために提案されたが、最近2D画像に適用されるようになった。特に、GaussianImage法[40]は、モデルの効率性と訓練時間の短縮に重点を置きながら、2D空間で効率的に画像をエンコードすることで、画像再構成において有望な結果を示している。さらに、MiraGe表現[33]は、2D画像の現実的な修正を生成することの実現可能性を実証している。
2D画像と同様に、INRは動画の連続的な表現を生成する[5]。このような場合、ニューラルネットワークはピクセル座標と時間フレームをRGB色に変換する。このようなモデルは良好な再構成品質と圧縮率を提供する。しかし残念ながら、INRは最終的に動画の編集に失敗した。 このような問題を解決するために、我々はガウシアンスプラッティングソリューションを使用することができる。ビデオガウシアン表現(VGR)[29]は、正規位置にガウシアンを使用し、各時間フレームにそのようなガウシアンを転送する変形関数を用いる。このモデルは、動画編集などの様々な動画処理タスクを処理することができる。それにもかかわらず、これらの変更は線形変換と平行移動に制限されている。
本稿では、ビデオガウシアンスプラッティング(VeGaS)モデルを紹介する。これは、3DGSアプローチが2D動画データに適用できることを示すものである。特に、動画フレームは3D空間内の平行平面として扱われ、3Dガウシアンスプラッティングが連続するフレーム間のコンテンツの遷移をモデル化するために使用される。指定された時点で3Dガウシアン成分を条件付けることにより、2Dガウシアンが選択されたフレームに合わせて調整される。我々のソリューションが古典的なガウシアンスプラッティングモデルを凌駕していることを強調することが重要である。これは、複雑な分布を統合する能力を向上させ、動画シーケンスにおける急速な変化のより正確なモデリングを可能にする。特に、我々は折り畳みガウシアン(Folded-Gaussians)を導入する。これは非線形構造をモデル化し、条件付けの後に古典的な2Dガウシアン分布を生成する関数族である。動画モデリングに3DGSフレームワークを使用することで、時間とともにほとんど静的な背景を表現する広範なガウシアンと、わずか数フレームにのみ存在する要素を表現する短期的なガウシアンの両方を利用できることに注目すべきである。さらに、VeGaSはMiraGeベースの表現を使用して個々のフレームをモデル化する。これにより、動画全体と選択されたフレームの両方を修正することができ、図2に示すように高品質のレンダリングが可能となる。
以下は、我々の重要な貢献の包括的な説明である:
-
•
我々は、非線形構造をモデル化し、3Dガウシアンスプラッティングフレームワークに容易に組み込むことができる新しい関数族である折り畳みガウス分布(Folded-Gaussians)を導入する。
-
•
我々は、折り畳みガウス分布を使用して2D動画データを処理することを可能にするVeGaSモデルを提案する。
-
•
我々は、再構成タスクにおけるVeGaSの優位性を実証し、動画データの現実的な修正を生成する効率性を示す実験を行う。
Vanishing Original Multiplication Original Scale Original |
2 Related Works
動画を層状の表現に分解することで、高度な動画編集技術の利用が可能となる。[12]では、著者らは画像をテクスチャ層に分解し、対応する変形場を学習することで、効率的な動画編集を可能にしている。[38]で概説されている手法は、動画を個別の動きグループに分割し、各グループをMLPベースの表現で駆動する。INVE [9]は、長時間にわたる広範な動画追跡と編集を可能にするために双方向ワーピング場を採用している。[2]では、著者らは照明と色の詳細のレンダリングを改善することを提案している。これは、追加の層と残差カラーマップを組み込むことで達成され、動画内の照明効果の表現を向上させる。CoDeF [23]は、マルチ解像度ハッシュグリッドと浅いMLPを使用して、正規画像に対するフレームごとの変形をモデル化する。このアプローチにより、正規空間での編集が可能となり、変更が動画全体に効果的に伝播される。同様の表現がGenDeF [35]で制御可能な動画の生成に使用されている。
潜在拡散モデルの生成能力は、動画編集の文脈内で様々な研究の取り組みに活用されている[26]。[41]では、著者らは動画再構成中にネットワークに制御信号を統合し、それによって編集プロセスを誘導している。関連する技術として、特定の編集されたキーフレームから編集された動画を生成するためのフレーム補間がある[22]。また、別の手法では、トークンマージングアプローチを採用して制御信号を組み込んでいる[18]。さらに、一部の研究では動画編集のための反転技術を調査している[17, 42]。
3D Gaussian Splatting (3DGS) [13]は、3D静的シーンをガウス成分の集合を用いてモデル化する手法である。最近、動的シーンの表現のための多くの一般化が提案されている。[21]では、著者らはマルチビューの動的データセットと増分的なフレームベースの戦略を採用している。しかしながら、この手法はフレーム間の相関を考慮しておらず、長時間のシーケンスに対して相当量の記憶領域を必要とする。[37, 15]で提示されたアプローチは、ガウス分布の時間的変化を表現するためにMLPを使用している。対照的に、[36]では、著者らはMLPと分解された神経ボクセルエンコーディング技術を組み合わせて、トレーニングと記憶効率を向上させている。[20]では、動的シーンを動的セグメントと静的セグメントに分割し、それらを独立に最適化した後、結合してデカップリングを促進している。他の研究では、外部の事前知識を組み込むことで動的シーンの再構成を改善しようとしている。例えば、拡散事前分布が最適化プロセスにおいて効果的な正則化項として機能することが示されている[39]。[6]では、著者らは4DRotorGSを提案しており、これは4次元ガウス分布を使用し、第4次元を時間に割り当てている。
さらに、3DGSは基礎となるメッシュに基づいてシーンジオメトリを修正するために使用された。[7]では、3Dガウシアンを明示的なメッシュ上に配置することで、メッシュレンダリングを利用して適応的な精緻化を促進することが可能となる。この手法は抽出されたメッシュをプロキシとして使用することに依存しているため、メッシュ抽出プロセスが失敗した場合には機能しない。一方、[8]では、3DGS表現から明示的なメッシュが導出され、これは表面上でガウシアンを正則化することによって行われる。この過程は、大規模な最適化と精緻化フェーズを含み、特に計算資源を多く必要とする。別の例として、[10]では、3Dシーンダイナミクスにスパースな制御点が使用されている。しかし、この手法は広範な編集移動に困難を伴い、正確な静的ノードの選択を必要とする。一方、GaMeS [32]は3DGSとメッシュ抽出を統合しているが、この手法は静的なシーンにのみ有効である。対照的に、D-MiSo [31]はメッシュベースのアプローチであり、動的なシーン用に特別に設計されており、シンプルな3DGS技術パイプラインを採用して動的シーンのリアルタイム編集を可能にしている。
[29]において、著者らはビデオガウシアン表現(VGR)を導入している。これは3Dガウシアンスプラッティングを用いてビデオデータをモデル化するものである。このアプローチは我々のものと密接に関連しており、したがってVeGaSモデルにとって最も合理的なベースラインとなる。VGRは正規位置にあるガウシアンを使用し、それらを各フレームの出現時間に転送し、変形関数を適用する。このモデルはビデオ編集などの様々なビデオ処理タスクを扱うことができる。しかしながら、可能な変更は線形変換と平行移動に限定されており、これは我々の提案するソリューションと比較して制限となっている。
3 Folded-Gaussians
本節では、折り畳みガウス分布の概念を導入する。これは、非線形構造を捉えるために古典的なガウス分布を一般化したものとみなすことができる。折り畳みガウス分布は、我々が動画データの表現に更に活用する新しい分布族であることに注意されたい(次節参照)。したがって、この関係性を強調するために、時空間変数の概念に基づいた用語を用いる。各動画は離散的な時点で連続的に発生するフレームの系列とみなすことができるためである。読者の便宜のため、我々はまず単純な2次元のおもちゃの例から始め、その後多次元の場合へと説明を拡張する。
Toy Example in
我々のトイ例は、空間時間ランダム変数の2次元ガウス分布から始まる。これは平均ベクトルと共分散行列によって与えられる。
(1) |
この場合、密度関数は以下の式で定義される:
(2) |
ここで、
(3) |
このような分布を用いることで、座標軸に沿って広がる単純な線形構造と考えられる楕円をモデル化することができる。したがって、我々は非線形パターンを扱うことができる古典的な2次元ガウス分布の一般化を提案する。具体的には、時間変数で条件付けすると、図3に示すように、任意の曲線(必ずしも線形でない)に沿って整列した1次元ガウス分布を生成する2次元分布を探求している。可能な解決策は、の条件付き分布がガウス分布であることを保証することである。
(4) |
ここで、とは、空間変数の望ましい時間依存シフトとリスケーリングをそれぞれ捉えるように設計された関数である。実際には、我々はとして与えられた次数の多項式を使用し、として時間変数の尤度(単位区間にスケーリングされた)を使用する。すなわち、
(5) |
最後に、空間時間変数の結合分布を回復するために、ランダム変数の標準的な連鎖律を適用することができ、これにより以下の式で与えられる密度関数が導かれる:
(6) |
の周辺分布との条件付き分布の両方がガウス分布である一方で、結果として得られる結合分布はもはやガウス分布ではないことに注意することが重要である。これは、応用面だけでなく、さらなる理論的研究のためにも興味深い対象となる。我々の貢献をより広範な文脈に適用できるようにするため、次の段落では任意の次元への議論の拡張を行う。
Folded-Gaussians in
我々は多変量ガウス分布から始める。これは時空間ランダム変数に対して、平均ベクトルと共分散行列
(7) |
によって定義される。ここではの空間成分の対角共分散行列を表す。確率密度関数(PDF)は、二つの独立した正規密度に因数分解される。すなわち、
(8) |
このような分布は、座標軸に沿って広がる単純な線形構造のみをモデル化することができることに注意されたい(2次元の場合の適切な例については、図3の左端の図を参照)。
前述の制限に対処するため、我々はより柔軟な表現を可能にする非自明な条件付けを導入することを提案する。具体的には、空間変数に以下の時間依存変換を適用する:
(9) |
ここでとは適切に選択された関数である。これにより、条件付き正規密度を持つ新しい空間変数が得られる:
(10) |
これは次のPDFで定義される新しい折り畳みガウス分布を生み出す11この場合、ランダム変数に対する標準的な連鎖律を使用していることに注意。:
(11) |
ここでは新しい時間条件付き空間ランダム変数を表し、(混乱を避けるため表記は変更しない)。折り畳みガウス分布の顕著な利点は、データに存在する様々な関係を効果的に捉えることができる点である。これは、関数との選択に固有の柔軟性によるものである。VeGaSモデルの文脈では、多項式関数(訓練された係数を持つ)が尤度ベースの関数(式5のように)と組み合わせて使用される。結果として、我々のアプローチは線形および非線形パターンの両方を包含することができる。これは図3に示されており、2次元分布の簡略化されたケースを参照している。さらに、尤度ベースの時間依存スケーリングの導入により、折り畳みガウス分布の裾が消失し、ビデオストリームの一部にのみ存在する要素の捕捉が容易になる(最適なシナリオでは、これらの要素が最初にカメラに近づき、その後視界から遠ざかる)。
Theoretical Study
4 Video Gaussian Splatting
本節では、我々のビデオガウシアンスプラッティング (VeGaS) モデルを紹介する。まず、3Dガウシアンスプラッティング (3DGS) [13] 手法の概要を簡単に説明し、次に2D画像に対するMiraGe [33] アプローチについて述べる。同時に、我々が提案する解決策への直接的な統合を容易にするよう説明を調整する。最後に、VeGaSモデルの詳細な説明で本節を締めくくる。
3D Gaussian Splatting
3Dガウシアンスプラッティング (3DGS) [13] 手法は、三次元ガウス分布の集合を使用する
(16) |
これらは位置(平均)、共分散行列 、不透明度 、色 を含む一連の属性によって特徴付けられる。実際には、共分散行列 は以下のように因数分解される ここで、 は回転行列であり、 はスケーリングパラメータを含む対角行列である。したがって、 の代わりに という表記を使用することも可能である。
3DGS技術の効率性は、主に3Dガウス分布を二次元空間に投影するレンダリングプロセスに起因する。 トレーニングプロセス全体を通じて、すべてのパラメータは平均二乗誤差(MSE)コスト関数に従って最適化される。このような手順はしばしば局所的最小値をもたらすため、3DGSは提案されたヒューリスティックに基づいて、コンポーネントの作成、削除、再配置を含む補助的なトレーニング方法を採用することができる。これは高速かつ効果的な戦略である。さらに、GSトレーニングプロセスはCUDAカーネル内で実行され、迅速なトレーニングとリアルタイムレンダリングを可能にしている。
Gaussian Spatting for 2D images
MiraGeアプローチ[33]は、2D画像に対応するために3DGS技術を採用している。これは、正準ベクトルとが張る平面上に配置された平坦なガウシアンを使用することで実現され、特定のタイプのパラメータ化をもたらす。本質的に、この方法は以下の形式の3Dガウシアン成分の族を扱う。
(17) |
ここで、、、そして
(18) |
(は3次元フレームワークとの互換性を確保するための小さな正の定数である。)その後、GaMeSモデル[32]によって提案されたパラメータ化を利用して、このような平坦なガウシアンは3点(三角形の面)で表現できる。
(19) |
頂点は以下のように定義される。 、および。一方、面表現が与えられた場合、ガウシアン成分
(20) |
は平均、回転行列、およびスケーリング行列を通じて再構築できる。ここで、パラメータは以下の式によって定義される:
(21) |
(22) |
この文脈において、はグラム・シュミット過程[1]の1回の反復を表す。我々は、上記の式が我々のフレームワークに合わせて調整されており、したがって[32, 33]で提供されているものとわずかに異なる可能性があることを強調したい。
GaMeSパラメータ化の使用により、基礎となる三角形の面を変更することで、ガウシアンの位置、スケール、および回転を修正することが可能となる。さらに、MiraGe拡張により、2D画像を3D空間内で操作することが可能となり、それによって3次元効果の錯覚を生み出すことができる。
Video Gaussian Splatting
単位区間にスケーリングされた発生時間によってインデックス付けされたフレームのシーケンスからなるビデオを考える。この文脈において、MiraGeモデルは各連続フレームに対して適用可能である。なぜなら、各フレームは個別の2D画像として扱うことができるからである。結果として、これは3Dガウス分布の結合族をもたらす
(23) |
ここで、各は式(17)によって与えられ、これはデータ全体の適切な表現と考えることができる。しかしながら、このようなアプローチはビデオストリーム内に自然に存在する関係性を完全に無視している。
前述の制限を克服するために、我々は連続するフレームに関連するガウス分布を、フレーム発生時間における対応する3次元折り畳みガウス分布の条件付けによって構築することを提案する。結果として得られるビデオガウシアンスプラッティング(VeGaS)モデルは、したがって形式的に3D折り畳みガウス分布の集合として定義される
(24) |
ここで、各成分について、2次元条件付き分布の周りの3次元拡張(前段落参照)
(25) |
は、共通の不透明度と色に関して、式(10)を用いて構築される。
我々の手法が固定されたフレーム発生時間を使用せず、優れた再構成品質を保証する最適化手順を通じてそれらを学習することを強調することが重要である。具体的には、我々は動的フレームフィッティング関数を使用する。これはフレーム番号をそのスケーリングされた発生時間に以下のようにマッピングする
(26) |
ここで、は訓練可能なパラメータである。(との間の補間されたフレームについては、との間で均等に間隔を置いた時間を使用する)。 さらに、VeGaSモデルでは2種類の空間分布を扱っていることに注意すべきである。まず、ビデオストリームのダイナミクスを表す折り畳みガウス分布がある。次に、平坦な条件付き分布を生成し、それらを小さな直交成分(の値によって制御される)を追加することで3Dガウス分布に拡張する。この場合、2つの対向するカメラが単一の2D画像を再構成する - 1つは元の画像を生成し、もう1つはその鏡像版を生成する。
Model | Bear | Cows | Elephant | Breakdance-Flare | Train | Camel | Kite-surf | Average |
---|---|---|---|---|---|---|---|---|
Omnimotion [34] | 22.96 | 23.93 | 26.59 | 24.45 | 22.85 | 23.98 | 23.72 | 24.07 |
CoDeF [23] | 29.17 | 28.82 | 30.50 | 25.99 | 26.53 | 26.10 | 27.17 | 27.75 |
VGR [29] | 30.17 | 28.24 | 29.82 | 27.18 | 28.09 | 27.74 | 27.82 | 28.44 |
VeGaS-Full (our) | 31.79 | 27.64 | 30.93 | 29.37 | 31.20 | 30.76 | 35.84 | 31.08 |
VeGaS-480p (our) | 33.23 | 30.27 | 33.28 | 33.19 | 32.86 | 32.23 | 38.23 | 33.31 |
5 Experiments
本節では、VeGaSモデルの様々な設定における広範な実験研究を紹介し、多様な最先端のソリューションと比較してその効率性を検討する。
NeRV [3] | E-NeRV [19] | HNeRV [4] | DNeRV [43] | VeGaS (our) | ||||||
---|---|---|---|---|---|---|---|---|---|---|
PSNR | SSIM | PSNR | SSIM | PSNR | SSIM | PSNR | SSIM | PSNR | SSIM | |
Blackswan | 28.48 | 0.812 | 29.38 | 0.867 | 30.35 | 0.891 | 30.92 | 0.913 | 34.92 | 0.932 |
Bmx-bumps | 29.42 | 0.864 | 28.90 | 0.851 | 29.98 | 0.872 | 30.59 | 0.890 | 33.01 | 0.915 |
Bmx-trees | 26.24 | 0.789 | 27.26 | 0.876 | 28.76 | 0.861 | 29.63 | 0.882 | 31.78 | 0.896 |
Breakdance | 26.45 | 0.915 | 28.33 | 0.941 | 30.45 | 0.961 | 30.88 | 0.968 | 32.27 | 0.950 |
Camel | 24.81 | 0.781 | 25.85 | 0.844 | 26.71 | 0.844 | 27.38 | 0.887 | 31.12 | 0.886 |
Car-round | 24.68 | 0.857 | 26.01 | 0.912 | 27.75 | 0.912 | 29.35 | 0.937 | 32.75 | 0.941 |
Car-shadow | 26.41 | 0.871 | 30.41 | 0.922 | 31.32 | 0.936 | 31.95 | 0.944 | 36.41 | 0.956 |
Car-turn | 27.45 | 0.813 | 29.02 | 0.888 | 29.65 | 0.879 | 30.25 | 0.892 | 31.44 | 0.852 |
Cows | 22.55 | 0.702 | 23.74 | 0.819 | 24.11 | 0.792 | 24.88 | 0.827 | 27.97 | 0.834 |
Dance-twril | 25.79 | 0.797 | 27.07 | 0.864 | 28.19 | 0.845 | 29.13 | 0.870 | 30.45 | 0.850 |
Dog | 28.17 | 0.795 | 30.40 | 0.882 | 30.96 | 0.898 | 31.32 | 0.905 | 34.52 | 0.914 |
Average | 26.40 | 0.818 | 27.85 | 0.879 | 28.93 | 0.881 | 29.66 | 0.901 | 32.42 | 0.902 |
Polynomial degree | ||||||
---|---|---|---|---|---|---|
Batch size | 1 | 3 | 5 | 7 | 9 | Mean training time |
1 | 36.73 (1.26M) | 37.31 (1.77M) | 37.30 (1.73M) | 37.36 (1.72M) | 37.42 (1.83M) | 31m20s |
3 | 38.15 (0.57M) | 38.31 (0.58M) | 38.39 (0.59M) | 38.53 (0.62M) | 38.24 (0.59M) | 56m30s |
5 | 37.84 (0.33M) | 37.94 (0.32M) | 37.95 (0.32M) | 37.92 (0.31M) | 37.94 (0.31M) | 1h15m29s |
Datasets
Implementation Details
初期化プロセスでは、ガウス分布の平均とを、2次元のバウンディングボックス内の点として一様にサンプリングする。に使用される活性化関数はシグモイド関数であり、活性化プロセスから得られる値がとの間で一様に分布するように初期化される。同様に、の活性化関数には指数関数が使用され、初期値はとの間で一様に分布する。多項式関数の係数はとの間で一様にサンプリングされる。さらに、回転行列は単一の数(回転角)としてパラメータ化され、使用される活性化関数はシグモイド関数にを乗じたものである。角度はとの間で一様に分布するように初期化される。
モデルは、特に指定がない限り、バッチサイズ3で30,000ステップ訓練され、7次の多項式関数と500,000の初期ガウス分布を使用する。 学習率、密度化、剪定、不透明度のリセット設定はすべて3DGS[13]フレームワークと一致している。MiraGeアプローチに従い、2台のカメラが使用される:最初のカメラは元の画像を生成し、2台目のカメラはその鏡像版を生成する。
Frame Reconstruction
我々は、フレーム再構成タスクにおける我々の手法の有効性を評価するために一連の実験を行った。最初の実験設定は、[29]で提案されたものを適用した。そこでは、著者らがVGRモデルを紹介し、Omnimotion [34]とCoDeF [23]という2つの最先端のベースラインと比較してその性能を評価している。表1は、DAVISデータセットの様々な動画に対するレンダリング品質メトリクスの値を示している。[29]では評価に使用された解像度に関する情報がないため、我々は両方のケースで結果を報告する。各状況において、VeGaSが最良のメトリクススコアを獲得していることに注目すべきである。さらに、我々のモデルは高品質かつ忠実に動画を再構成することが可能である。これは図6に示されており、DAVISデータセット[25]から選択されたオブジェクトに基づく可視化を提供している。
他の実験では、[43]の著者らによって提案されたシーン設定を使用し、DNeRVモデルを様々なNeRFベースのベースライン、すなわち[3]、E-NeRV [19]、HNeRV [4]、およびDNeRV [43]と比較評価した。このプロトコルに従い、各シーンのフル解像度版を9601920の解像度に中央クロップした。結果(すなわち、レンダリング品質メトリクスの値)は表2に示されており、DAVISデータセットの様々な動画オブジェクトに対して得られた値を示している。VeGaSが考慮されたすべてのNeRFベースのモデルを上回っていることに注目すべきである。
Initial Gaussians | PSNR↑ | Final Gaussians | Training time |
---|---|---|---|
0.10M | 38.53 | 0.62M | 57m00s |
0.20M | 38.85 | 0.62M | 57m29s |
0.30M | 38.99 | 0.62M | 58m03s |
0.40M | 38.96 | 0.64M | 59m36s |
0.50M | 39.02 | 0.65M | 58m58s |
0.60M | 38.86 | 0.66M | 1h00m53s |
Frame Interpolation
その後の実験では、我々のモデルによって提供される動画データの連続的な表現を利用して、所望のアップサンプリングレートでのフレーム補間の可能性を検討した。追加フレームを生成するために、連続する各フレームペア間で均一な間隔でFolded-Gaussiansをスライスした。図5は、DAVISデータセットから選択された動画オブジェクトに対するVeGaSとVGR [29]の結果を比較している。定性的研究により、我々の手法を用いた補間がより優れた結果をもたらすことが明らかになった。しかしながら、[29]の著者らによってVGRのソースコードが公開されていないため、それぞれのレンダリングメトリクススコアの直接比較ができないことに注意すべきである。
Video Edition
Ablation Study
6 Conclusions
本稿では、動画処理のために設計されたVeGaSモデルを提案する。VeGaSを構築するにあたり、我々は新しい折り畳みガウス分布族を導入した。これにより、動画ストリーム内の非線形パターンを捉えることが可能となる。実施した実験の結果は、我々の手法が動画フレーム内でより優れた再構成と現実的な修正を可能にすることを示している。
References
- Björck [1994] Ake Björck. Numerics of Gram-Schmidt orthogonalization. Linear Algebra and Its Applications, 197:297–316, 1994.
- Chan et al. [2023] Cheng-Hung Chan, Cheng-Yang Yuan, Cheng Sun, and Hwann-Tzong Chen. Hashing neural video decomposition with multiplicative residuals in space-time. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 7743–7753, 2023.
- Chen et al. [2021] Hao Chen, Bo He, Hanyu Wang, Yixuan Ren, Ser Nam Lim, and Abhinav Shrivastava. Nerv: Neural representations for videos. Advances in Neural Information Processing Systems, 34:21557–21568, 2021.
- Chen et al. [2023] Hao Chen, Matthew Gwilliam, Ser-Nam Lim, and Abhinav Shrivastava. Hnerv: A hybrid neural representation for videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10270–10279, 2023.
- Chen et al. [2022] Zeyuan Chen, Yinbo Chen, Jingwen Liu, Xingqian Xu, Vidit Goel, Zhangyang Wang, Humphrey Shi, and Xiaolong Wang. Videoinr: Learning video implicit neural representation for continuous space-time super-resolution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2047–2057, 2022.
- Duan et al. [2024] Yuanxing Duan, Fangyin Wei, Qiyu Dai, Yuhang He, Wenzheng Chen, and Baoquan Chen. 4d-rotor gaussian splatting: towards efficient novel view synthesis for dynamic scenes. In ACM SIGGRAPH 2024 Conference Papers, pages 1–11, 2024.
- Gao et al. [2024] Lin Gao, Jie Yang, Bo-Tao Zhang, Jia-Mu Sun, Yu-Jie Yuan, Hongbo Fu, and Yu-Kun Lai. Mesh-based gaussian splatting for real-time large-scale deformation, 2024.
- Guédon and Lepetit [2023] Antoine Guédon and Vincent Lepetit. Sugar: Surface-aligned gaussian splatting for efficient 3d mesh reconstruction and high-quality mesh rendering. arXiv preprint arXiv:2311.12775, 2023.
- Huang et al. [2023a] Jiahui Huang, Leonid Sigal, Kwang Moo Yi, Oliver Wang, and Joon-Young Lee. Inve: Interactive neural video editing. arXiv preprint arXiv:2307.07663, 2023a.
- Huang et al. [2023b] Yi-Hua Huang, Yang-Tian Sun, Ziyi Yang, Xiaoyang Lyu, Yan-Pei Cao, and Xiaojuan Qi. Sc-gs: Sparse-controlled gaussian splatting for editable dynamic scenes. arXiv preprint arXiv:2312.14937, 2023b.
- [11] Adam Kania, Artur Kasymov, Maciej Zięba, and Przemysław Spurek. Hypernerfgan: Hypernetwork approach to 3d nerf gan. arXiv preprint arXiv:2301.11631.
- Kasten et al. [2021] Yoni Kasten, Dolev Ofri, Oliver Wang, and Tali Dekel. Layered neural atlases for consistent video editing. ACM Transactions on Graphics (TOG), 40(6):1–12, 2021.
- Kerbl et al. [2023] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, and George Drettakis. 3d gaussian splatting for real-time radiance field rendering. ACM Trans. Graph., 42(4):139–1, 2023.
- Klocek et al. [2019] Sylwester Klocek, Łukasz Maziarka, Maciej Wołczyk, Jacek Tabor, Jakub Nowak, and Marek Śmieja. Hypernetwork functional image representation. In International Conference on Artificial Neural Networks, pages 496–510. Springer, 2019.
- Kratimenos et al. [2023] Agelos Kratimenos, Jiahui Lei, and Kostas Daniilidis. Dynmf: Neural motion factorization for real-time dynamic view synthesis with 3d gaussian splatting. arXiV, 2023.
- Kristensen [2010] Janus B. Kristensen. Big buck bunny. 2010.
- Li et al. [2024a] Maomao Li, Yu Li, Tianyu Yang, Yunfei Liu, Dongxu Yue, Zhihui Lin, and Dong Xu. A video is worth 256 bases: Spatial-temporal expectation-maximization inversion for zero-shot video editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7528–7537, 2024a.
- Li et al. [2024b] Xirui Li, Chao Ma, Xiaokang Yang, and Ming-Hsuan Yang. Vidtome: Video token merging for zero-shot video editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7486–7495, 2024b.
- Li et al. [2022] Zizhang Li, Mengmeng Wang, Huaijin Pi, Kechun Xu, Jianbiao Mei, and Yong Liu. E-nerv: Expedite neural video representation with disentangled spatial-temporal context. In European Conference on Computer Vision, pages 267–284. Springer, 2022.
- Liang et al. [2023] Yiqing Liang, Numair Khan, Zhengqin Li, Thu Nguyen-Phuoc, Douglas Lanman, James Tompkin, and Lei Xiao. Gaufre: Gaussian deformation fields for real-time dynamic novel view synthesis, 2023.
- Luiten et al. [2024] Jonathon Luiten, Georgios Kopanas, Bastian Leibe, and Deva Ramanan. Dynamic 3d gaussians: Tracking by persistent dynamic view synthesis. In 3DV, 2024.
- Ma et al. [2024] Haoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, and Xiaohui Xie. Maskint: Video editing via interpolative non-autoregressive masked transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7403–7412, 2024.
- Ouyang et al. [2024] Hao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, and Yujun Shen. Codef: Content deformation fields for temporally consistent video processing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8089–8099, 2024.
- Park et al. [2019] Jeong Joon Park, Peter Florence, Julian Straub, Richard Newcombe, and Steven Lovegrove. Deepsdf: Learning continuous signed distance functions for shape representation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 165–174, 2019.
- Perazzi et al. [2016] Federico Perazzi, Jordi Pont-Tuset, Brian McWilliams, Luc Van Gool, Markus H. Gross, and Alexander Sorkine-Hornung. A benchmark dataset and evaluation methodology for video object segmentation. In 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, 2016.
- Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
- Sitzmann et al. [2020] Vincent Sitzmann, Julien Martel, Alexander Bergman, David Lindell, and Gordon Wetzstein. Implicit neural representations with periodic activation functions. In Advances in Neural Information Processing Systems, pages 7462–7473. Curran Associates, Inc., 2020.
- Skorokhodov et al. [2021] Ivan Skorokhodov, Savva Ignatyev, and Mohamed Elhoseiny. Adversarial generation of continuous images. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10753–10764, 2021.
- Sun et al. [2024] Yang-Tian Sun, Yi-Hua Huang, Lin Ma, Xiaoyang Lyu, Yan-Pei Cao, and Xiaojuan Qi. Splatter a video: Video gaussian representation for versatile processing. arXiv preprint arXiv:2406.13870, 2024.
- Szatkowski et al. [2023] Filip Szatkowski, Karol J Piczak, Przemysław Spurek, Jacek Tabor, and Tomasz Trzciński. Hypernetworks build implicit neural representations of sounds. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 661–676. Springer, 2023.
- Waczyńska et al. [2024a] Joanna Waczyńska, Piotr Borycki, Joanna Kaleta, Sławomir Tadeja, and Przemysław Spurek. D-miso: Editing dynamic 3d scenes using multi-gaussians soup. arXiv preprint arXiv:2405.14276, 2024a.
- Waczyńska et al. [2024b] Joanna Waczyńska, Piotr Borycki, Sławomir Tadeja, Jacek Tabor, and Przemysław Spurek. Games: Mesh-based adapting and modification of gaussian splatting. arXiv preprint arXiv:2402.01459, 2024b.
- Waczyńska et al. [2024c] Joanna Waczyńska, Tomasz Szczepanik, Piotr Borycki, Sławomir Tadeja, Thomas Bohné, and Przemysław Spurek. Mirage: Editable 2d images using gaussian splatting. arXiv preprint arXiv:2410.01521, 2024c.
- Wang et al. [2023a] Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, and Noah Snavely. Tracking everything everywhere all at once. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 19795–19806, 2023a.
- Wang et al. [2023b] Wen Wang, Kecheng Zheng, Qiuyu Wang, Hao Chen, Zifan Shi, Ceyuan Yang, Yujun Shen, and Chunhua Shen. Gendef: Learning generative deformation field for video generation. arXiv preprint arXiv:2312.04561, 2023b.
- Wu et al. [2023] Guanjun Wu, Taoran Yi, Jiemin Fang, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Qi Tian, and Wang Xinggang. 4d gaussian splatting for real-time dynamic scene rendering. arXiv preprint arXiv:2310.08528, 2023.
- Yang et al. [2023] Ziyi Yang, Xinyu Gao, Wen Zhou, Shaohui Jiao, Yuqing Zhang, and Xiaogang Jin. Deformable 3d gaussians for high-fidelity monocular dynamic scene reconstruction. arXiv preprint arXiv:2309.13101, 2023.
- Ye et al. [2022] Vickie Ye, Zhengqi Li, Richard Tucker, Angjoo Kanazawa, and Noah Snavely. Deformable sprites for unsupervised video decomposition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2657–2666, 2022.
- Zhang et al. [2024a] Tingyang Zhang, Qingzhe Gao, Weiyu Li, Libin Liu, and Baoquan Chen. Bags: Building animatable gaussian splatting from a monocular video with diffusion priors, 2024a.
- Zhang et al. [2024b] Xinjie Zhang, Xingtong Ge, Tongda Xu, Dailan He, Yan Wang, Hongwei Qin, Guo Lu, Jing Geng, and Jun Zhang. Gaussianimage: 1000 fps image representation and compression by 2d gaussian splatting. In European Conference on Computer Vision, 2024b.
- Zhang et al. [2023] Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, and Qi Tian. Controlvideo: Training-free controllable text-to-video generation. arXiv preprint arXiv:2305.13077, 2023.
- Zhang et al. [2024c] Youyuan Zhang, Xuan Ju, and James J Clark. Fastvideoedit: Leveraging consistency models for efficient text-to-video editing. arXiv preprint arXiv:2403.06269, 2024c.
- Zhao et al. [2023] Qi Zhao, M Salman Asif, and Zhan Ma. Dnerv: Modeling inherent dynamics via difference neural representation for videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2031–2040, 2023.