arXiv	https://arxiv.org/abs/2412.01819
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Anton Voronov^1,2,3 Denis Kuznedelev^1,4 Mikhail Khoroshikh¹ Valentin Khrulkov¹ Dmitry Baranchuk¹

Abstract

本稿では、テキストから画像生成のためのスケール単位トランスフォーマーであるSwittiを提案する。我々は、既存の次スケール予測ARモデルから出発し、まずそれらをT2I生成に適用し、収束性と全体的な性能を向上させるためのアーキテクチャ修正を提案する。次に、我々の事前学習されたスケール単位ARモデルの自己注意マップが、先行するスケールへの依存性が弱いことを観察する。この洞察に基づき、我々は非ARの対応物を提案し、 ${\sim}11\%$ 高速なサンプリングと低メモリ使用を可能にしつつ、わずかに優れた生成品質も達成する。さらに、高解像度スケールでのクラシファイアフリーガイダンスが不要であることが多く、むしろ性能を低下させる可能性があることを明らかにする。これらのスケールでガイダンスを無効にすることで、サンプリングを追加で ${\sim}20\%$ 加速し、細部の生成を改善する。広範な人間の選好調査と自動評価により、Swittiが既存のT2I ARモデルを上回り、最先端のT2I拡散モデルと競合しつつ、最大 $7{\times}$ 倍高速であることが示される。

1 Introduction

拡散モデル（DMs）[65, 64, 26, 66, 29, 30]は、視覚コンテンツ生成において支配的なパラダイムとなっており、テキスト条件付き画像[51, 4, 15, 39]、動画[52, 5]、3Dモデリング[17, 48]において顕著な性能を達成している。自然言語生成における自己回帰（AR）モデルの前例のない成功[13, 73, 71]に触発され、多くの研究が視覚コンテンツ生成に特化したARモデルの開発に焦点を当てている[41, 16, 72, 38, 14, 68, 87]。これは生成のトリレンマ[80]に対するより実用的な解決策を提供するためである。

従来の視覚ARジェネレーティブモデルは、次トークン予測を実行する[14, 3, 68, 38, 44, 78, 44, 70]。これらのモデルは2D画像を1Dトークン列に平坦化し、因果的トランスフォーマーが各トークンを順次予測する。これはテキスト生成パイプライン[53, 54, 13, 73]に類似している。この方向性は、単一のARフレームワーク内で視覚と言語のモデリングを統合することを目指しているが、速度と視覚生成品質の両面において、最先端の拡散モデルには依然として及んでいない。

この不一致は重要な疑問を提起する：なぜ従来のARモデルは視覚領域で苦戦する一方で、拡散モデルは優れているのか。 Tian et al. [72]およびChang et al. [6]は、次トークン予測が視覚コンテンツのモデリングに不適切な帰納的バイアスを課していると主張している。対照的に、拡散モデルは粗から細へと画像を生成する[11, 2]。これは、全体的な構造から始まり徐々に詳細を追加していく人間の知覚や描画過程に酷似している。 Dieleman [11]は、拡散モデルがスペクトル自己回帰を近似し、各拡散ステップでより高周波の画像成分を段階的に生成することを示している。

最近、スケール単位のARモデリングが、next-scale予測パラダイムを通じて、自然で非常に効果的な画像生成ソリューションとして登場した[72, 47, 90, 69]。次トークン予測やマスク画像モデリング[6, 41, 16, 40, 7]とは異なり、スケール単位モデルは単一のピクセルから始まり、以前に生成されたスケールに注意を払いながら、段階的により高解像度版の画像を予測する。大まかに言えば、このモデルは各予測ステップでより細かい詳細を追加し、拡散モデルと類似した挙動を示す。これにより、スケール単位ARモデルは視覚生成モデリングにおいて非常に有望な方向性となっている。スケール単位モデルが拡散モデルより優れている重要な点は、最初のステップを低解像度で実行することである。一方、拡散モデルはサンプリングプロセス全体を通じて常に固定された目標解像度で動作する。したがって、スケール単位モデルは大幅に高速なサンプリングを実現しつつ、拡散モデルと同等の生成性能を提供する可能性を持っている。

本稿は、大規模なテキストから画像生成のための新しいトランスフォーマーアーキテクチャを導入することにより、スケール単位の画像モデルの系統を発展させるものである。我々は、最近の進展[72, 47]を踏まえ、テキストから画像生成のための次スケール予測ARモデルの実装から始める。しかし、基本的なアーキテクチャは訓練中に不安定性に遭遇し、最適な収束が得られなかった。これらの問題に対処するため、我々はトランスフォーマーのバックボーンにいくつかのアーキテクチャ上の修正を導入し、テキストから画像合成のための強力な次スケール予測ARモデルを実現した。

次に、我々はスケール単位のARモデルが本当に全ての前段階のスケールに注意を払う必要があるかどうかを調査した。我々の直感では、現在の解像度での入力画像が、次のスケールを正確に予測するために前段階のスケールに関する十分な情報を含んでいると示唆している。事前訓練されたスケール単位のARモデルのセルフアテンションマップを調べることで、この仮説を確認し、アテンション層が主に現在の入力に焦点を当てており、前段階のレベルへの依存が最小限であることを発見した。この洞察に基づき、我々はスケール単位モデルから自己回帰的な要素を取り除くことを提案し、テキストから画像合成のためのScale-wise transformer for text-to-image synthesis（Switti）を実現した。このアプローチは、ARカウンターパートよりもわずかに優れた生成性能を達成しつつ、より高速な推論とより高いスケーリングポテンシャルを可能にする。

さらに、我々は異なる解像度スケールにわたるテキスト条件付けの影響を探究し、より高いスケールではテキスト情報への依存が最小限であることを観察した。この洞察を活用し、我々は最後のスケールでclassifier-free guidance（CFG）[25]を無効にし、それによりCFG計算に必要な追加の順伝播を省略することで推論時間を短縮した。興味深いことに、これはサンプリングを加速するだけでなく、時として生成アーティファクトを軽減する効果もある。

要約すると、本稿は以下の貢献を提示する：

•

我々は、Swittiを紹介する。これは、テキストから画像への次スケール予測トランスフォーマーであり、訓練の安定性と収束性を向上させる構造的修正を採用し、明示的な自己回帰を排除することでより効率的なサンプリングとより良いスケーラビリティを実現している。人間の選好調査と自動評価によって示されるように、Swittiは以前の公開されている視覚的AR（自己回帰）モデルを凌駕している。最先端のテキストから画像への拡散モデルと比較して、Swittiは競争力のある性能を維持しながら、最大で $7{\times}$ 倍高速である。
•

我々は、事前訓練されたスケール別ARモデルの異なる解像度スケールにおける自己注意マップを調査し、注意密度の大部分が現在のスケールに集中していることを発見した。その結果、我々はAR成分のないモデルを提案する。これは、より安価な注意操作により、 $512{\times}512$ 画像生成において ${\sim}11\%$ 倍効率的である。また、Swittiは推論時のメモリ消費を削減し、以前はキー値（KV）キャッシュの保存に必要だったメモリを節約することで、より高解像度の画像生成へのスケーリングを可能にする。興味深いことに、Swittiは同じ訓練設定下で、その自己回帰型カウンターパートをわずかに上回る生成品質を示している。
•

我々は、Swittiが高解像度スケールにおいてテキストへの依存度が低いことを発見した。この観察により、最後の2ステップでクラシファイアフリーガイダンスを無効にすることが可能となり、さらなる ${\sim}20\%$ の加速と、人間による評価で確認されたように、より細かい詳細の生成が改善される結果となった。

2 Related work

2.1 Text-to-image diffusion models

テキスト条件付き拡散モデル（DM）[4, 56, 15, 59, 51, 92, 3]は、テキストから画像（T2I）生成のデファクトスタンダードとなっている。その印象的な性能にもかかわらず、DMの周知の制限として、逐次推論が遅いことが挙げられ、これがリアルタイムや大規模な生成タスクの妨げとなっている。公開されている最先端のT2I拡散モデルの大半[4, 51, 15, 58, 92, 39]は、VAE [33]の潜在空間で動作し、高解像度画像のより効率的なサンプリングを可能にしている。しかし、これらのモデルでも潜在空間において $20{-}50$ の拡散ステップを必要とする。

拡散蒸留法[49, 67, 46, 60, 61, 85, 84, 32]は、拡散ステップ数をわずか $2{-}4$ に削減するための最も有望な方向性である。 DMD2 [84]やADD [60]などの現在の最先端アプローチは、 $4$ ステップで強力な生成性能を示しており、実画像に対する追加の敵対的訓練のおかげで、画質の面で教師モデルの性能を上回る可能性さえある。

2.2 Visual autoregressive modeling

自己回帰（AR）モデルは、画像生成のための有望な代替パラダイムであり、主に3つのグループに分類される：次トークン予測 [68, 14, 87, 38]、次スケール予測 [72, 47, 69]、およびマスクされた自己回帰モデル [41, 16]である。

次トークン予測ARモデルは、GPT様の因果的トランスフォーマー [53, 54, 13, 73] に類似しており、ラスター順序（左から右、上から下）などの走査戦略を用いてトークンごとに画像を生成する。トークンは通常、VQ-VAEベースの離散画像トークナイザー [74, 14, 86, 38] を用いて取得される。 VQ-VAEは画像を低解像度の2D潜在空間にマッピングし、各潜在「ピクセル」を学習された語彙の要素に割り当てる。

マスクされた自己回帰画像モデリング（MAR） [41, 16] は、マスクされた画像生成モデル [6, 40, 7] を拡張し、1つのステップでランダムな順序で複数のマスクされたトークンを予測する。特筆すべきは、MARが連続的なトークンで動作し、訓練には拡散損失を使用し、トークンのサンプリングには軽量なトークン単位の拡散モデルを使用することである。 Fluid [16] はこのアプローチをT2I生成に適用し、そのスケーリング挙動を探究している。

VAR [72] によって導入された次スケール予測ARモデリングは、画像を異なる解像度のスケールの連続として表現する。次トークン予測やマスクされたARモデリングとは異なり、スケール単位のトランスフォーマーは、以前に生成された低解像度のスケールに注意を払いながら、より高い解像度のすべてのトークンを並行して予測する。

画像をスケールの連続として表現するために、VAR [72] は階層的VQ-VAEを使用し、残差量子化（RQ） [38] を用いて段階的に構築された異なる解像度（スケール）の潜在変数のピラミッドに画像をマッピングする。以下では、このVAEモデルを RQ-VAE と呼ぶ。 RQ-VAEの各潜在変数は、単層VQ-VAEと同様に、すべてのスケールで共有される語彙からの離散トークンのセットに関連付けられる。

サンプリング時、スケール単位のARモデル $\theta$ は反復的にスケールごとに画像トークンを予測し、以下のように定式化される：

p_{\theta}(s_{1},\dots,s_{N}|c)=\prod_{i=1}^{N}p_{\theta}(s_{i}|s_{1},\dots,s_% {i-1},c),

ここで、 $s_{i}$ は現在のスケールのRQ-VAEトークンを表し、 $N$ はスケールの総数、 $c$ は条件付け情報である。このモデルは、図 5（左）に示すように、ブロック単位の因果的注意マスクを持つトランスフォーマー [54] である。 VAR [72] は DiT [50] からトランスフォーマーアーキテクチャを採用している。

最近の研究では、次スケール予測モデルをT2I生成に適用している [47, 90, 69]。 STAR [47] は VARから事前学習されたRQ-VAEモデルを使用し、テキスト条件付けを効果的に処理するようにジェネレータを修正している。本稿執筆時点でSTARはまだリリースされていないが、我々はSTARをベースラインアーキテクチャとして考え、そこから段階的に提案モデルである Switti に向けて進展させている。

並行して行われた研究であるHART [69] は、わずか $0.7$ B パラメータの軽量なT2Iスケール単位ARモデルを提案している。これは主に、VARの離散的RQ-VAEの限界に対処するために、連続的な誤差残差をモデル化する追加の拡散モデルを導入することで、ハイブリッドモデルを実現している：スケール単位のARモデルと再構成された潜在変数を精緻化するための拡散モデルの組み合わせである。対照的に、我々はVAR [72] から事前学習されたRQ-VAEを使用し、 $512{\times}512$ 解像度用に微調整しながら、スケール単位の生成トランスフォーマーの設計にのみ焦点を当てている。我々のスケール単位の生成モデル設計とHARTのハイブリッドトークン化を組み合わせることは、将来の研究の有望な方向性となり得る。

MAR [41] も自己回帰と拡散の事前分布を組み合わせたハイブリッドモデルと考えることができる。 Disco-diff [83] は次トークン予測トランスフォーマーによって生成された離散トークンに条件付けられた拡散モデルを使用する。 DART [19] は非マルコフ的拡散モデルのバックボーンとしてARトランスフォーマーを導入している。これらの研究とは対照的に、Switti は拡散事前分布を一切使用していない。

3 Method

3.1 Basic architecture

出発点として、我々はVAR [72]とSTAR [47]に密接に従った基本的なテキスト条件付きアーキテクチャを設計する。スケール方向の自己回帰型テキスト画像生成パイプラインは、主に3つの要素で構成される：画像トークナイザーとしてのRQ-VAE [38]、事前学習済みテキストエンコーダー [55]、そしてスケール方向ブロック方向の因果的トランスフォーマー [72]である。

我々のモデルは、VAR [72]から事前学習済みRQ-VAEを採用しており、これは画像を $512{\times}512$ スケールで表現する。セクション 4.3で議論されるように、我々は $512{\times}512$ 解像度でわずかに調整を行う。

結果として得られるモデルの強力な画像-テキスト整合性を確保するために、我々はT2I拡散モデリングの文献 [51, 15] に従い、2つのテキストエンコーダーを採用する：CLIP ViT-L [55] とOpenCLIP ViT-bigG [27]である。各モデルから抽出されたテキスト埋め込みはチャネル軸に沿って連結される。

基本的なトランスフォーマーアーキテクチャはVAR [72]から採用されており、我々は各トランスフォーマーブロックの自己注意層とフィードフォワードネットワーク（FFN）の間にクロス注意 [75] 層を組み込む。 OpenCLIP ViT-bigGからのプールされた埋め込みは、適応型層正規化（AdaLN） [81] を介してトランスフォーマーブロックに伝播される。

我々はまた、SDXL [51] に従って、生成された画像における意図しないオブジェクトのクロッピングを緩和するために、クロッピングパラメータに対する条件付けを組み込む。具体的には、中心クロップ座標 $c_{top},c_{left}$ をフーリエ特徴埋め込みに変換し、それらを連結する。次に、得られたベクトルをOpenCLIP ViT-bigGの隠れサイズに線形層を介してマッピングし、プールされた埋め込みに加算する。

層正規化（LN）層 [1] は注意層とFFNブロックの入力に適用される。 RMSNorm [89] 層はクエリ-キー（QK）正規化に使用される。我々はまた、正規化された2D回転位置埋め込み（RoPE） [47, 22] を使用し、これによりモデルのより高い解像度への適応が速くなる。 FFNブロックはGeLU活性化関数 [21] を使用する。基本アーキテクチャの可視化は付録 Aにある。

Refer to caption — 図2: Swittiモデルにおけるトランスフォーマーブロック。

3.2 Training dynamics of the basic architecture

ここでは、 $d{=}20$ 個のトランスフォーマーブロックを持つ基本モデルの学習性能を分析し、モデルの安定性と収束性を向上させる修正点を紹介する。

我々は、セクション 4.1で説明した $256{\times}256$ 画像-テキストデータセットを用いて、混合精度BF16/FP32で $150$ K回のイテレーションでモデルを学習させる。詳細な学習および評価のセットアップは付録 Bに記載している。学習中、我々は活性化ノルムおよびFID [24]、CLIPスコア [23]、PickScore [34]などの標準的な指標を追跡する。

まず、我々は学習中の安定性の問題を観察し、大規模実験での最終的な発散や最適以下の性能につながることを確認した。我々の調査により、この問題の根源はトランスフォーマーの活性化ノルムの急速な成長にあることが明らかになった。これは図 3（青）に示されている。最後のトランスフォーマーブロックの活性化ノルムは学習イテレーションを通じて成長し、 $10^{16}$ という極めて大きな値に達する。

したがって、学習を安定させるための最初のステップは、学習中にモデルヘッドをFP32にキャストすることである。我々は、これが活性化ノルムを大幅に減少させる重要な技術的詳細であり、図 4（オレンジ）に示すように、はるかに良い収束をもたらすことを発見した。しかし、この手法は問題を完全に解決するものではない。なぜなら、活性化ノルムは依然として成長し続け、学習の終わりには $10^{4}$ という高い値に達するからである。

学習中の活性化ノルムの成長をさらに抑えるために、我々は「サンドイッチ」のような正規化 [12, 92]を採用し、活性化ノルムを適切な範囲に保つ。具体的には、各注意機構とフィードフォワードブロックの直後に追加の正規化層を挿入し、効率性のためにLN層をRMSNormに置き換える。図 3に示すように、この修正によって学習中の活性化ノルムの成長がさらに抑制され、図 4（緑）に示すように、わずかにモデルの性能が向上する。

最後に、言語トランスフォーマーの標準的な実践 [73, 13]に従い、FFNブロックのGELU [21]活性化をSwiGLU [63]活性化に置き換える。これにより、学習可能なゲーティングメカニズムを通じて情報の流れを動的に制御することができる。 SwiGLUはLLMでは一般的な選択肢であるが、我々は最終的な性能にはほとんど影響を与えないことに気付いた。

全体として、我々は図 2に記述したアーキテクチャのトランスフォーマーブロックを示し、提案されたアーキテクチャを持つスケール単位のARモデルをSwitti (AR)と呼ぶ。

3.3 Exploring self-attention maps

以下では、事前学習されたSwitti (AR)の異なるスケールにおける注意マップを分析する。具体的には、 $i\geq j$ となる各スケールのペア $s_{i}$ と $s_{j}$ に対して、 $s_{i}$ から $s_{j}$ への平均注意スコアを $\overline{A}_{s_{i},s_{j}}=\frac{1}{|s_{i}|}\sum_{m\in s_{i},n\in s_{j}}A_{mn}$ という式を用いて計算する。ここで、 $A_{mn}$ は元の自己注意マップを表し、 $|s_{i}|$ はスケール $s_{i}$ におけるトークン数を示す。テキストプロンプトのバッチにわたって平均化された可視化結果を図6に示す。画像トークン間の自己注意は主に現在のスケールに集中しており、先行するスケールに対しては著しく弱いことが観察できる。

この注意の挙動に基づき、我々は自己注意層が現在のスケールのトークンにのみ注意を向けるように注意マスクを更新することを提案する（図5（右）参照）。これは、トランスフォーマーがもはやブロック単位で因果的でなくなることを意味し、より安価な注意操作によって効率的なサンプリングが可能になり、キー値（KV）キャッシュの必要性も排除される。興味深いことに、この修正はCLIPスコアとPickScoreの観点からパフォーマンスをわずかに向上させることも図4に示されている。総じて、我々は提案する非因果的トランスフォーマーアーキテクチャを持つスケール単位のモデルをSwittiと呼ぶ。

3.4 The role of text conditioning

最後に、我々は異なるモデルスケールにおけるテキスト条件付けの効果を検証する。具体的には、クロスアテンションマップとサンプリング中にテキストプロンプトを切り替えた際のモデルの挙動を分析する。

Cross-attention.

我々は、異なるスケールにおいて、トランスフォーマーブロックと画像トークン全体で平均化された画像とテキストトークン間のクロスアテンションマップをプロットする。図7は、ランダムに選択されたプロンプトに対する典型的なパターンを示している。ほとんどのスケールにおいて、アテンションスコアは主に最初と最後のトークンに集中しており、最高スケールではプロンプトの冒頭により注目する傾向がある。このパターンは、モデルが高いスケールでプロンプトにあまり依存していないことを示唆している。このような挙動は、異なるプロンプト間で一貫している。

Prompt switching.

次に、我々は特定のスケールから新しいものにテキストプロンプトを切り替えることで、様々なスケールにおけるテキスト条件付けの影響を調査する。プロンプト切り替えの可視化は図8に示されており、追加の例は付録Cに提供されている。実際、最後の2つのスケールでは、プロンプトは画像のセマンティクスにほとんど影響を与えない。興味深いことに、中間スケールでプロンプトを切り替えると、単純な画像ブレンディングアプローチとなる。

Practical implications.

分類器フリーガイダンス（CFG）[25]は、高品質のテキスト条件付き生成のための重要なサンプリング技術であり、各ステップで追加のモデル順伝播を必要とする。特にスケール別モデルでは、最後のスケールでの計算がサンプリングプロセス全体の計算時間の大部分を占める。高解像度での高コストなモデル順伝播を節約するために、我々は最後のスケールでCFGを無効にすることを提案する。これは生成性能にほとんど影響を与えないと予想され、最近の拡散モデルでも指摘されている[36]。

4 Model Training

4.1 Pretraining

Data.

我々は、ウェブから収集した60億組の基本セットから、関連性に特に重点を置いて事前フィルタリングされた1億組の画像-テキストペアのデータセットを収集した。 AADB [35] およびTAD66k [20] の美的フィルターに基づいて、十分に高い美的品質を持つ画像のみを考慮した。さらに、各辺が少なくとも512ピクセルの十分に高解像度の画像を考慮した。このデータセットには、アスペクト比が $[0.75,1.33]$ の範囲内の画像の中央部分が含まれている。画像は、LLaVA-v1.4-13B、LLaVA-v1.6-34B [45]、およびShareGPT4V [9] モデルを使用して再キャプション化された。最良のキャプションは、OpenCLIP ViT-G/14 [62] に従って選択された。

Technical details.

VAR [72] のトランスフォーマースケーリングセットアップに従い、我々のメインモデルのトランスフォーマー層の数を $d{=}30$ に設定し、結果として ${\sim}2.5$ B の学習可能なパラメータとなった。