arXiv	https://arxiv.org/abs/2412.01339
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

Negative Token Merging: Image-based Adversarial Feature Guidance

Jaskirat Singh^α∗ Lindsey Li^β∗ Weijia Shi^β∗ Ranjay Krishna^βχ Yejin Choi^β
Pang Wei Koh^βχ Michael F. Cohen^β Stephen Gould^α Liang Zheng^α Luke Zettlemoyer^β
^βUniversity of Washington ^αAustralian National University ^χAllen Institute for AI

Abstract

ネガティブプロンプトを用いたテキストベースの敵対的誘導は、望ましくない概念から出力特徴を遠ざけるために広く採用されているアプローチとして浮上している。有用ではあるが、テキストのみを用いて敵対的誘導を行うことは、複雑な視覚的概念を捉え、著作権で保護されたキャラクターなどの望ましくない視覚要素を回避するには不十分な場合がある。本稿では、この方向性において初めて、参照画像や同一バッチ内の他の画像から直接視覚特徴を用いて敵対的誘導を行うという別のモダリティを探究する。特に、我々はnegative token merging (NegToMe)を導入する。これは、逆拡散過程において（参照画像と出力生成間の）一致する意味的特徴を選択的に押し離すことで敵対的誘導を行う、シンプルながら効果的なトレーニングフリーのアプローチである。同一バッチ内の他の画像に対して使用した場合、NegToMeは出力画像の品質を犠牲にすることなく、出力の多様性（人種、性別、視覚的）を大幅に向上させることが観察された。同様に、参照著作権資産に対して使用した場合、NegToMeは著作権で保護されたコンテンツとの視覚的類似性を34.57%削減するのに役立つ。NegToMeは数行のコードで実装が簡単であり、推論時間をわずかに( $<4\%$ )増加させるだけで、別のネガティブプロンプトの使用をネイティブにサポートしていないFluxなどの異なる拡散アーキテクチャにも一般化できる。コードはhttps://negtome.github.ioで入手可能である。

1 Introduction

大規模なテキストから画像への (T2I) 拡散モデル [38, 32, 41, 37, 49, 10] は、比類のない進歩を遂げ、強力な画像の生成を可能にしている。これらの進歩にもかかわらず、望ましくない概念の生成を回避するために生成プロセスを敵対的に誘導すること [4] は依然として困難な問題である。このような誘導は、画像品質の向上（低品質の特徴から離れるよう誘導）、出力の多様性の向上（各画像を互いに離れるよう誘導）、著作権で保護されたキャラクターなどの望ましくない概念の回避（図 1、2） [17] など、いくつかの応用において有利である。

この方向性における既存の手法は、主に敵対的誘導のためのネガティブプロンプトの使用に依存している [21, 3]。しかし、敵対的誘導に単にネガティブプロンプトを使用することにはいくつかの制限がある。テキストのみで複雑な視覚的概念を捉えることは困難である（図 2 の公園にいる子供について、ポーズ、行動、背景などのあらゆる詳細を捉えようとすること）。ネガティブプロンプトの単独使用では、望ましくない視覚的特徴を除去するには不十分かもしれない（例えば、図 1 の著作権で保護されたキャラクター）。さらに、Flux [6] のような最先端の誘導蒸留モデルを使用する場合、別個のネガティブプロンプト自体が実行不可能かもしれない。

本稿では、画像を用いて敵対的誘導を行うことにより、この方向性における別のモダリティを探究する。我々の主要な直感は、望ましくない概念を文章で記述することが効果的でない、あるいは実現可能でない場合でも（図2の公園にいる子供など）、参照画像から視覚的特徴を直接使用して生成プロセスを敵対的に誘導できるということである。例えば図2では、子供の服装、配置、姿勢、背景などを網羅的に記述しようとするのではなく、参照画像から視覚的特徴を直接使用して生成プロセスを誘導することを目指す。同様に、ネガティブプロンプトだけでは十分でない場合（図1の著作権で保護されたキャラクターなど）、キャラクター画像を直接使用して敵対的誘導を行うことで、望ましくない概念からの生成をより適切に回避できる。

この目的のために、我々はネガティブトークンマージング（NegToMe）を提案する。これは、逆拡散プロセス中に、参照画像と生成出力の間で意味的に一致する特徴を選択的に引き離すことで敵対的誘導を実現する、シンプルで訓練不要のアプローチである。 NegToMeは数行のコードで実装でき、様々な拡散アーキテクチャに統合可能であり、以下のようなカスタムアプリケーションの範囲を可能にする（図2参照）：1）視覚的に複雑な概念（「公園にいる子供」など）に対する敵対的誘導、2）特定の芸術的要素を除外するためのスタイル誘導、3）ぼやけた参照画像を使用した出力の美的向上、4）オブジェクト特徴の補間または外挿、例えば子猫と若い猫の間（図2）で猫の年齢、サイズなどの視覚的特徴を内挿・外挿する。

Refer to caption — 図2: *画像ベースの敵対的誘導。* 参照を単純に調整するだけで、NegToMeを用いて様々なカスタムアプリケーションが可能となる（例：ぼやけた参照を使用して出力品質を向上させるなど）。

特に、提案されたアプローチの実用的な有用性を示すために、我々はNegToMeの2つの顕著な使用事例を特定する。1) 出力の多様性の向上（同じバッチ内の他の画像に対して実行される場合）、2) 著作権で保護されたキャラクターとの視覚的類似性の低減（著作権で保護されたRAGデータベースに対して実行される場合）である。例えば、最先端の拡散モデルが、しばしば限られた出力の多様性の問題に苦しんでいることが経験的に示されている[29]（例えば、図1の人物のプロンプトに対する限られた人種、性別の多様性）。バッチ全体でNegToMeを使用することは、逆拡散プロセス中に各画像の視覚的特徴を互いに離すことで、本質的にこの問題に対処するのに役立つ。定性的および定量的な結果（セクション4.1参照）を通じて、我々はNegToMeがトレーニングやファインチューニングを必要とせずに、出力の多様性（人種、性別、民族、視覚的）を大幅に向上させることを示す。

同様に、著作権で保護されたRAGデータベースに対して実行される場合（セクション4.2）、我々はNegToMeが著作権で保護されたキャラクターとの視覚的類似性を低減するための従来のネガティブプロンプトベースの敵対的ガイダンス[17]を補完し、改善することを観察する。実験により、その単純さにもかかわらず、提案されたアプローチは、わずかに高い（ $<4\%$ ）推論時間を使用しながら、著作権で保護されたコンテンツとの視覚的類似性を34.57%低減するのに役立つことが明らかになった（セクション4）。

2 Related work

ネガティブプロンプトを用いた敵対的特徴誘導は、様々な応用において広く探究されてきた [21, 4, 17, 2, 47]。注目に値するが、第1節で議論したように、我々はネガティブプロンプトの使用だけでは必ずしも十分でない場合があり（図1、2）、時には実行不可能な場合さえあることを見出した [6]。したがって、本稿では参照画像を直接使用して敵対的誘導を行うという補完的なモダリティを探究する。

トークンマージング [7, 8] は、既存のViT [11] モデルのスループットを向上させるために、トランスフォーマーブロック内の冗長なトークンを徐々にマージすることを提案している。最近の研究 [27, 48] では、編集されたビデオの時間的一貫性をより良く維持するために、ビデオ編集にトークンマージングのアイデアを適用している。対照的に、我々は敵対的特徴誘導を提供するメカニズムとして、フレーム間ネガティブトークンマージングを探究する。

出力の多様性の向上は、拡散モデルのモード崩壊に対処するために探究されてきた [34, 50, 5, 29]。多様性の低下は、訓練データの不均衡、分類器フリーガイダンス [21]、選好最適化ファインチューニング [36, 26] など、複数の要因によって発生し、事前訓練段階で排除することは困難である。これに対処する先行研究では、多くの場合、コストのかかる再訓練やファインチューニングが必要となる [29]。対照的に、我々は出力特徴の意味的多様性を本質的に改善する、シンプルな訓練不要のアプローチを提案する。

著作権の緩和。生成モデルによる著作権侵害に対する懸念の高まりは、近年の文献で大きな注目を集めている [39, 18, 25, 40, 31, 44]。特に差し迫った問題は、拡散モデルによる著作権で保護されたキャラクターの生成である [17, 18, 24, 15, 46]。これらのリスクに対処するための従来の手法は、通常、高コストのファインチューニングとアンラーニング [16, 9, 51] を必要とし、モデルの重みから著作権で保護された情報を除去する。我々の研究（NegToMe）は、トレーニングを必要としない方法で、著作権で保護されたコンテンツとの視覚的類似性を低減するための簡単なアプローチを提供するものである。

3 Negative Token Merging

我々の目標は、既存の拡散モデル[33, 6]にネガティブトークンマージングモジュールを挿入し、バッチ内の他の画像（第4.1節）または実画像入力（第4.2節）に対する敵対的特徴誘導を実行することである。我々のアプローチの核心は、各出力トークン（ソース）を参照画像内の最も適合するトークン（ターゲット）から遠ざけることによって敵対的誘導を行うことである。ネガティブトークンマージングモジュールは、各トランスフォーマーブロックの注意機構とMLPブランチの間に適用される（図3）。具体的には、注意ブロックの出力が与えられた後、まず画像間トークンマッチングを実行して、各出力ソーストークンに対する最適なターゲットトークンを見つける。次に、各ソーストークンを最適なターゲットトークンから遠ざける単純な線形外挿を適用する。図3に概要を示す。

意味的トークンマッチング。 NegToMeの背後にある重要な考え方は、逆拡散プロセス中に各出力トークン（ソース）を参照画像内の意味的に最も近いトークン（ターゲット）から遠ざけることである。これには、生成されたトークンと参照画像内のトークンとの間の正確な意味的トークン間対応（例えば、図3の子供の頭部）の計算が必要である。幸いなことに、中間拡散特徴の豊かな意味構造[45, 52]自体を活用して、ノイズの多い潜在特徴自体を使用して画像間のトークン-トークン類似性を計算することができる。

特に、注意ブロックの出力 $\mathrm{O}_{src}\in\mathbb{R}^{B\times N\times D}$ が与えられた場合（ $B$ はバッチサイズ、 $N$ は画像トークンの数）、我々はまず参照画像トークン $\mathrm{O}_{ref}\in\mathbb{R}^{1\times N\times D}$ に関する類似度を以下のように計算する。

\displaystyle\mathcal{S}(\mathrm{O}_{src},\mathrm{O}_{ref})=\tilde{\mathrm{O}}% _{src}\cdot\tilde{\mathrm{O}}_{ref}^{T};\quad\mathcal{S}\in\mathbb{R}^{B.N% \times N},

(1)

ここで、 $\tilde{\mathrm{O}}_{src},\ \tilde{\mathrm{O}}_{ref}$ はそれぞれフレームレベルで正規化されたソースおよび参照画像トークンを指す。次に、我々は類似度行列 $\mathcal{S}\in\mathbb{R}^{B.N\times N}$ を使用して、各ソーストークンに対する最適なマッチングターゲットトークンを以下のように計算する。

	$\displaystyle\mathrm{O}_{target}=\mathrm{O}_{ref}\ [\mathrm{argmax}\left\{% \mathcal{S}(\mathrm{O}_{src},\mathrm{O}_{ref})\right\}]$		(2)
	$\displaystyle\mathrm{O}_{{target}}=\mathrm{H}\odot\mathrm{O}_{target}+(1-% \mathrm{H})\odot\mathrm{O}_{src},$		(3)

ここで、 $\mathrm{H}=\mathds{1}\left[\mathrm{max}\{\{\mathcal{S}(\mathrm{O}_{src},% \mathrm{O}_{ref})\}>\tau\right]$ は、ソーストークンとソースからターゲットへのトークン類似度が閾値 $\tau$ 未満の場合（すなわち、適切な意味的マッチが利用できない場合）、負のトークンマージング中に変更されないことを保証するのに役立つ。

アルゴリズム1 NegToMe: 負のトークンマージング

⬇

def NegToMe(x_src, x_ref, alpha, threshold):

"""

␣␣␣␣x_src:␣[B,␣N,␣D]

␣␣␣␣x_ref:␣[N,␣D]

␣␣␣␣alpha:␣float

␣␣␣␣threshold:␣float

␣␣␣␣"""

# 1) 正規化

x_src_norm = F.normalize(x_src, dim=-1)

x_ref_norm = F.normalize(x_ref, dim=-1)

# 2) コサイン類似度

cosine_similarity = x_src_norm @ x_ref_norm.T

# 3) ソースからターゲットへのマッチを見つけて並べ替え

max_similarity, argmax_indices = cosine_similarity.max(dim=-1)

x_target = x_ref[argmax_indices]

# 4) 閾値処理とマージ

threshold_mask = max_similarity > threshold

x_merge = torch.where(

threshold_mask.unsqueeze(-1),

(1 + alpha) * x_src - alpha * x_target,

x_src)

return x_merge

ソースからターゲットへのトークン外挿。 ターゲットトークン行列がソーストークン $\mathrm{O}_{src}$ に対して意味的にマッチングされた状態で、我々は次にソースとターゲットトークン間で単純な線形外挿を以下のように実行する。

\displaystyle\mathrm{O}_{merge}=(1+\alpha_{t})\ \mathrm{O}_{src}-\alpha_{t}\ % \mathrm{O}_{target},

(4)

ここで、 $\alpha_{t}$ は時間依存のアフィン係数であり、逆拡散過程においてソースとターゲットトークンがどの程度引き離されるかを制御するのに役立つ。

マスクされた敵対的ガイダンス。参照画像全体に対して敵対的ガイダンスを実行することは有用である（例えば、多様性の増加）が、提供された参照の特定の部分に対してのみ敵対的ガイダンスを実行したい場合もある。例えば、著作権緩和（4.2節）を実行する際、背景のノイズや特徴に影響されることなく、著作権で保護されたキャラクターに関してのみ視覚的類似性を減少させたい場合がある。同様に、マスクされたガイダンスは、提供された参照画像の特定のサブパーツ（例えば、赤い帽子、口ひげ、ポニーテール）に対して敵対的ガイダンスを実行する際にも有用である可能性がある。

特に、参照画像に対する追加のマスクバイナリ入力 $\mathrm{M}_{ref}$ が与えられた場合、我々はソースからターゲットへの類似性 $\mathcal{S}\in\mathbb{R}^{B.N\times N}$ の計算にバイアス項を導入することで、以下のようにマスクされた敵対的ガイダンスを実行できる。

\displaystyle\mathcal{S}(\mathrm{O}_{src},\mathrm{O}_{ref})=\tilde{\mathrm{O}}% _{src}\cdot\tilde{\mathrm{O}}^{T}_{ref}+\log(\tilde{M}_{ref}+\epsilon),

(5)

ここで、 $\epsilon=10^{-6}$ および $\tilde{M}_{ref}\in\mathbb{R}^{1\times N}$ は、元のマスク $\mathrm{M}_{ref}$ をアテンションブロック出力 $\mathrm{O}_{src}\in\mathbb{R}^{B\times N\times D}$ の対応するシーケンス長 $N$ に合わせてリサイズおよびフラット化したものである。

MM-DiTモデルへの応用。提案手法の主要な利点は、Fluxのような指導蒸留型MM-DiTアーキテクチャにも容易に拡張可能なことである[6]。これらのアーキテクチャは、本来別個のネガティブプロンプトの使用をサポートしていない。特に、結合注意ブロックの出力 $\mathrm{O}_{joint}\leftarrow(\mathrm{O}_{text},\mathrm{O}_{img})$ が与えられた場合[6, 13]、NegToMeは以下のように容易に適用できる。

\displaystyle\mathrm{O}_{joint}\leftarrow\{\mathrm{O}_{text}\ \oplus\ f_{neg}(% \mathrm{O}_{img},\ \mathrm{O}_{ref},\alpha_{t},\tau)\},

(6)

ここで、 $f_{neg}(.)$ はアルゴリズム1のNegToMe関数であり、 $\oplus$ はシーケンス長に沿った行列連結操作である。

4 Experiments

本節では、NegToMeの2つの主要な応用について、我々のアプローチの実用的有用性を実証する。すなわち、出力の多様性の向上（4.1節）と、著作権で保護されたキャラクターとの視覚的類似性の低減（4.2節）である。さらに、5節では、NegToMeのより一般的な応用例を紹介する。

4.1 Increasing Output Diversity

我々は、バッチ内の他の画像に対して負のトークンマージングを実行する際の、出力の多様性を向上させるための我々のアプローチの性能を評価する。視覚的な比較を容易にするため、各バッチの最初の画像に対して負のトークンマージングを実行する。特に明記しない限り、すべての結果は同じテキストから画像生成のベースモデル [33, 6] を使用し、単一のNvidia-H100 GPUで報告されている。

データセットとセットアップ。 まず、20の一般的なオブジェクトカテゴリ（例えば、動物、女性、鳥、車など）を7つの異なるプロンプトテンプレート（例えば、「〜の写真」、「〜のハイコントラスト画像」）にわたって含む入力プロンプトデータセットを構築する¹¹1我々はCIFAR10画像分類用のCLIPプロンプトテンプレート [35] を採用し、低品質を示唆するもの（例えば、"ぼやけた〜の写真"）を除外した。各カテゴリについて、NegToMeありとなしの両方で、10のランダムシード（バッチあたり4つ）で280枚の画像をサンプリングする。FID [20] 計算用の実際の画像は、LAION-Aesthetics-v2 6+データセット [43] から取得し、各カテゴリについてCLIP [35] を使用して上位1K枚の画像を取得する。

評価指標。 [21] に従い、出力品質の結果を1) FID [20] と2) Inception Score (IS) [42] を用いて報告する。 3) ペアワイスdreamsimスコア [14]: 出力特徴の多様性を測定するために使用される。4) VQAScore [28] と5) CLIPScore [19] は画像とテキストの整合性を評価するために使用される。さらに [12] に従い、6) エントロピースコアも使用する。これは特定のオブジェクトカテゴリ（例えば、人物）の出力がそのサブカテゴリ（人種、性別、民族など）にどの程度分散しているかを測定する。人間の画像については、FairFace分類器 [22] を使用して人種、性別、年齢を検出する。非人間カテゴリ（例えば、鳥）については、WordNet [30] を介してサブカテゴリを抽出し、CLIPを使用して分類する。

定量的結果。 結果は図4に示されている。NegToMeは、SDXLとFLUXの両方において、異なるclassifier-free guidance (cfg)スケール [21] にわたって、品質を維持または向上させながら（すなわち、FIDが低下しISが向上）、出力の多様性を向上させる（すなわち、Dreamsimスコアが低下しエントロピーが向上）のに役立つことが観察される。我々はまた、実際の人間のユーザーを用いて、提案手法の多様性、品質、プロンプトとの整合性を評価する人間評価を実施した（図8）。自動指標評価と同様に、NegToMeは出力画像の品質とプロンプトとの整合性能を犠牲にすることなく、出力の多様性を向上させるのに役立つことが観察される。

Method	Dreamsim $\downarrow$	CLIPScore $\uparrow$	IS $\uparrow$	Inf. Time $\downarrow$
Base Prompt	0.812	0.334	3.197	13.2 s
Base Prompt + Ours	0.780	0.336	3.355	13.7 s
PW (gpt-4o)	0.743	0.332	3.686	15.4 s
PW + Ours	0.712	0.333	3.747	15.9 s

定性的結果。 我々は、ベースモデルSDXL（図1および5）とFLUX（図9）について、NegToMeありとなしの出力を可視化する。チェリーピッキングを避けるため、すべての可視化は固定シード $0$ からのものである。ベースモデルはしばしばモード崩壊の問題に悩まされ、生成された画像は限られた視覚的特徴の多様性を示す（例えば、図5の視覚的に類似したドラゴン/建物、図9の猫）ことが観察される。また、プロンプトが一般的なカテゴリに関するものであっても、出力が単に同じサブカテゴリに崩壊することがある（例えば、図5の水生生物）。対照的に、その単純さにもかかわらず、NegToMeは基礎となる拡散事前分布をより良く活用し、人口統計（例えば、図1の人物）、サブカテゴリ（例えば、図5の水生生物）、視点（例えば、図5のドラゴン）、画像レイアウト、ポーズ、前景と背景の両方の視覚的外観（例えば、図9の子供）などの点で多様な画像を生成することができる。

Mitigation Strategy		Evaluation Metrics
NegPrompt	NegToMe	Dreamsim $\downarrow$	VQAScore $\uparrow$	CLIPScore $\uparrow$	IS $\uparrow$
✗	✗	0.766	0.913	0.344	3.431
✓	✗	0.684	0.876	0.339	3.790
✗	✓	0.703	0.906	0.346	3.678
✓	✓	0.638	0.879	0.339	3.864

表1: 著作権の緩和。 NegToMeは、T2Iの性能を維持しながら、著作権のあるキャラクターとの視覚的類似性を減少させる。

明示的なプロンプト書き換えによる出力の多様性。 NegToMeの主要な利点は、広範なプロンプト書き換えの必要なしに多様性を向上させることができる点である。プロンプト書き換えは、多様性を向上させるための実行可能ではあるが高価な（時間とメモリの面で）アプローチとしても存在する。これは特に、ユーザーのプロンプトが非常に詳細で長い場合に関連性がある。プロンプト書き換え設定との公平な比較を提供するため、我々はまず多様な設定にわたる20の詳細なプロンプトのセットを作成する（付録参照）。各プロンプトについて、大規模言語モデル [1] を使用して、元のベースプロンプトの多様なバリエーションを生成する。ベースプロンプトと書き換えられたプロンプトの両方の最終画像は、10のランダムシードにわたってサンプリングされる。結果は図6

4.2 Copyright Mitigation

次に、著作権で保護された画像RAGデータベースに対してNegToMeを実行する際に、著作権で保護されたキャラクターとの視覚的類似性を減少させる我々のアプローチの有効性を示す。

データセットとセットアップ。 我々はまず、50の著作権で保護されたキャラクター（例えば、マリオ、エルサ、バットマン）のデータセットを構築し、これらのキャラクターの名前を明示的に言及せずにトリガーするための入力プロンプトを作成する（付録参照）。各キャラクターについて、多様な設定でキャラクターを描写する約30枚の高品質画像からなる参照データセットをコンパイルする。マスクされた負のトークンマージングは、各プロンプトに対して、参照データセットから最も適合するRAGアセット（最高のDreamsimスコアを持つアセット）を使用して実行される。各アセットのマスクはHQ-SAM [23]を使用して計算される。

定性的結果。 結果は図 7 (SDXL)と図 9 (Flux)に示されている。我々は、ベースモデルが入力プロンプトで対応するキャラクター名が言及されていない場合でも、依然として著作権で保護されたキャラクターを生成することを観察した。負のプロンプトとしてキャラクター名を単独で使用するだけでは多くの場合十分ではなく、出力画像は依然として著作権で保護されたキャラクターとの高い視覚的類似性を示す。対照的に、キャラクターの視覚的特徴を直接使用して敵対的ガイダンスを適用することで、NegToMeは著作権で保護されたキャラクターとの類似性を減少させつつ、テキストから画像への整合性を維持する。

Method	AES $\uparrow$	VQAScore $\uparrow$	CLIPScore $\uparrow$	Human Pref. $\uparrow$
Flux-Dev	6.428	0.866	0.320	22.5 %
Flux-Dev + Ours	6.604	0.861	0.322	77.5 %

定量的結果。 我々は、ベースモデルSDXLを使用してアプローチを評価し、純粋な負のプロンプトによる著作権軽減戦略と比較する。各プロンプトに対して、50の異なるランダムシードで50枚の画像をサンプリングする。評価には、1) 著作権で保護されたキャラクターとの視覚的類似性を測定するために、すべてのRAGアセット（NegToMeに使用された参照を除く）にわたる最大DreamSimスコア [14]、2) テキストから画像への整合性のためのVQAScore [28]、CLIPScore [19]、3) 画像品質のためのIS [20]を使用する。結果は表 1に示されている。我々は、NegToMeがテキストから画像への整合性と画像品質を犠牲にすることなく、著作権で保護されたキャラクターとの視覚的類似性を減少させることを観察した。さらに、NegToMeは負のプロンプトと相補的であり、両方の手法を組み合わせた場合に最高のパフォーマンスが達成される。

5 Method Analysis and Applications

出力の美的品質の向上。 図2で示したように、我々はNegToMeが参照入力を適切に調整することで、様々なカスタムアプリケーションを可能にすることに注目している。特筆すべきは、品質の低い画像を参照として使用する場合、NegToMeはトレーニングやファインチューニングを必要とせずに出力の美的品質と画像品質を向上させることができる点である[36]（図10）。

テキストガイダンススケールにおける変化。 結果は図11に示されている。我々は、従来のテキストベースの分類器フリーガイダンス[21]が出力の多様性と画像品質の間でトレードオフに苦しんでいることを観察した。対照的に、NegToMeは分類器フリーガイダンスの異なるスケールにわたって画像品質を維持しながら出力の多様性を向上させることができることを発見した。興味深いことに、NegToMeによる出力の多様性の増加は、特に低いcfg値において、しばしば出力画像品質の向上を伴うことも観察された。これは、低いcfgスケールで品質の低い参照画像（ライオン：図11）を使用することによって起こり、多様性を向上させるだけでなく、出力画像の美的品質と詳細さも向上させる傾向がある（1行目の子羊、犬：図11）。

マージングアルファによる変化。 結果は図12に示されている。我々は、NegToMeが出力画像の多様性を制御するための使いやすいメカニズムを提供することを観察した。図12に見られるように、 $\alpha$ （第3節）の値を徐々に増加させることで、ユーザーは人種、性別、民族、照明、スタイルなどの点で出力の多様性を容易に制御できることを観察した。

6 Conclusion

本稿では、NegToMeを紹介する。これは、従来のテキストベースのネガティブプロンプトガイダンスを補完する、シンプルで訓練不要のアプローチであり、参照画像の視覚的特徴を直接使用して敵対的ガイダンスを実行する。NegToMeはシンプルで訓練不要であり、わずか数行のコード（アルゴリズム1）で最先端の拡散モデルのほとんどに組み込むことができる。参照画像を単に変更するだけで、NegToMeは出力の多様性の向上（セクション4.1）、著作権で保護された画像との類似性の低減（セクション4.2）、出力の美的品質の改善（図10）など、様々なカスタムアプリケーションを可能にする。これらは平均して、推論時間をわずか $<4\%$ 増加させるだけである。我々は、この研究が多様な創造的アプリケーションのために、ユーザーが最先端の拡散モデルをより良く活用するのに役立つことを期待している。

Acknowledgments

我々は、実験設計および定量的評価に関する有益な議論とフィードバックを提供してくれたIshan Misra氏に感謝の意を表する。また、ネガティブトークンマージングに関する初期の議論を行ってくれたJonas Kohler氏とJunshen Chen氏にも感謝している。

References

[1] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
[2] Andrew. How to use negative prompts?, 2023.
[3] Mohammadreza Armandpour, Ali Sadeghian, Huangjie Zheng, Amir Sadeghian, and Mingyuan Zhou. Re-imagine the negative prompt algorithm: Transform 2d diffusion into 3d, alleviate janus problem and beyond. arXiv preprint arXiv:2304.04968, 2023.
[4] Yuanhao Ban, Ruochen Wang, Tianyi Zhou, Minhao Cheng, Boqing Gong, and Cho-Jui Hsieh. Understanding the impact of negative prompts: When and how do they take effect? arXiv preprint arXiv:2406.02965, 2024.
[5] Hritik Bansal, Da Yin, Masoud Monajatipoor, and Kai-Wei Chang. How well can text-to-image generative models understand ethical natural language interventions? arXiv preprint arXiv:2210.15230, 2022.
[6] Andreas Blattmann, Axel Sauer, Dominik Lorenz, Dustin Podell, Frederic Boesel, Harry Saini, Jonas Müller, Kyle Lacey, Patrick Esser, Robin Rombach, Sumith Kulal, Tim Dockhorn, Yam Levi, and Zion English. Scaling rectified flow transformers for high-resolution image synthesis. https://github.com/black-forest-labs/flux, 2024. Accessed: 2024-09-12.
[7] Daniel Bolya, Cheng-Yang Fu, Xiaoliang Dai, Peizhao Zhang, Christoph Feichtenhofer, and Judy Hoffman. Token merging: Your vit but faster. arXiv preprint arXiv:2210.09461, 2022.
[8] Daniel Bolya and Judy Hoffman. Token merging for fast stable diffusion. CVPR Workshop on Efficient Deep Learning for Computer Vision, 2023.
[9] Hila Chefer, Yuval Alaluf, Yael Vinker, Lior Wolf, and Daniel Cohen-Or. Attend-and-excite: Attention-based semantic guidance for text-to-image diffusion models. ACM Transactions on Graphics (TOG), 42(4):1–10, 2023.
[10] Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, et al. Emu: Enhancing image generation models using photogenic needles in a haystack. arXiv preprint arXiv:2309.15807, 2023.
[11] Alexey Dosovitskiy. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
[12] Ahmed Elgammal. Can: Creative adversarial networks, generating “art” by learning about styles and deviating from style norms. arXiv preprint arXiv:1706.07068, 6:2017, 2017.
[13] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first International Conference on Machine Learning, 2024.
[14] Stephanie Fu, Netanel Tamir, Shobhita Sundaram, Lucy Chai, Richard Zhang, Tali Dekel, and Phillip Isola. Dreamsim: Learning new dimensions of human visual similarity using synthetic data. arXiv preprint arXiv:2306.09344, 2023.
[15] Aditya Golatkar, Alessandro Achille, Luca Zancato, Yu-Xiang Wang, Ashwin Swaminathan, and Stefano Soatto. CPR: Retrieval Augmented Generation for Copyright Protection. In CVPR, 2024.
[16] Chao Gong, Kai Chen, Zhipeng Wei, Jingjing Chen, and Yu-Gang Jiang. Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models, 2024.
[17] Luxi He, Yangsibo Huang, Weijia Shi, Tinghao Xie, Haotian Liu, Yue Wang, Luke Zettlemoyer, Chiyuan Zhang, Danqi Chen, and Peter Henderson. Fantastic copyrighted beasts and how (not) to generate them. arXiv preprint arXiv:2406.14526, 2024.
[18] Peter Henderson, Xuechen Li, Dan Jurafsky, Tatsunori Hashimoto, Mark A. Lemley, and Percy Liang. Foundation Models and Fair Use. ArXiv, abs/2303.15715, 2023.
[19] Jack Hessel, Ari Holtzman, Maxwell Forbes, Ronan Le Bras, and Yejin Choi. Clipscore: A reference-free evaluation metric for image captioning. arXiv preprint arXiv:2104.08718, 2021.
[20] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30, 2017.
[21] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
[22] Kimmo Kärkkäinen and Jungseock Joo. Fairface: Face attribute dataset for balanced race, gender, and age. ArXiv, abs/1908.04913, 2019.
[23] Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, and Fisher Yu. Segment anything in high quality. In NeurIPS, 2023.
[24] Katherine Lee, A Feder Cooper, and James Grimmelmann. Talkin”bout ai generation: Copyright and the generative-ai supply chain. arXiv preprint arXiv:2309.08133, 2023.
[25] Katherine Lee, A. Feder Cooper, and James Grimmelmann. Talkin’ ’Bout AI Generation: Copyright and the Generative-AI Supply Chain, 2024.
[26] Kimin Lee, Hao Liu, Moonkyung Ryu, Olivia Watkins, Yuqing Du, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, and Shixiang Shane Gu. Aligning text-to-image models using human feedback. arXiv preprint arXiv:2302.12192, 2023.
[27] Xirui Li, Chao Ma, Xiaokang Yang, and Ming-Hsuan Yang. Vidtome: Video token merging for zero-shot video editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7486–7495, 2024.
[28] Zhiqiu Lin, Deepak Pathak, Baiqi Li, Jiayao Li, Xide Xia, Graham Neubig, Pengchuan Zhang, and Deva Ramanan. Evaluating text-to-visual generation with image-to-text generation. arXiv preprint arXiv:2404.01291, 2024.
[29] Zichen Miao, Jiang Wang, Ze Wang, Zhengyuan Yang, Lijuan Wang, Qiang Qiu, and Zicheng Liu. Training diffusion models towards diverse image generation with reinforcement learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10844–10853, 2024.
[30] George A Miller. Wordnet: a lexical database for english. Communications of the ACM, 38(11):39–41, 1995.
[31] Sewon Min, Suchin Gururangan, Eric Wallace, Weijia Shi, Hannaneh Hajishirzi, Noah A Smith, and Luke Zettlemoyer. SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore. In ICLR, 2023.
[32] Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. Glide: Towards photorealistic image generation and editing with text-guided diffusion models. arXiv preprint arXiv:2112.10741, 2021.
[33] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.
[34] Yiming Qin, Huangjie Zheng, Jiangchao Yao, Mingyuan Zhou, and Ya Zhang. Class-balancing diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18434–18443, 2023.
[35] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
[36] Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 2024.
[37] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 2022.
[38] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models, 2021.
[39] Matthew Sag. The new legal landscape for text mining and machine learning. J. Copyright Soc’y USA, 66:291, 2018.
[40] Matthew Sag. Copyright safety for generative ai. Forthcoming in the Houston Law Review, 2023.
[41] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S Sara Mahdavi, Rapha Gontijo Lopes, et al. Photorealistic text-to-image diffusion models with deep language understanding. arXiv preprint arXiv:2205.11487, 2022.
[42] Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. Improved techniques for training gans. Advances in neural information processing systems, 29, 2016.
[43] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki. Laion-400m: Open dataset of clip-filtered 400 million image-text pairs. arXiv preprint arXiv:2111.02114, 2021.
[44] Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu, Terra Blevins, Danqi Chen, and Luke Zettlemoyer. Detecting Pretraining Data from Large Language Models. In The Twelfth International Conference on Learning Representations, 2024.
[45] Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, and Bharath Hariharan. Emergent correspondence from image diffusion. Advances in Neural Information Processing Systems, 36:1363–1389, 2023.
[46] Boyi Wei, Weijia Shi, Yangsibo Huang, Noah A. Smith, Chiyuan Zhang, Luke Zettlemoyer, Kai Li, and Peter Henderson. Evaluating copyright takedown methods for language models, 2024.
[47] Max Woolf. Stable diffusion 2.0 and the importance of negative prompts for good results, 2023. Accessed: [insert date].
[48] Bichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, and Peter Vajda. Fairy: Fast parallelized instruction-guided video-to-video synthesis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8261–8270, 2024.
[49] Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, et al. Scaling autoregressive models for content-rich text-to-image generation. arXiv preprint arXiv:2206.10789, 2022.
[50] Cheng Zhang, Xuanbai Chen, Siqi Chai, Chen Henry Wu, Dmitry Lagun, Thabo Beeler, and Fernando De la Torre. Iti-gen: Inclusive text-to-image generation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3969–3980, 2023.
[51] Gong Zhang, Kai Wang, Xingqian Xu, Zhangyang Wang, and Humphrey Shi. Forget-me-not: Learning to forget in text-to-image diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1755–1764, 2024.
[52] Junyi Zhang, Charles Herrmann, Junhwa Hur, Luisa Polania Cabrera, Varun Jampani, Deqing Sun, and Ming-Hsuan Yang. A tale of two features: Stable diffusion complements dino for zero-shot semantic correspondence. Advances in Neural Information Processing Systems, 36, 2024.