VRAM最適化テクニック|FP8量子化・モデルオフロード
ComfyUI(ノードをつないで画像生成AIを動かすツール)で画像や動画を生成していると、突然「CUDA out of memory」というエラーが表示されて作業が止まった経験はありませんか。特にFlux(フラックス)やWan2.2のような大型モデルを扱うと、16GBのVRAMでも不足するケースがあります。
しかし、適切なVRAM最適化を施せば、8GBクラスのGPUでもこうしたモデルを動かせます。量子化やオフロードといった手法を組み合わせることで、高価なGPUに買い替えなくても、生成品質をほぼ維持したまま作業を続けられます。数万〜十数万円のGPU買い替えを先延ばしにできる、という意味で影響の大きい対策です。
この記事では、ComfyUIのVRAM最適化テクニックを6つのカテゴリに分けて解説します。FP8・GGUF量子化の定量データから、2026年4月現在の主流となったDynamic VRAMやSage Attention、CLIPアンロードやタイルVAEといった実務テクまで、具体的な手順を紹介します。
モデル別VRAM消費の目安を知る
ComfyUIのVRAM最適化を始める前に、まず自分が使うモデルがどれだけのVRAMを必要とするかを把握しておくと安心です。
SD1.5・SDXL・Fluxの必要VRAM
画像生成モデルのVRAM消費量は、モデルのパラメータ数と精度(FP16/FP32)で決まります。以下は512×512(SD1.5)または1024×1024(SDXL・Flux)で1枚生成する場合の目安です(2026年4月現在、量子化前提の数値を含みます)。
| モデル | パラメータ数 | FP16時のVRAM | FP8時のVRAM | 推奨VRAM |
|---|---|---|---|---|
| SD1.5 | 約8.6億 | 約4GB | 約2.5GB | 6GB以上 |
| SDXL | 約35億 | 約7GB | 約4.5GB | 8GB以上 |
| Flux Dev | 約120億 | 約24GB | 約12GB | 16GB以上 |
| Flux Dev(GGUF Q5_K_S) | 約120億 | : | 約6〜8GB | 8GB以上 |
FluxはFP16のままでは24GBのVRAMを必要とします(Apatero: FLUX GGUF Quantization Guide 2026)。しかしFP8量子化やGGUFを活用すれば、8GBのGPUでも動作可能です。モデル選定の詳細はFluxモデル完全ガイドで整理しています。
動画モデル(Wan2.2・HunyuanVideo)のVRAM目安
動画生成モデルは画像生成よりもはるかに多くのVRAMを消費します。フレーム数や解像度によって消費量が大きく変わる点にも注意が必要です(2026年4月現在)。
| モデル | 標準VRAM | 最適化後のVRAM | 備考 |
|---|---|---|---|
| Wan2.2(5Bパラメータ) | 約16GB | 約6〜8GB | GGUF Q5で8GB動作可 |
| Wan2.2(14Bパラメータ) | 約65〜80GB | 約16〜24GB | 720p基準 |
| HunyuanVideo | 約24GB以上 | 約12GB | 量子化+オフロード併用 |
実務では、動画生成を本格的に行う場合は24GB以上のVRAMを備えたGPUを用意するのが理想的です。ただし上の表のとおり、量子化を使えば12〜16GBでも生成自体は可能になります。手元のGPUで試してみて、速度と品質のバランスを見極めるのが現実的な進め方です。
FP8・GGUF量子化でVRAMを半分以下に抑える
VRAMが足りないとき、最も効果的な対策がモデルの量子化です。モデルの重みデータの精度を下げることで、品質をほぼ維持したままVRAM消費を大幅に減らせます。イメージとしては、印刷用の高解像度写真データを、Web表示用に軽いJPEGに圧縮する作業に近いものです。見た目ではほぼ違いがわからないまま、ファイルサイズだけが大きく減ります。
FP8量子化の仕組みと効果
FP8(8ビット浮動小数点)は、通常のFP16(16ビット)の半分のメモリで重みを保持できる形式です。ComfyUIでは「fp8_e4m3fn」と「fp8_e5m2」の2形式が利用でき、前者は精度寄り、後者はダイナミックレンジ寄りのトレードオフで設計されています。
FP8の定量効果は次のとおりです(2026年4月現在)。
- VRAM消費をFP16比で約40〜50%削減
- RTX 40シリーズ以降でFP16比約1.6倍の推論高速化(blog.comfy.org: Dynamic VRAM)
- 画質劣化はほぼ目視で判別不可能なレベル
Flux DevをFP8で動かした場合でもFP16版と体感差はほぼなく、8GB GPUユーザーがまず試すべき最適化手法になっています。Dynamic VRAM(後述)と組み合わせれば、RTX 4060(8GB)で本来20〜30GBが必要とされるモデルでも動作するという報告も海外コミュニティから出ています。
FP8チェックポイントの使い方
FP8量子化済みのチェックポイント(学習済みモデル本体のデータファイル)をComfyUIで使う方法は2つあります。
方法1: FP8チェックポイントを直接ダウンロードする
CivitaiやHugging Faceには、あらかじめFP8に変換されたチェックポイントが公開されています。ファイル名に「fp8」と含まれるものを選んでダウンロードし、ComfyUIの models/checkpoints フォルダに配置するだけで使えます。
方法2: ComfyUI上でFP8に変換する
ComfyUI-ModelQuantizerなどのカスタムノードを使えば、既存のFP16モデルをFP8に変換できます。Load Checkpointノードで読み込んだモデルを、Quantize Model Scaledノードに接続するだけで変換が完了します。
GGUF量子化という選択肢
FP8よりもさらにVRAMを節約したい場合は、GGUF形式の量子化モデルが有効です。GGUFは段階的な圧縮レベルを選べるため、VRAMと品質のバランスを細かく調整できます。特にDiT/Transformer系モデル(Flux・SD3等)では量子化耐性が高く、海外の実務ユーザーの間で標準的な選択肢として定着しています。
Flux DevのGGUF量子化レベル別のVRAM消費目安は以下のとおりです(2026年4月現在、ファイルサイズがほぼVRAM消費に等しいという経験則に基づきます)。
| 量子化レベル | VRAM消費目安 | 品質・用途 |
|---|---|---|
| Q8 | 約12〜13GB | FP16に近い品質、12GB以上のGPU向け |
| Q5_K_S | 約6〜8GB | 8GB GPUでの実質的な標準、品質バランス良好 |
| Q4_K_S | 約4〜6GB | 最小VRAM、細部でやや劣化 |
GGUFを使うには、city96氏のComfyUI-GGUF拡張をインストールします。テキストエンコーダー(T5-XXL)にもFP8版やGGUF版を使うと、さらに1〜2GBの節約になります。
起動オプションとDynamic VRAMで使用量を制御する
ComfyUIには、VRAMの使い方を制御する2系統の仕組みがあります。机の上が散らかってきたときに、使っていない書類を自動で棚に戻してくれる助手がいる状態に似ていて、Dynamic VRAMがその自動整理を担い、足りないときだけ手動でCLIフラグを追加するのが2026年4月現在の基本構成です。
Dynamic VRAMは2025年後半からデフォルト有効
Dynamic VRAMは、モデルの重みをGPUとCPU(システムRAM)の間で動的にやり取りするカスタムPyTorchアロケータです。使わないモデルのデータを自動的にシステムRAMへ退避させるため、複数モデルの切り替えでもOOMが発生しにくくなります。
2025年後半のアップデート以降、NVIDIA環境のWindows/Linuxでデフォルト有効となっており(Comfy-Org Discussion #12699)、ユーザー側の追加設定は原則不要です。最新版ComfyUIを使っていれば、この土台の上でFP8やGGUFと組み合わせて動く形になります。
あわせてPinned Memory(ピン留めメモリ)もデフォルトで有効化されています。システムRAMのページをディスクスワップから保護し、モデル読み込み時の遅延を減らす仕組みです。
–lowvram/–novram/–reserve-vramの使い分け
Dynamic VRAMだけでも多くのケースで足りますが、それでもOOMが出る場合はCLIフラグで手動制御します。ComfyUIの起動時に追加できる主なオプションは以下のとおりです(2026年4月現在)。
| オプション | 動作 | 向いている環境 |
|---|---|---|
| (指定なし) | Dynamic VRAMで自動管理 | 12GB以上のGPU |
--highvram |
モデルを常時VRAM常駐 | 24GB以上のGPU |
--lowvram |
UNetをパーツ分割してVRAM使用量を削減 | 6〜8GBのGPU |
--novram |
モデルをCPU側に配置し、必要な部分だけGPUへ転送 | 4〜6GBのGPU |
--cpu |
GPUを使わずCPUのみで推論 | GPU非搭載の環境 |
--lowvramは生成速度が20〜40%低下しますが、OOMエラーを回避できます。--novramはさらに遅くなるものの、4GBのGPUでも動作させられる最終手段です(Apatero: VRAM Optimization Flags Guide)。
使い方は、ComfyUIの起動コマンドに引数を追加するだけです。
python main.py --lowvram
ブラウザや動画編集ソフトと同時にComfyUIを使う場合、--reserve-vramオプションが役立ちます。指定したGB分のVRAMをOS・他アプリ用に確保し、残りをComfyUIが使います。
python main.py --reserve-vram 2.0
上記の例では2GBをシステム用に予約します。8GBのGPUなら、ComfyUIは残りの約6GBを使って動作します。業務用PCで画像生成と他アプリを並行して使う方には必須の指定です。
Async Offloadとtorch.compile併用時の注意
Async Offload(非同期オフロード)は、モデルデータの転送をバックグラウンドで処理する機能です。GPUが推論計算をしている間に次のデータ転送を並行して行うため、全NVIDIA GPUで10〜50%の速度向上が見込めます。Intel XPUなどにも対応が広がっています。
ただしtorch.compileと併用した際の互換問題が報告されており(Issue #10957系の議論)、両者を同時に有効化する場合は最新版のChangelogで修正状況を確認しておくと安心です。
CLIPテキストエンコーダをアンロードして節約
Flux系のワークフローでは、プロンプトを埋め込みへ変換するCLIP/T5テキストエンコーダ(文字列を数値に変換する部分)だけで数GBのVRAMを使います。埋め込みを取得した後にこのエンコーダをVRAMから解放するだけで、メインのUNet/DiT推論に使える領域が広がります。
定番カスタムノードはComfyUI-Unload-Modelで、Text Encodeの後段にUnloadノードを挟むだけで適用できます。8GB環境でFluxを動かす際にはほぼ必須のテクニックです。
xformers・torch.compile・Sage Attentionで効率化する
VRAMの「量」だけでなく「使い方の効率」を改善するアプローチも大切です。
xformersの導入と効果
xformersはMeta社が開発したメモリ効率の高いアテンション機構ライブラリです。標準のアテンション計算ではVRAMをO(n²)で消費しますが、xformersはチャンク処理によってこれをほぼ線形に抑えます。
海外の複数ベンチマーク記事では、xformersの導入で以下の効果が報告されています。
- VRAM消費を15〜25%削減(1024×1024のアテンション部分が16GBから約4GBへ)
- 生成速度が15〜25%向上
- 特にSDXL以上の高解像度モデルで効果大
導入はpipコマンド1行で完了します。
pip install xformers
ComfyUIは起動時にxformersを自動検出して使用します。ただしPyTorchとCUDAのバージョンとの互換性には注意してください。バージョン不整合で起動しなくなる事故が一定数あるため、インストール前にPyTorchのバージョンを確認しておくと安全です。
torch.compileによる最適化
PyTorch 2.0以降に搭載されたtorch.compileは、推論グラフを最適化して実行速度を高める機能です。xformersと似た効果がありますが、PyTorchネイティブの機能なので互換性の問題が起きにくい利点があります。
torch.compileはxformersと同等かやや上回る速度改善を得られる場面が多いです。ただしモデル構造によってはグラフブレーク(最適化の中断)が発生する場合があります。最新のPyTorchを使うことで、この問題は軽減されます。
Sage Attentionは2026年4月現在の主流
海外のComfyUIコミュニティでは、2026年4月現在Sage Attentionがxformersと並ぶ主流の高速化手段として確立しています。INT8量子化をアテンション計算内部に適用する実装で、メモリ効率と速度のバランスに優れます。
さらにComfyUI-WanVideoWrapper #1381で報告されているとおり、torch.compileとの統合もすでに動作しており、「torch.compile × Sage Attention」の組み合わせが動画モデル系で高い評価を得ています。推奨優先順位としては、2026年4月現在は「Sage Attention → torch.compile → xformers」の順で試すのが現実的な選択です。
ComfyUIに必要なPCスペック|VRAM・メモリの目安を整理も合わせて確認しておくと、ハードウェアとソフトウェアの両面から環境を固められます。
バッチサイズ・解像度・タイルVAEを調整する
ソフトウェアの設定だけでなく、生成パラメータの調整もVRAM最適化において大切な要素です。デジカメの画素数とメモリ容量の関係に似ていて、大きなサイズで撮るほど1枚あたりのファイルが重くなるように、高解像度・大バッチになるほどVRAMへの負担が一気に跳ね上がります。
解像度とVRAM消費の関係
解像度を2倍にすると、VRAMの消費量はおよそ4倍に増えます。この非線形な関係を理解しておくと、OOMエラーの原因を素早く特定できます。
SDXLを例にした解像度別のVRAM消費目安は以下のとおりです(2026年4月現在)。
| 解像度 | VRAM消費(FP16) | VRAM消費(FP8) |
|---|---|---|
| 512×512 | 約4GB | 約2.5GB |
| 768×768 | 約5.5GB | 約3.5GB |
| 1024×1024 | 約7GB | 約4.5GB |
| 1536×1536 | 約12GB | 約7.5GB |
8GBのGPUでSDXLを使うなら、FP8量子化と1024×1024以下の解像度を組み合わせるのが現実的な選び方です。
バッチサイズの最適値を探る
バッチサイズとは、一度に生成する画像の枚数です。バッチサイズを増やすと1枚あたりの生成時間は短縮できますが、VRAMの消費は比例して増えます。
VRAM容量別の推奨バッチサイズは次のとおりです。
- 8GB: バッチサイズ1が基本。複数枚は「生成ボタンの繰り返し」で対応
- 12GB: バッチサイズ2まで(SDXLの場合)
- 24GB: バッチサイズ4まで快適に動作
VRAMに余裕がないときは、バッチサイズ1で生成を繰り返す方法が安全です。OOMエラーが発生すると生成がすべて失敗するため、無理にバッチサイズを上げるメリットはほぼありません。
タイルVAEデコードで出力段階のVRAMを節約
画像生成の最終段階であるVAEデコードは、解像度が高くなるほど瞬間的にVRAMを大きく消費します。8GB環境では、UNet/DiT推論は通っても最後のVAEデコードでOOMが出るケースが少なくありません。「生成がほぼ終わったのに最後の一歩で失敗する」という、もっとも残念なパターンです。
対策がタイルVAEデコードです。画像をタイル状に分割して順次デコードすることで、瞬間VRAMを大幅に削減できます(Next Diffusion: Flux Dev GGUF Low VRAM Guide)。ComfyUI標準のVAE Decode (Tiled)ノードに差し替えるだけで適用でき、8GB VRAM環境での生成ではほぼ必須の手法になっています。
まとめ
ComfyUIのVRAM最適化は、複数のテクニックを組み合わせることで効果を発揮します。ここまで紹介した手法を優先度の高い順に並べると、次のようになります。
- Dynamic VRAM: 2026年4月現在デフォルト有効。まずは最新版ComfyUIを使うことが前提
- FP8/GGUF量子化: VRAM消費を40〜50%削減できる最大の効果源、Flux Q5_K_Sで約6〜8GB
- Sage Attention/torch.compile: 2026年4月現在の主流高速化セット、xformersは互換性重視の選択肢
- CLIPアンロード・タイルVAE: 8GB環境での実務必須テク、ピンポイントで効く
- 起動オプション(–lowvram/–novram/–reserve-vram): Dynamic VRAMで足りない場合の補助策
- 解像度・バッチサイズ調整: 生成パラメータの見直しでVRAMの無駄遣いを防ぐ
8GBのGPUでも、Dynamic VRAM+FP8/GGUF量子化+Sage Attention+タイルVAEを組み合わせればFluxモデルでの画像生成が可能です。まずは自分のGPUのVRAM容量を確認し、ComfyUI PC環境・ローカル生成ガイドを参考に環境を整えてみてください。なおComfyUI本体は月単位で更新されるため、最新情報はComfyUI公式Changelogで随時確認することをおすすめします。
あわせて読みたい
- ComfyUIとは?できること・始め方・学習ロードマップ完全ガイド — ComfyUIの基本から応用まで全体像をつかみたい方向け
- ComfyUI PC環境・ローカル生成ガイド — VRAM最適化の前提となるPC環境の構築手順を確認したい方向け
- ComfyUIに必要なPCスペック|VRAM・メモリの目安を整理 — GPU選定・VRAM容量の目安を知りたい方向け
- Fluxモデル完全ガイド|Dev・Schnell・FLUX.2・Chroma — 大型モデルFluxのバリエーションと選び方を押さえたい方向け
- ComfyUI 動画生成ガイド【2026年版】モデル選びと実践ワークフロー — Wan2.2やHunyuanVideoなど動画モデルの導入と設定を確認したい方向け




