VRAM最適化テクニック｜FP8量子化・モデルオフロード

2026年4月23日

ComfyUI（ノードをつないで画像生成AIを動かすツール）で画像や動画を生成していると、突然「CUDA out of memory」というエラーが表示されて作業が止まった経験はありませんか。特にFlux（フラックス）やWan2.2のような大型モデルを扱うと、16GBのVRAMでも不足するケースがあります。

しかし、適切なVRAM最適化を施せば、8GBクラスのGPUでもこうしたモデルを動かせます。量子化やオフロードといった手法を組み合わせることで、高価なGPUに買い替えなくても、生成品質をほぼ維持したまま作業を続けられます。数万〜十数万円のGPU買い替えを先延ばしにできる、という意味で影響の大きい対策です。

この記事では、ComfyUIのVRAM最適化テクニックを6つのカテゴリに分けて解説します。FP8・GGUF量子化の定量データから、2026年4月現在の主流となったDynamic VRAMやSage Attention、CLIPアンロードやタイルVAEといった実務テクまで、具体的な手順を紹介します。

体験カリキュラム

Blenderで作る
初めての建築3DCGパース

Blenderの導入から基本操作、太陽光の入る白い部屋の制作まで。全3本のカリキュラムを体験できます。

Blenderの導入から基本操作、
太陽光の入る白い部屋の制作まで。
全3本のカリキュラムを体験できます。

まずは体験カリキュラムを受講

モデル別VRAM消費の目安を知る

ComfyUIのVRAM最適化を始める前に、まず自分が使うモデルがどれだけのVRAMを必要とするかを把握しておくと安心です。

SD1.5・SDXL・Fluxの必要VRAM

画像生成モデルのVRAM消費量は、モデルのパラメータ数と精度（FP16／FP32）で決まります。以下は512×512（SD1.5）または1024×1024（SDXL・Flux）で1枚生成する場合の目安です（2026年4月現在、量子化前提の数値を含みます）。

モデル	パラメータ数	FP16時のVRAM	FP8時のVRAM	推奨VRAM
SD1.5	約8.6億	約4GB	約2.5GB	6GB以上
SDXL	約35億	約7GB	約4.5GB	8GB以上
Flux Dev	約120億	約24GB	約12GB	16GB以上
Flux Dev（GGUF Q5_K_S）	約120億	：	約6〜8GB	8GB以上

FluxはFP16のままでは24GBのVRAMを必要とします（Apatero: FLUX GGUF Quantization Guide 2026）。しかしFP8量子化やGGUFを活用すれば、8GBのGPUでも動作可能です。モデル選定の詳細はFluxモデル完全ガイドで整理しています。

動画モデル（Wan2.2・HunyuanVideo）のVRAM目安

動画生成モデルは画像生成よりもはるかに多くのVRAMを消費します。フレーム数や解像度によって消費量が大きく変わる点にも注意が必要です（2026年4月現在）。

モデル	標準VRAM	最適化後のVRAM	備考
Wan2.2（5Bパラメータ）	約16GB	約6〜8GB	GGUF Q5で8GB動作可
Wan2.2（14Bパラメータ）	約65〜80GB	約16〜24GB	720p基準
HunyuanVideo	約24GB以上	約12GB	量子化＋オフロード併用

実務では、動画生成を本格的に行う場合は24GB以上のVRAMを備えたGPUを用意するのが理想的です。ただし上の表のとおり、量子化を使えば12〜16GBでも生成自体は可能になります。手元のGPUで試してみて、速度と品質のバランスを見極めるのが現実的な進め方です。

FP8・GGUF量子化でVRAMを半分以下に抑える

VRAMが足りないとき、最も効果的な対策がモデルの量子化です。モデルの重みデータの精度を下げることで、品質をほぼ維持したままVRAM消費を大幅に減らせます。イメージとしては、印刷用の高解像度写真データを、Web表示用に軽いJPEGに圧縮する作業に近いものです。見た目ではほぼ違いがわからないまま、ファイルサイズだけが大きく減ります。

FP8量子化の仕組みと効果

FP8（8ビット浮動小数点）は、通常のFP16（16ビット）の半分のメモリで重みを保持できる形式です。ComfyUIでは「fp8_e4m3fn」と「fp8_e5m2」の2形式が利用でき、前者は精度寄り、後者はダイナミックレンジ寄りのトレードオフで設計されています。

FP8の定量効果は次のとおりです（2026年4月現在）。

VRAM消費をFP16比で約40〜50%削減
RTX 40シリーズ以降でFP16比約1.6倍の推論高速化（blog.comfy.org: Dynamic VRAM）
画質劣化はほぼ目視で判別不可能なレベル

Flux DevをFP8で動かした場合でもFP16版と体感差はほぼなく、8GB GPUユーザーがまず試すべき最適化手法になっています。Dynamic VRAM（後述）と組み合わせれば、RTX 4060（8GB）で本来20〜30GBが必要とされるモデルでも動作するという報告も海外コミュニティから出ています。

FP8チェックポイントの使い方

FP8量子化済みのチェックポイント（学習済みモデル本体のデータファイル）をComfyUIで使う方法は2つあります。

方法1: FP8チェックポイントを直接ダウンロードする

CivitaiやHugging Faceには、あらかじめFP8に変換されたチェックポイントが公開されています。ファイル名に「fp8」と含まれるものを選んでダウンロードし、ComfyUIの models/checkpoints フォルダに配置するだけで使えます。

方法2: ComfyUI上でFP8に変換する

ComfyUI-ModelQuantizerなどのカスタムノードを使えば、既存のFP16モデルをFP8に変換できます。Load Checkpointノードで読み込んだモデルを、Quantize Model Scaledノードに接続するだけで変換が完了します。

GGUF量子化という選択肢

FP8よりもさらにVRAMを節約したい場合は、GGUF形式の量子化モデルが有効です。GGUFは段階的な圧縮レベルを選べるため、VRAMと品質のバランスを細かく調整できます。特にDiT／Transformer系モデル（Flux・SD3等）では量子化耐性が高く、海外の実務ユーザーの間で標準的な選択肢として定着しています。

Flux DevのGGUF量子化レベル別のVRAM消費目安は以下のとおりです（2026年4月現在、ファイルサイズがほぼVRAM消費に等しいという経験則に基づきます）。

量子化レベル	VRAM消費目安	品質・用途
Q8	約12〜13GB	FP16に近い品質、12GB以上のGPU向け
Q5_K_S	約6〜8GB	8GB GPUでの実質的な標準、品質バランス良好
Q4_K_S	約4〜6GB	最小VRAM、細部でやや劣化

GGUFを使うには、city96氏のComfyUI-GGUF拡張をインストールします。テキストエンコーダー（T5-XXL）にもFP8版やGGUF版を使うと、さらに1〜2GBの節約になります。

起動オプションとDynamic VRAMで使用量を制御する

ComfyUIには、VRAMの使い方を制御する2系統の仕組みがあります。机の上が散らかってきたときに、使っていない書類を自動で棚に戻してくれる助手がいる状態に似ていて、Dynamic VRAMがその自動整理を担い、足りないときだけ手動でCLIフラグを追加するのが2026年4月現在の基本構成です。

Dynamic VRAMは2025年後半からデフォルト有効

Dynamic VRAMは、モデルの重みをGPUとCPU（システムRAM）の間で動的にやり取りするカスタムPyTorchアロケータです。使わないモデルのデータを自動的にシステムRAMへ退避させるため、複数モデルの切り替えでもOOMが発生しにくくなります。

2025年後半のアップデート以降、NVIDIA環境のWindows／Linuxでデフォルト有効となっており（Comfy-Org Discussion #12699）、ユーザー側の追加設定は原則不要です。最新版ComfyUIを使っていれば、この土台の上でFP8やGGUFと組み合わせて動く形になります。

あわせてPinned Memory（ピン留めメモリ）もデフォルトで有効化されています。システムRAMのページをディスクスワップから保護し、モデル読み込み時の遅延を減らす仕組みです。

–lowvram／–novram／–reserve-vramの使い分け

Dynamic VRAMだけでも多くのケースで足りますが、それでもOOMが出る場合はCLIフラグで手動制御します。ComfyUIの起動時に追加できる主なオプションは以下のとおりです（2026年4月現在）。

オプション	動作	向いている環境
（指定なし）	Dynamic VRAMで自動管理	12GB以上のGPU
`--highvram`	モデルを常時VRAM常駐	24GB以上のGPU
`--lowvram`	UNetをパーツ分割してVRAM使用量を削減	6〜8GBのGPU
`--novram`	モデルをCPU側に配置し、必要な部分だけGPUへ転送	4〜6GBのGPU
`--cpu`	GPUを使わずCPUのみで推論	GPU非搭載の環境

--lowvramは生成速度が20〜40%低下しますが、OOMエラーを回避できます。--novramはさらに遅くなるものの、4GBのGPUでも動作させられる最終手段です（Apatero: VRAM Optimization Flags Guide）。

使い方は、ComfyUIの起動コマンドに引数を追加するだけです。

python main.py --lowvram

ブラウザや動画編集ソフトと同時にComfyUIを使う場合、--reserve-vramオプションが役立ちます。指定したGB分のVRAMをOS・他アプリ用に確保し、残りをComfyUIが使います。

python main.py --reserve-vram 2.0

上記の例では2GBをシステム用に予約します。8GBのGPUなら、ComfyUIは残りの約6GBを使って動作します。業務用PCで画像生成と他アプリを並行して使う方には必須の指定です。

Async Offloadとtorch.compile併用時の注意

Async Offload（非同期オフロード）は、モデルデータの転送をバックグラウンドで処理する機能です。GPUが推論計算をしている間に次のデータ転送を並行して行うため、全NVIDIA GPUで10〜50%の速度向上が見込めます。Intel XPUなどにも対応が広がっています。

ただしtorch.compileと併用した際の互換問題が報告されており（Issue #10957系の議論）、両者を同時に有効化する場合は最新版のChangelogで修正状況を確認しておくと安心です。

CLIPテキストエンコーダをアンロードして節約

Flux系のワークフローでは、プロンプトを埋め込みへ変換するCLIP／T5テキストエンコーダ（文字列を数値に変換する部分）だけで数GBのVRAMを使います。埋め込みを取得した後にこのエンコーダをVRAMから解放するだけで、メインのUNet／DiT推論に使える領域が広がります。

定番カスタムノードはComfyUI-Unload-Modelで、Text Encodeの後段にUnloadノードを挟むだけで適用できます。8GB環境でFluxを動かす際にはほぼ必須のテクニックです。

xformers・torch.compile・Sage Attentionで効率化する

VRAMの「量」だけでなく「使い方の効率」を改善するアプローチも大切です。

xformersの導入と効果

xformersはMeta社が開発したメモリ効率の高いアテンション機構ライブラリです。標準のアテンション計算ではVRAMをO(n²)で消費しますが、xformersはチャンク処理によってこれをほぼ線形に抑えます。

海外の複数ベンチマーク記事では、xformersの導入で以下の効果が報告されています。

VRAM消費を15〜25%削減（1024×1024のアテンション部分が16GBから約4GBへ）
生成速度が15〜25%向上
特にSDXL以上の高解像度モデルで効果大

導入はpipコマンド1行で完了します。

pip install xformers

ComfyUIは起動時にxformersを自動検出して使用します。ただしPyTorchとCUDAのバージョンとの互換性には注意してください。バージョン不整合で起動しなくなる事故が一定数あるため、インストール前にPyTorchのバージョンを確認しておくと安全です。

torch.compileによる最適化

PyTorch 2.0以降に搭載されたtorch.compileは、推論グラフを最適化して実行速度を高める機能です。xformersと似た効果がありますが、PyTorchネイティブの機能なので互換性の問題が起きにくい利点があります。

torch.compileはxformersと同等かやや上回る速度改善を得られる場面が多いです。ただしモデル構造によってはグラフブレーク（最適化の中断）が発生する場合があります。最新のPyTorchを使うことで、この問題は軽減されます。

Sage Attentionは2026年4月現在の主流

海外のComfyUIコミュニティでは、2026年4月現在Sage Attentionがxformersと並ぶ主流の高速化手段として確立しています。INT8量子化をアテンション計算内部に適用する実装で、メモリ効率と速度のバランスに優れます。

さらにComfyUI-WanVideoWrapper #1381で報告されているとおり、torch.compileとの統合もすでに動作しており、「torch.compile × Sage Attention」の組み合わせが動画モデル系で高い評価を得ています。推奨優先順位としては、2026年4月現在は「Sage Attention → torch.compile → xformers」の順で試すのが現実的な選択です。

ComfyUIに必要なPCスペック｜VRAM・メモリの目安を整理も合わせて確認しておくと、ハードウェアとソフトウェアの両面から環境を固められます。

バッチサイズ・解像度・タイルVAEを調整する

ソフトウェアの設定だけでなく、生成パラメータの調整もVRAM最適化において大切な要素です。デジカメの画素数とメモリ容量の関係に似ていて、大きなサイズで撮るほど1枚あたりのファイルが重くなるように、高解像度・大バッチになるほどVRAMへの負担が一気に跳ね上がります。

解像度とVRAM消費の関係

解像度を2倍にすると、VRAMの消費量はおよそ4倍に増えます。この非線形な関係を理解しておくと、OOMエラーの原因を素早く特定できます。

SDXLを例にした解像度別のVRAM消費目安は以下のとおりです（2026年4月現在）。

解像度	VRAM消費（FP16）	VRAM消費（FP8）
512×512	約4GB	約2.5GB
768×768	約5.5GB	約3.5GB
1024×1024	約7GB	約4.5GB
1536×1536	約12GB	約7.5GB

8GBのGPUでSDXLを使うなら、FP8量子化と1024×1024以下の解像度を組み合わせるのが現実的な選び方です。

バッチサイズの最適値を探る

バッチサイズとは、一度に生成する画像の枚数です。バッチサイズを増やすと1枚あたりの生成時間は短縮できますが、VRAMの消費は比例して増えます。

VRAM容量別の推奨バッチサイズは次のとおりです。

8GB: バッチサイズ1が基本。複数枚は「生成ボタンの繰り返し」で対応
12GB: バッチサイズ2まで（SDXLの場合）
24GB: バッチサイズ4まで快適に動作

VRAMに余裕がないときは、バッチサイズ1で生成を繰り返す方法が安全です。OOMエラーが発生すると生成がすべて失敗するため、無理にバッチサイズを上げるメリットはほぼありません。

タイルVAEデコードで出力段階のVRAMを節約

画像生成の最終段階であるVAEデコードは、解像度が高くなるほど瞬間的にVRAMを大きく消費します。8GB環境では、UNet／DiT推論は通っても最後のVAEデコードでOOMが出るケースが少なくありません。「生成がほぼ終わったのに最後の一歩で失敗する」という、もっとも残念なパターンです。

対策がタイルVAEデコードです。画像をタイル状に分割して順次デコードすることで、瞬間VRAMを大幅に削減できます（Next Diffusion: Flux Dev GGUF Low VRAM Guide）。ComfyUI標準のVAE Decode (Tiled)ノードに差し替えるだけで適用でき、8GB VRAM環境での生成ではほぼ必須の手法になっています。

まとめ

ComfyUIのVRAM最適化は、複数のテクニックを組み合わせることで効果を発揮します。ここまで紹介した手法を優先度の高い順に並べると、次のようになります。

Dynamic VRAM: 2026年4月現在デフォルト有効。まずは最新版ComfyUIを使うことが前提
FP8／GGUF量子化: VRAM消費を40〜50%削減できる最大の効果源、Flux Q5_K_Sで約6〜8GB
Sage Attention／torch.compile: 2026年4月現在の主流高速化セット、xformersは互換性重視の選択肢
CLIPアンロード・タイルVAE: 8GB環境での実務必須テク、ピンポイントで効く
起動オプション（–lowvram／–novram／–reserve-vram）: Dynamic VRAMで足りない場合の補助策
解像度・バッチサイズ調整: 生成パラメータの見直しでVRAMの無駄遣いを防ぐ

8GBのGPUでも、Dynamic VRAM＋FP8／GGUF量子化＋Sage Attention＋タイルVAEを組み合わせればFluxモデルでの画像生成が可能です。まずは自分のGPUのVRAM容量を確認し、ComfyUI PC環境・ローカル生成ガイドを参考に環境を整えてみてください。なおComfyUI本体は月単位で更新されるため、最新情報はComfyUI公式Changelogで随時確認することをおすすめします。

この記事を書いた人

橘美咲 PERSC 専任講師

「CADは裏切らない。昨日引けなかった線が、今日は引ける。それが楽しいの」

元・完全未経験の文系女子。新卒で入った建築現場で「図面が読めない」と絶望し、悔し涙を流しながらCADを独学で習得した過去を持つ。その後、設計事務所、ゼネコンを経てフリーランスへ転身。現在はPERSCにて「現場で本当に使える技術」を伝授する鬼（？）コーチとして活動中。「線一本にも意味がある」が口癖。趣味は、完成した建物を見上げながらのビールと、深夜の猫動画巡回。

この著者の記事一覧へ

VRAM最適化テクニック｜FP8量子化・モデルオフロード

Blenderで作る
初めての建築3DCGパース

モデル別VRAM消費の目安を知る

SD1.5・SDXL・Fluxの必要VRAM

動画モデル（Wan2.2・HunyuanVideo）のVRAM目安

FP8・GGUF量子化でVRAMを半分以下に抑える

FP8量子化の仕組みと効果

FP8チェックポイントの使い方

GGUF量子化という選択肢

起動オプションとDynamic VRAMで使用量を制御する

Dynamic VRAMは2025年後半からデフォルト有効

–lowvram／–novram／–reserve-vramの使い分け

Async Offloadとtorch.compile併用時の注意

CLIPテキストエンコーダをアンロードして節約

xformers・torch.compile・Sage Attentionで効率化する

xformersの導入と効果

torch.compileによる最適化

Sage Attentionは2026年4月現在の主流

バッチサイズ・解像度・タイルVAEを調整する

解像度とVRAM消費の関係

バッチサイズの最適値を探る

タイルVAEデコードで出力段階のVRAMを節約

まとめ

あわせて読みたい

この記事を書いた人

データベース

完全ガイド

PERSC/オンラインコース

VRAM最適化テクニック｜FP8量子化・モデルオフロード

Blenderで作る初めての建築3DCGパース

モデル別VRAM消費の目安を知る

SD1.5・SDXL・Fluxの必要VRAM

動画モデル（Wan2.2・HunyuanVideo）のVRAM目安

FP8・GGUF量子化でVRAMを半分以下に抑える

FP8量子化の仕組みと効果

FP8チェックポイントの使い方

GGUF量子化という選択肢

起動オプションとDynamic VRAMで使用量を制御する

Dynamic VRAMは2025年後半からデフォルト有効

–lowvram／–novram／–reserve-vramの使い分け

Async Offloadとtorch.compile併用時の注意

CLIPテキストエンコーダをアンロードして節約

xformers・torch.compile・Sage Attentionで効率化する

xformersの導入と効果

torch.compileによる最適化

Sage Attentionは2026年4月現在の主流

バッチサイズ・解像度・タイルVAEを調整する

解像度とVRAM消費の関係

バッチサイズの最適値を探る

タイルVAEデコードで出力段階のVRAMを節約

まとめ

あわせて読みたい

この記事を書いた人

関連記事

データベース

完全ガイド

PERSC/オンラインコース

Blenderで作る
初めての建築3DCGパース