VRAM最適化テクニック|FP8量子化・モデルオフロード

ComfyUI(ノードをつないで画像生成AIを動かすツール)で画像や動画を生成していると、突然「CUDA out of memory」というエラーが表示されて作業が止まった経験はありませんか。特にFlux(フラックス)やWan2.2のような大型モデルを扱うと、16GBのVRAMでも不足するケースがあります。

しかし、適切なVRAM最適化を施せば、8GBクラスのGPUでもこうしたモデルを動かせます。量子化やオフロードといった手法を組み合わせることで、高価なGPUに買い替えなくても、生成品質をほぼ維持したまま作業を続けられます。数万〜十数万円のGPU買い替えを先延ばしにできる、という意味で影響の大きい対策です。

この記事では、ComfyUIのVRAM最適化テクニックを6つのカテゴリに分けて解説します。FP8・GGUF量子化の定量データから、2026年4月現在の主流となったDynamic VRAMやSage Attention、CLIPアンロードやタイルVAEといった実務テクまで、具体的な手順を紹介します。

Blenderで作る
初めての建築3DCGパース

Blenderの導入から基本操作、太陽光の入る白い部屋の制作まで。全3本のカリキュラムを体験できます。

Blenderの導入から基本操作、
太陽光の入る白い部屋の制作まで。
全3本のカリキュラムを体験できます。

目次

モデル別VRAM消費の目安を知る

ComfyUIのVRAM最適化を始める前に、まず自分が使うモデルがどれだけのVRAMを必要とするかを把握しておくと安心です。

SD1.5・SDXL・Fluxの必要VRAM

画像生成モデルのVRAM消費量は、モデルのパラメータ数と精度(FP16/FP32)で決まります。以下は512×512(SD1.5)または1024×1024(SDXL・Flux)で1枚生成する場合の目安です(2026年4月現在、量子化前提の数値を含みます)。

モデル パラメータ数 FP16時のVRAM FP8時のVRAM 推奨VRAM
SD1.5 約8.6億 約4GB 約2.5GB 6GB以上
SDXL 約35億 約7GB 約4.5GB 8GB以上
Flux Dev 約120億 約24GB 約12GB 16GB以上
Flux Dev(GGUF Q5_K_S) 約120億 約6〜8GB 8GB以上

FluxはFP16のままでは24GBのVRAMを必要とします(Apatero: FLUX GGUF Quantization Guide 2026)。しかしFP8量子化やGGUFを活用すれば、8GBのGPUでも動作可能です。モデル選定の詳細はFluxモデル完全ガイドで整理しています。

動画モデル(Wan2.2・HunyuanVideo)のVRAM目安

動画生成モデルは画像生成よりもはるかに多くのVRAMを消費します。フレーム数や解像度によって消費量が大きく変わる点にも注意が必要です(2026年4月現在)。

モデル 標準VRAM 最適化後のVRAM 備考
Wan2.2(5Bパラメータ) 約16GB 約6〜8GB GGUF Q5で8GB動作可
Wan2.2(14Bパラメータ) 約65〜80GB 約16〜24GB 720p基準
HunyuanVideo 約24GB以上 約12GB 量子化+オフロード併用

実務では、動画生成を本格的に行う場合は24GB以上のVRAMを備えたGPUを用意するのが理想的です。ただし上の表のとおり、量子化を使えば12〜16GBでも生成自体は可能になります。手元のGPUで試してみて、速度と品質のバランスを見極めるのが現実的な進め方です。

FP8・GGUF量子化でVRAMを半分以下に抑える

VRAMが足りないとき、最も効果的な対策がモデルの量子化です。モデルの重みデータの精度を下げることで、品質をほぼ維持したままVRAM消費を大幅に減らせます。イメージとしては、印刷用の高解像度写真データを、Web表示用に軽いJPEGに圧縮する作業に近いものです。見た目ではほぼ違いがわからないまま、ファイルサイズだけが大きく減ります。

FP8量子化の仕組みと効果

FP8(8ビット浮動小数点)は、通常のFP16(16ビット)の半分のメモリで重みを保持できる形式です。ComfyUIでは「fp8_e4m3fn」と「fp8_e5m2」の2形式が利用でき、前者は精度寄り、後者はダイナミックレンジ寄りのトレードオフで設計されています。

FP8の定量効果は次のとおりです(2026年4月現在)。

  • VRAM消費をFP16比で約40〜50%削減
  • RTX 40シリーズ以降でFP16比約1.6倍の推論高速化(blog.comfy.org: Dynamic VRAM
  • 画質劣化はほぼ目視で判別不可能なレベル

Flux DevをFP8で動かした場合でもFP16版と体感差はほぼなく、8GB GPUユーザーがまず試すべき最適化手法になっています。Dynamic VRAM(後述)と組み合わせれば、RTX 4060(8GB)で本来20〜30GBが必要とされるモデルでも動作するという報告も海外コミュニティから出ています。

FP8チェックポイントの使い方

FP8量子化済みのチェックポイント(学習済みモデル本体のデータファイル)をComfyUIで使う方法は2つあります。

方法1: FP8チェックポイントを直接ダウンロードする

CivitaiやHugging Faceには、あらかじめFP8に変換されたチェックポイントが公開されています。ファイル名に「fp8」と含まれるものを選んでダウンロードし、ComfyUIの models/checkpoints フォルダに配置するだけで使えます。

方法2: ComfyUI上でFP8に変換する

ComfyUI-ModelQuantizerなどのカスタムノードを使えば、既存のFP16モデルをFP8に変換できます。Load Checkpointノードで読み込んだモデルを、Quantize Model Scaledノードに接続するだけで変換が完了します。

GGUF量子化という選択肢

FP8よりもさらにVRAMを節約したい場合は、GGUF形式の量子化モデルが有効です。GGUFは段階的な圧縮レベルを選べるため、VRAMと品質のバランスを細かく調整できます。特にDiT/Transformer系モデル(Flux・SD3等)では量子化耐性が高く、海外の実務ユーザーの間で標準的な選択肢として定着しています。

Flux DevのGGUF量子化レベル別のVRAM消費目安は以下のとおりです(2026年4月現在、ファイルサイズがほぼVRAM消費に等しいという経験則に基づきます)。

量子化レベル VRAM消費目安 品質・用途
Q8 約12〜13GB FP16に近い品質、12GB以上のGPU向け
Q5_K_S 約6〜8GB 8GB GPUでの実質的な標準、品質バランス良好
Q4_K_S 約4〜6GB 最小VRAM、細部でやや劣化

GGUFを使うには、city96氏のComfyUI-GGUF拡張をインストールします。テキストエンコーダー(T5-XXL)にもFP8版やGGUF版を使うと、さらに1〜2GBの節約になります。

起動オプションとDynamic VRAMで使用量を制御する

ComfyUIには、VRAMの使い方を制御する2系統の仕組みがあります。机の上が散らかってきたときに、使っていない書類を自動で棚に戻してくれる助手がいる状態に似ていて、Dynamic VRAMがその自動整理を担い、足りないときだけ手動でCLIフラグを追加するのが2026年4月現在の基本構成です。

Dynamic VRAMは2025年後半からデフォルト有効

Dynamic VRAMは、モデルの重みをGPUとCPU(システムRAM)の間で動的にやり取りするカスタムPyTorchアロケータです。使わないモデルのデータを自動的にシステムRAMへ退避させるため、複数モデルの切り替えでもOOMが発生しにくくなります。

2025年後半のアップデート以降、NVIDIA環境のWindows/Linuxでデフォルト有効となっており(Comfy-Org Discussion #12699)、ユーザー側の追加設定は原則不要です。最新版ComfyUIを使っていれば、この土台の上でFP8やGGUFと組み合わせて動く形になります。

あわせてPinned Memory(ピン留めメモリ)もデフォルトで有効化されています。システムRAMのページをディスクスワップから保護し、モデル読み込み時の遅延を減らす仕組みです。

–lowvram/–novram/–reserve-vramの使い分け

Dynamic VRAMだけでも多くのケースで足りますが、それでもOOMが出る場合はCLIフラグで手動制御します。ComfyUIの起動時に追加できる主なオプションは以下のとおりです(2026年4月現在)。

オプション 動作 向いている環境
(指定なし) Dynamic VRAMで自動管理 12GB以上のGPU
--highvram モデルを常時VRAM常駐 24GB以上のGPU
--lowvram UNetをパーツ分割してVRAM使用量を削減 6〜8GBのGPU
--novram モデルをCPU側に配置し、必要な部分だけGPUへ転送 4〜6GBのGPU
--cpu GPUを使わずCPUのみで推論 GPU非搭載の環境

--lowvramは生成速度が20〜40%低下しますが、OOMエラーを回避できます。--novramはさらに遅くなるものの、4GBのGPUでも動作させられる最終手段です(Apatero: VRAM Optimization Flags Guide)。

使い方は、ComfyUIの起動コマンドに引数を追加するだけです。

python main.py --lowvram

ブラウザや動画編集ソフトと同時にComfyUIを使う場合、--reserve-vramオプションが役立ちます。指定したGB分のVRAMをOS・他アプリ用に確保し、残りをComfyUIが使います。

python main.py --reserve-vram 2.0

上記の例では2GBをシステム用に予約します。8GBのGPUなら、ComfyUIは残りの約6GBを使って動作します。業務用PCで画像生成と他アプリを並行して使う方には必須の指定です。

Async Offloadとtorch.compile併用時の注意

Async Offload(非同期オフロード)は、モデルデータの転送をバックグラウンドで処理する機能です。GPUが推論計算をしている間に次のデータ転送を並行して行うため、全NVIDIA GPUで10〜50%の速度向上が見込めます。Intel XPUなどにも対応が広がっています。

ただしtorch.compileと併用した際の互換問題が報告されており(Issue #10957系の議論)、両者を同時に有効化する場合は最新版のChangelogで修正状況を確認しておくと安心です。

CLIPテキストエンコーダをアンロードして節約

Flux系のワークフローでは、プロンプトを埋め込みへ変換するCLIP/T5テキストエンコーダ(文字列を数値に変換する部分)だけで数GBのVRAMを使います。埋め込みを取得した後にこのエンコーダをVRAMから解放するだけで、メインのUNet/DiT推論に使える領域が広がります。

定番カスタムノードはComfyUI-Unload-Modelで、Text Encodeの後段にUnloadノードを挟むだけで適用できます。8GB環境でFluxを動かす際にはほぼ必須のテクニックです。

xformers・torch.compile・Sage Attentionで効率化する

VRAMの「量」だけでなく「使い方の効率」を改善するアプローチも大切です。

xformersの導入と効果

xformersはMeta社が開発したメモリ効率の高いアテンション機構ライブラリです。標準のアテンション計算ではVRAMをO(n²)で消費しますが、xformersはチャンク処理によってこれをほぼ線形に抑えます。

海外の複数ベンチマーク記事では、xformersの導入で以下の効果が報告されています。

  • VRAM消費を15〜25%削減(1024×1024のアテンション部分が16GBから約4GBへ)
  • 生成速度が15〜25%向上
  • 特にSDXL以上の高解像度モデルで効果大

導入はpipコマンド1行で完了します。

pip install xformers

ComfyUIは起動時にxformersを自動検出して使用します。ただしPyTorchとCUDAのバージョンとの互換性には注意してください。バージョン不整合で起動しなくなる事故が一定数あるため、インストール前にPyTorchのバージョンを確認しておくと安全です。

torch.compileによる最適化

PyTorch 2.0以降に搭載されたtorch.compileは、推論グラフを最適化して実行速度を高める機能です。xformersと似た効果がありますが、PyTorchネイティブの機能なので互換性の問題が起きにくい利点があります。

torch.compileはxformersと同等かやや上回る速度改善を得られる場面が多いです。ただしモデル構造によってはグラフブレーク(最適化の中断)が発生する場合があります。最新のPyTorchを使うことで、この問題は軽減されます。

Sage Attentionは2026年4月現在の主流

海外のComfyUIコミュニティでは、2026年4月現在Sage Attentionがxformersと並ぶ主流の高速化手段として確立しています。INT8量子化をアテンション計算内部に適用する実装で、メモリ効率と速度のバランスに優れます。

さらにComfyUI-WanVideoWrapper #1381で報告されているとおり、torch.compileとの統合もすでに動作しており、「torch.compile × Sage Attention」の組み合わせが動画モデル系で高い評価を得ています。推奨優先順位としては、2026年4月現在は「Sage Attention → torch.compile → xformers」の順で試すのが現実的な選択です。

ComfyUIに必要なPCスペック|VRAM・メモリの目安を整理も合わせて確認しておくと、ハードウェアとソフトウェアの両面から環境を固められます。

バッチサイズ・解像度・タイルVAEを調整する

ソフトウェアの設定だけでなく、生成パラメータの調整もVRAM最適化において大切な要素です。デジカメの画素数とメモリ容量の関係に似ていて、大きなサイズで撮るほど1枚あたりのファイルが重くなるように、高解像度・大バッチになるほどVRAMへの負担が一気に跳ね上がります。

解像度とVRAM消費の関係

解像度を2倍にすると、VRAMの消費量はおよそ4倍に増えます。この非線形な関係を理解しておくと、OOMエラーの原因を素早く特定できます。

SDXLを例にした解像度別のVRAM消費目安は以下のとおりです(2026年4月現在)。

解像度 VRAM消費(FP16) VRAM消費(FP8)
512×512 約4GB 約2.5GB
768×768 約5.5GB 約3.5GB
1024×1024 約7GB 約4.5GB
1536×1536 約12GB 約7.5GB

8GBのGPUでSDXLを使うなら、FP8量子化と1024×1024以下の解像度を組み合わせるのが現実的な選び方です。

バッチサイズの最適値を探る

バッチサイズとは、一度に生成する画像の枚数です。バッチサイズを増やすと1枚あたりの生成時間は短縮できますが、VRAMの消費は比例して増えます。

VRAM容量別の推奨バッチサイズは次のとおりです。

  • 8GB: バッチサイズ1が基本。複数枚は「生成ボタンの繰り返し」で対応
  • 12GB: バッチサイズ2まで(SDXLの場合)
  • 24GB: バッチサイズ4まで快適に動作

VRAMに余裕がないときは、バッチサイズ1で生成を繰り返す方法が安全です。OOMエラーが発生すると生成がすべて失敗するため、無理にバッチサイズを上げるメリットはほぼありません。

タイルVAEデコードで出力段階のVRAMを節約

画像生成の最終段階であるVAEデコードは、解像度が高くなるほど瞬間的にVRAMを大きく消費します。8GB環境では、UNet/DiT推論は通っても最後のVAEデコードでOOMが出るケースが少なくありません。「生成がほぼ終わったのに最後の一歩で失敗する」という、もっとも残念なパターンです。

対策がタイルVAEデコードです。画像をタイル状に分割して順次デコードすることで、瞬間VRAMを大幅に削減できます(Next Diffusion: Flux Dev GGUF Low VRAM Guide)。ComfyUI標準のVAE Decode (Tiled)ノードに差し替えるだけで適用でき、8GB VRAM環境での生成ではほぼ必須の手法になっています。

まとめ

ComfyUIのVRAM最適化は、複数のテクニックを組み合わせることで効果を発揮します。ここまで紹介した手法を優先度の高い順に並べると、次のようになります。

  1. Dynamic VRAM: 2026年4月現在デフォルト有効。まずは最新版ComfyUIを使うことが前提
  2. FP8/GGUF量子化: VRAM消費を40〜50%削減できる最大の効果源、Flux Q5_K_Sで約6〜8GB
  3. Sage Attention/torch.compile: 2026年4月現在の主流高速化セット、xformersは互換性重視の選択肢
  4. CLIPアンロード・タイルVAE: 8GB環境での実務必須テク、ピンポイントで効く
  5. 起動オプション(–lowvram/–novram/–reserve-vram): Dynamic VRAMで足りない場合の補助策
  6. 解像度・バッチサイズ調整: 生成パラメータの見直しでVRAMの無駄遣いを防ぐ

8GBのGPUでも、Dynamic VRAM+FP8/GGUF量子化+Sage Attention+タイルVAEを組み合わせればFluxモデルでの画像生成が可能です。まずは自分のGPUのVRAM容量を確認し、ComfyUI PC環境・ローカル生成ガイドを参考に環境を整えてみてください。なおComfyUI本体は月単位で更新されるため、最新情報はComfyUI公式Changelogで随時確認することをおすすめします。

あわせて読みたい

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!

PERSC Experience Course

未経験から、
最初の一枚を完成させる。

未経験から、
最初の一枚を完成させる。

Blenderの導入から基本操作、
そして建築パースを1作品完成させるところまで。
全3本の体験カリキュラムを無料体験できます。

Blenderの導入から基本操作、
そして建築パースを1作品完成させるところまで。
全3本の体験カリキュラムを無料体験できます。


CONTENTS

3 LESSONS


基礎編① インストール&7項目の初期設定

Blenderの導入から制作に必要な基本設定

基礎編② 画面構成と基本的な操作方法

未経験でも迷わない画面の見方と操作の基本

実践編① 太陽光の入る白い部屋

建築パースを1作品完成させるまでを体験


BONUSES
体験カリキュラム限定の3大特典


実践編完成データ(.blend)

ショートカット・チートシート

マテリアル ライブラリセット

この記事を書いた人

橘 美咲のアバター 橘 美咲 PERSC 専任講師

「CADは裏切らない。昨日引けなかった線が、今日は引ける。それが楽しいの」

元・完全未経験の文系女子。新卒で入った建築現場で「図面が読めない」と絶望し、悔し涙を流しながらCADを独学で習得した過去を持つ。 その後、設計事務所、ゼネコンを経てフリーランスへ転身。現在はPERSCにて「現場で本当に使える技術」を伝授する鬼(?)コーチとして活動中。 「線一本にも意味がある」が口癖。趣味は、完成した建物を見上げながらのビールと、深夜の猫動画巡回。

目次