Fluxモデル完全ガイド|Dev・Schnell・FLUX.2・Chroma
ComfyUI(ノードをつないで画像生成AIを動かすツール)で画像生成に取り組むなら、Fluxモデルは避けて通れない存在です。Black Forest Labs(旧Stability AI主要メンバーが設立)が開発したFluxは、従来のStable Diffusion系とはアーキテクチャが違い、テキスト理解力と画像品質の両面で進化しました。2025年11月にはFLUX.2がリリースされ、コミュニティ発のChromaも継続的にバージョンが重なっています(2026年4月現在)。
この記事では、FLUX.1のDev・Schnell・Proの違いから、FLUX.2の進化ポイント、Chromaの特徴、そしてComfyUIでの具体的な導入方法までを体系的に整理します。
Fluxモデルとは?Stable Diffusion系との違い
Fluxモデルは、建築設計でいうと「新しい工法ラインナップ」に似た存在です。従来のSD系が木造軸組の定番工法だとすると、Fluxは鉄骨ラーメンのような別系統で、仕様も材料もルールが違います。同じ「画像生成」という名前でも、使う部材(モデルファイル)と組み方(ワークフロー)が変わる点を最初に押さえてください。
Black Forest Labsが生んだ次世代モデル
Fluxは、Stable Diffusionの生みの親であるRobin Rombach氏らが設立したBlack Forest Labsが2024年8月に公開した画像生成モデルです。12Bパラメータの大規模アーキテクチャを採用し、リリース直後からStable Diffusion XLを超える品質で注目を集めました。
とくにプロンプトへの忠実度が高く、指の本数や文字レンダリングなど、従来のモデルが苦手としていた領域で改善が進みました。
SD系との主な違い
Fluxモデルが従来のSD系と違うポイントは、主に3つあります。
1つ目は、テキストエンコーダの構成です。SD系がCLIP単体で動作するのに対し、FluxはT5-XXLとCLIP-Lの2系統を使います。ComfyUIでは「DualCLIPLoader」ノードで両方を読み込む必要があり、この点がSD系ワークフローとの最大の違いです。
2つ目は、ネガティブプロンプトが不要な点です。Fluxはガイダンス方式が違うため、ネガティブプロンプトを使わずにクリーンな画像を生成できます。設計図に「やらないでほしいこと」を書かなくても、「やってほしいこと」だけで正確に指示が伝わる、そんなイメージです。
3つ目は、VRAM消費量の大きさです。12Bパラメータのモデルに加えてT5-XXLエンコーダも読み込むため、FP16フル精度では16GB前後のVRAMが求められます。ただし、FP8量子化やGGUF量子化を組み合わせれば、8GB環境でも実用的に動作します(2026年4月現在)。
FLUX.1の3モデルを比較(Dev・Schnell・Pro)
3モデルの関係は、自動車メーカーのグレード展開に近いものです。ハイエンドの「Pro」はクラウドAPIでしか乗れない上位グレード、「Dev」は個人利用向けのカスタム車、「Schnell」は商用利用もできる実用グレード。それぞれ使えるシーンが違うので、用途で選び分けます。
FLUX.1 Pro:最高品質のクラウド配信モデル
FLUX.1 Proは、Black Forest LabsのAPI経由で提供されるフラッグシップモデルです。ローカル配布はなく、BFL APIおよびReplicateやfal.aiなどのパートナー基盤を通じて使う形式になります。画質・プロンプト忠実度ともに最高水準を誇り、商用プロジェクトに向いた選択肢です。2024年10月にリリースされたFLUX.1.1 Proでは、生成速度がProの約6倍に向上しました(2026年4月現在、Black Forest Labs 公式)。
ローカル環境での実行ができないため、ComfyUIユーザーが直接扱う場面は限られます。
FLUX.1 Dev:高品質な研究・検証向け
FLUX.1 Devは、Proに近い品質を持ちながらモデルウェイトが公開されているバージョンです。HuggingFaceからダウンロードでき、ComfyUIでローカル実行できます。
ライセンスは「FLUX.1-dev Non-Commercial License」で、個人利用・研究・内部検証は自由ですが、商用利用にはBlack Forest Labsからの商用ライセンス購入が必要です(FLUX.1-dev モデルカード、2026年4月現在)。実務では、品質検証やプロンプト研究の用途で多くのユーザーに選ばれています。
FLUX.1 Schnell:高速・商用可のオープンモデル
FLUX.1 Schnellは、Apache 2.0ライセンスで商用利用もできるモデルです。ドイツ語で「速い」を意味する名前のとおり、4ステップ程度で画像を生成でき、DevやProと比べて高速に動作します。
品質面ではDevにやや劣りますが、素早いイテレーションやプロトタイピングに向いています。ライセンスの制約がないため、商用プロダクトへの組み込みにも向いた構成です。
3モデル比較表(2026年4月現在)
| 項目 | Pro | Dev | Schnell |
|---|---|---|---|
| 品質 | 最高 | 高 | 中〜高 |
| 速度 | 中 | 中 | 高速(4ステップ) |
| ライセンス | BFL API規約 | 非商用(商用は別途契約) | Apache 2.0 |
| ローカル実行 | 不可 | 可能 | 可能 |
| 推奨VRAM(FP16) | ― | 24GB推奨 | 16GB前後 |
| 推奨VRAM(FP8) | ― | 12GB前後 | 10GB前後 |
| 推奨VRAM(GGUF Q4) | ― | 8GB前後で実運用可 | 8GB前後で実運用可 |
量子化前提のVRAM目安はpxz.ai の FLUX Dev vs Schnell 2026およびLocal AI Master の FLUX.1 VRAM Requirements 2026を参照。VRAMが8GBクラスの場合は、後述のGGUF量子化を組み合わせる運用が前提になります。
FLUX.2の進化ポイント
FLUX.2はFLUX.1のマイナーチェンジではなく、建築でいえば工法そのものを刷新したフルモデルチェンジに近い位置づけです。パラメータ数が3倍近くに増え、扱える機能も様変わりしています。
32Bパラメータへの大幅スケールアップ
2025年11月25日にリリースされたFLUX.2は、FLUX.1の12Bから32Bへとパラメータ数が約3倍に拡大しました(2026年4月現在、Black Forest Labs Releases FLUX.2 — MarkTechPost)。Mistral-3 24Bビジョン言語モデルとRectified Flow Transformerを組み合わせた新アーキテクチャにより、プロンプト理解力が向上しています。
生成画像の解像度も最大4メガピクセルに対応し、照明・肌質・布の質感・手のディテールなどが大きく改善されました。
FLUX.2のモデル構成(pro・flex・dev・klein)
FLUX.2ではモデル構成が刷新され、pro/flex/dev/klein の4モデル体制になりました(2026年4月現在、WaveSpeedAI Flux 2 Complete Guide)。proはBFL Playground・BFL API・Replicateやfal.aiなどのパートナー経由で利用できるクラウド配信モデル、flexはproとdevの中間に位置する公開予定モデル、devはHuggingFaceで公開済みのローカル実行可能モデル、kleinはSchnell系の後継として予告中の小型高速モデルです。
とくにklein は「Schnellの直接後継」と公式が明言しているわけではなく、現時点ではApache 2.0系の小型モデルとして準備が進むと示唆されている段階です。商用案件で「Schnell級の高速・商用可」を即時必要とする場合は、FLUX.1 SchnellまたはChroma系が現実解になります。
マルチリファレンスとテキストレンダリング
FLUX.2の特筆すべき新機能が、マルチリファレンス対応です。最大10枚の参照画像を入力でき、一貫性のあるキャラクターやプロダクト画像、スタイル統一の生成を単一チェックポイント内で処理できます。テキスト→画像と画像編集を一本化したのがFLUX.2世代の大きな特徴です。
テキストレンダリング精度も向上し、インフォグラフィックやUIモックアップ、商品パッケージの文字が読みやすく描画されます。建築プレゼン資料では、案内板・ドアプレート・家具ラベルのような細部まで描き分けが効くため、コンセプトボードの下書きにも使いやすい構成です。
NVIDIAとの最適化協業により、FP8量子化版がリリース日から使えます。VRAM消費は従来比で約40%削減され、RTX GPUでの性能も40%向上しています(NVIDIA Blog: FLUX.2 on NVIDIA RTX GPUs)。
Chroma:コミュニティ発のFlux派生モデル
Chromaは、公式モデルをコミュニティが独自にチューニングした派生モデルです。メーカー純正品を基にサードパーティがカスタムパーツを作り、独自のバリエーションを追加したようなイメージで、ライセンスの自由度が高いのが特徴です。
Chroma1-HD・Radiance・Flashの違い
Chromaは、FLUX.1 Schnellをベースにコミュニティ(lodestone-rock氏)が開発した8.9Bパラメータの派生モデルです。Schnellをde-distillした上で12B→8.9Bにプルーニングし、Apache 2.0ライセンスを引き継いでいます(lodestones/Chroma1-HD モデルカード、2026年4月現在)。
主要な3バリアントを整理すると以下のとおりです。
- Chroma1-HD: 標準的なテキスト→画像モデル。Schnell由来ながら独自のチューニングが加えられ、商用可。
- Chroma1-Radiance: VAEを使わずピクセル空間で直接画像を生成する特殊版。VAEによるデコード損失がないため、色の再現精度に優れる。
- Chroma1-Flash:
chroma-unlocked-v48をベースに512pxで高速ファインチューニングした版で、8ステップ程度で画像生成が完了する。
ComfyUIでの導入方法
Chroma1-RadianceはComfyUI 0.3.60以降でネイティブ対応が入り、専用カスタムノードを導入しなくても読み込みが可能になりました(ComfyUI 公式ブログ: HuMo & Chroma1-Radiance Native Support)。Chroma1-HDやFlashを使う場合は、バージョンに応じて ComfyUI_FluxMod などのカスタムノードを併用します。
テキストエンコーダはT5-XXLのみで動作し、CLIP-Lは不要です。FP8版のT5-XXLを使えば、VRAM 8GBクラスのGPUでも動作する報告が多く見られます。
ComfyUIでFluxワークフローを構築する方法
Flux用ワークフローは、SD系とは違う専用ラインを組むイメージです。従来ラインの部品をそのまま流用しようとすると噛み合わないので、専用部品(DualCLIPLoader)を使って組み直します。ここからの手順は、ComfyUI 0.3.60以降を前提にしています(2026年4月現在)。
必要ファイルの準備
ComfyUIでFluxモデルを動かすには、以下の3種類のファイルが必要です。
- モデル本体:
flux1-dev.safetensorsまたはflux1-schnell.safetensors(models/checkpointsまたはmodels/unetに配置) - T5-XXLエンコーダ:
t5xxl_fp16.safetensors(VRAM 16GB以上推奨)またはt5xxl_fp8_e4m3fn.safetensors(省VRAM版)、GGUF運用ではt5-v1_1-xxl-encoder-Q8相当を選択 - CLIP-Lエンコーダ:
clip_l.safetensors
HuggingFaceのBlack Forest Labs公式リポジトリ、またはComfyUI公式リポジトリからダウンロードできます。モデルファイルの入手先の全体像はモデル入手先ガイド|CivitAI・HuggingFace・Comfy Registryで整理しています。
DualCLIPLoaderの接続
ComfyUIでFluxを使うときのワークフローは、SD系とは構成が違います。最大の違いは「DualCLIPLoader」ノードでT5-XXLとCLIP-Lを同時に読み込む点です。
設定手順は次のとおりです。
- DualCLIPLoaderノードを追加し、
clip_name1にT5-XXL、clip_name2にCLIP-Lを指定 typeを「flux」に設定- CLIPTextEncodeノードに接続してプロンプトを入力
- KSamplerのcfg値は1.0に設定(Fluxはガイダンスが不要なため)
SD系のワークフローをそのまま流用すると正しく動作しないため、Flux専用のワークフローテンプレートから始めることをおすすめします。
FP8・GGUF量子化でVRAMを節約する方法
VRAM 12GBに満たないGPUでFluxを動かす場合、FP8量子化とGGUF量子化が現実的な選択肢です(2026年4月現在、FLUX GGUF Quantization Guide 2026 — Apatero)。
具体的なアプローチは3つに整理できます。
T5-XXLをFP8版に置き換える方法: t5xxl_fp8_e4m3fn.safetensors を使えば、テキストエンコーダのVRAM消費を約半分に抑えられます。品質への影響は軽微で、日常的な生成用途なら十分な精度を保てます。
モデル本体をFP8量子化する方法: FLUX.1 DevのFP8量子化版も公開されており、モデル側のVRAMも削減できます。T5-XXLとあわせてFP8化すれば、VRAM 10GB前後のGPUでも実運用に入れます。
GGUF量子化を導入する方法: city96/ComfyUI-GGUF を導入すると、UnetLoaderGGUF と DualCLIPLoader (GGUF) で量子化モデルを読み込めます。Q8はFP8相当の品質、Q4は8GB VRAMで実運用できる下限ラインで、品質と軽さのトレードオフを段階的に選べる構成です。
VRAM最適化のより詳細なテクニックは、VRAM最適化テクニック|FP8量子化・モデルオフロードで解説しています。
建築パース生成でのFlux活用ポイント
Fluxモデルは建築パース生成において、従来のモデルにはない強みを持っています。ここでは高精細テクスチャと文字描画という2つの特徴を整理したうえで、建築向けプロンプトの書き方へとつなげます。
高精細テクスチャと文字レンダリングの強み
建築パース生成において、Fluxモデルは2つの点で従来モデルより優れています。
1つ目は、素材の質感表現力です。木目、コンクリート、ガラスの反射など、建築素材のテクスチャを高い精度で描画できます。FLUX.2ではさらに照明のリアリズムが向上し、自然光が差し込むインテリアパースの品質が上がりました。
2つ目は、文字レンダリング能力です。建築プレゼン用の概念図を生成する場面では、Fluxの文字描画精度が扱いやすさにつながります。間取り図のラベル、ドアプレート、案内板、コンセプトボードのタイトルなど、テキストを含む画像の生成で効果を発揮しやすい構成です。
建築向けプロンプトのコツ
実務では、建築パース生成時に以下のポイントを意識すると良い結果が得られます。
- 素材名を具体的に指定する(例:
white oak flooring、exposed concrete wall) - 光源の方向と種類を明示する(例:
natural light from large south-facing windows) - カメラアングルを写真用語で記述する(例:
eye-level interior shot, 24mm wide angle) - Fluxではネガティブプロンプトが不要なため、肯定的な表現だけで構成する
チェックポイントモデルとの使い分けはチェックポイントモデルの違い|SD1.5・SDXL・SD3の選び方で整理しています。
まとめ
Fluxモデルは、FLUX.1からFLUX.2、そしてChromaへと進化を続けています。ComfyUIで利用するときは、用途に応じた適切なモデル選択が大切です。
用途別の目安を整理すると、次のような使い分けになります。商用プロダクトに組み込むならApache 2.0のFLUX.1 SchnellやChroma1-HD、品質重視の検証にはFLUX.1 DevまたはFLUX.2 dev、最新品質をクラウド側で使うならFLUX.2 proのAPI/Playground経由、という整理です。FP8やGGUF量子化を組み合わせれば、VRAM 8GBクラスのGPUでも実運用ラインに入ります。
Flux対応のワークフロー設計とモデルの使い分けを理解することで、建築パースをはじめとする実務での画像生成の幅が広がります。
あわせて読みたい
- ComfyUI モデル完全ガイド — Flux以外も含めてモデル選びの全体像を押さえたい方へ
- チェックポイントモデルの違い|SD1.5・SDXL・SD3の選び方 — SD系とFluxの使い分けを整理したい方へ
- Flux Kontext 画像編集ワークフロー|部分編集・スタイル変換 — Fluxで画像編集まで踏み込みたい方へ
- VRAM最適化テクニック|FP8量子化・モデルオフロード — FP8・GGUF量子化やオフロードを設定で詰めたい方へ
- モデル入手先ガイド|CivitAI・HuggingFace・Comfy Registry — Fluxモデルの入手経路を把握しておきたい方へ




