チェックポイントモデルの違い|SD1.5・SDXL・SD3の選び方
ComfyUI(ノードをつないで画像生成AIを動かすツール)で画像生成を始めると、最初にぶつかるのが「どのチェックポイントモデルを選べばいいのか」という問題です。SD1.5、SDXL、SD3.5と複数の世代が存在し、それぞれ必要なVRAMも生成できる画像の品質もまったく違います。
さらに厄介なのは、LoRAやControlNetといった拡張機能がモデル間で互換性を持たない点です。最初のモデル選びを間違えると、あとから使いたい機能が動かないという事態にもなりかねません。
この記事では、SD1.5・SDXL・SD3.5の3世代を中心にスペックやエコシステムの違いを整理し、あなたの環境と目的に合ったチェックポイントモデルの選び方を解説します。
チェックポイントモデルとは
チェックポイントモデルは、画像生成の「土台」として機能するファイルです。建築でいえば構造躯体のようなもので、ここが決まって初めて仕上げや設備(LoRAやVAE)が選べます。
画像生成の「頭脳」にあたる存在
チェックポイントモデルとは、大量の画像データで学習済みの重みファイルのことです。ComfyUIではこのファイルを読み込むことで、テキストから画像を生成できるようになります。拡張子は .safetensors や .ckpt が一般的で、ファイルサイズは2GBから10GB程度になるのが通常です。
モデルの学習データによって、得意な画風や品質が大きく変わります。実写風が得意なモデル、アニメ調に特化したモデルなど、用途に合わせて選ぶことが大切です。
ベースモデルとカスタムモデルの違い
チェックポイントモデルには大きく3つの種類があります。
ベースモデルは、Stability AIが公式にリリースした標準モデルです。SD1.5、SDXL 1.0、SD3.5 Mediumなどがこれにあたります。汎用的な画像生成ができますが、特定のスタイルに特化はしていません。
ファインチューンモデルは、ベースモデルを特定のデータセットで追加学習したものです。たとえばリアル写真に特化した「CyberRealistic」や建築パースに強いモデルなど、目的別に最適化されています。
マージモデルは、複数のチェックポイントの重みをブレンドして作成されたモデルです。新しい概念の学習はできませんが、違うモデルの特徴を組み合わせた独自の画風を実現できます。
SD1.5・SDXL・SD3.5のスペック比較
モデル世代の違いは、3Dソフトのバージョン差に近いものです。軽量で操作が速い旧バージョン、高精細だが要求スペックが上がる新バージョン。どれが良い悪いではなく、手元のPCと用途で選ぶ、という考え方が実務的です。
比較表で一覧整理
2026年4月現在、主要なチェックポイントモデルのスペックは以下のとおりです。
| 項目 | SD1.5 | SDXL 1.0 | SD3.5 Medium | SD3.5 Large |
|---|---|---|---|---|
| パラメータ数 | 約8.6億 | 約26億 | 約25億 | 約81億 |
| 推奨解像度 | 512×512 | 1024×1024 | 512から1440px | 1024×1024 |
| 最低VRAM | 約4GB | 約8GB | 約10GB | 約16GB |
| 推奨VRAM | 6GB以上 | 12GB以上 | 12GB以上 | 24GB以上 |
| テキストエンコーダー | CLIP×1 | CLIP×2 | CLIP×2+T5 | CLIP×2+T5 |
| アーキテクチャ | U-Net | U-Net(大型) | MMDiT-X | MMDiT |
| ファイルサイズ目安 | 約2GB | 約6.5GB | 約5GB | 約16GB |
※VRAM要件は最適化なしの標準値です。量子化版やNVIDIA協業による最適化を適用した場合は、これより低いVRAMでも動作する可能性があります(2026年4月現在)。
SD1.5の特徴と向いている用途
SD1.5は2022年にリリースされた、もっとも歴史の長いモデルです。パラメータ数は約8.6億と軽量で、4GBのVRAMがあれば動作します。推奨解像度は512×512と低めですが、そのぶん生成速度が速いのが特長です。
最大の強みはエコシステムの充実度にあります。数年間の蓄積で、CivitAIだけでも数千種類のLoRAやControlNetモデルが公開されています。アニメ系・実写系を問わず、カスタムモデルの選択肢が圧倒的に多い世代です。
実務では、低スペックPCで画像生成の基礎を学ぶ段階ではSD1.5が選ばれやすい傾向があります。軽量で試行錯誤がしやすく、学習コストが低いためです。
SDXLの特徴と向いている用途
SDXL 1.0は2023年にリリースされた次世代モデルです。パラメータ数は約26億とSD1.5の約3倍に増加し、1024×1024の高解像度画像をネイティブに生成できます。テキストエンコーダーを2つ搭載したことで、プロンプトの理解力も大幅に向上しました。
8GB以上のVRAMが必要ですが、実用的には12GBのGPU(RTX 3060やRTX 4070など)があれば快適に動作します。画質と生成速度のバランスが良く、2026年4月現在でも実務利用でもっとも選ばれているモデルです。
LoRAやControlNetの資産もSD1.5に次いで充実しており、実務レベルの画像生成に必要な拡張機能はほぼ揃っています。SDXLをベースに特定用途へ特化させた派生モデル「Pony Diffusion」なども海外では広く使われており、2026年4月現在のSDXLエコシステムは成熟期に入っています。
SD3.5 Large / Mediumの特徴と使い分け
SD3.5は2024年10月にStability AI公式から発表された最新世代のモデルです。従来のU-Netアーキテクチャを捨て、MMDiT(Multimodal Diffusion Transformer)という新しい構造を採用しました。3つのテキストエンコーダー(CLIP×2 + T5 XXL)を搭載し、複雑なプロンプトの理解力が飛躍的に向上しています。
なお、初期版の「SD3」はライセンス問題で海外コミュニティから敬遠された経緯があり、実用上は改善版の「SD3.5」から評価するのが妥当です。
SD3.5はラインナップが明確に分かれます。
SD3.5 Largeは約81億パラメータを持つ最高品質版です。24GB VRAM級のGPU(RTX 4090など)が推奨環境で、willitrunai.comの検証でも16GB VRAMでは動作が厳しいと報告されています。高精細なコンセプトアートやプロダクション用途向けの位置づけです。
SD3.5 Mediumは約25億パラメータで、消費者GPUでも動作するよう設計されています。Hugging Face公式ページによると、改良版アーキテクチャ「MMDiT-X」を採用し、約10GB VRAMで「out of the box」動作が謳われています。12GB VRAMクラスのGPUで最新世代を試したい方に向いています。
加えて4ステップで生成できる高速版「SD3.5 Large Turbo」も用意されており、プロトタイピング用途で選択肢に入ります。
とくに注目したいのは文字描画の精度です。SD1.5やSDXLでは困難だった、画像内へのテキスト挿入がかなり正確にできるようになりました。商用プロモーションで看板やタイトル文字を入れたい、という用途で選ばれやすくなっています。
またTweakTownの報道では、NVIDIAとの協業でVRAM消費を約40%削減する最適化が進んでおり、RTX 30/40系でも運用可能性が広がっています。
エコシステムの対応状況(LoRA・ControlNet)
エコシステムは、建材メーカーの出す「対応ラインナップ」と考えるとわかりやすくなります。特定の構造(チェックポイントの世代)に対応した副資材(LoRAやControlNet)が豊富に出回っているかどうかで、作れる物の幅が決まります。チェックポイントモデルを選ぶとき、モデル単体の性能だけでなく周辺ツールの充実度も大切な判断材料になります。
SD1.5用のLoRAはSDXLでは動作しませんし、その逆も同じです。アーキテクチャが根本的に違うため、学習済みの重みをそのまま転用できないのが理由です。たとえばSD1.5向けに作られた建築パース風LoRAは、SDXLのチェックポイントにロードしてもエラーになるか、まったく意図しない出力になります。
テキストエンコーダーの構造もモデル間で大きく違います。SD1.5はCLIPを1つ、SDXLはCLIPを2つ、SD3系はCLIP×2にT5-XXLを追加した構成です。T5-XXL併用のSD3系では長文プロンプトの理解が強く、逆にSD1.5用に作られた短いプロンプトテンプレートはSD3系に最適ではありません。
2026年4月現在のエコシステム充実度を比較すると、以下のようになります。
| 拡張機能 | SD1.5 | SDXL | SD3.5 |
|---|---|---|---|
| LoRA | 非常に豊富 | 豊富 | 少数 |
| ControlNet | 全タイプ対応 | 主要タイプ対応 | 限定的 |
| カスタムモデル | 数千種類 | 数百種類 | ごく少数 |
| IP-Adapter | 対応 | 対応 | 一部対応 |
SD1.5はもっとも長い歴史を持つため、あらゆる拡張機能が揃っています。SDXLも主要なControlNetタイプ(Canny、Depth、OpenPoseなど)は対応済みで、実務利用に支障はないレベルです。
一方、SD3.5はリリースからの期間が短く、対応するLoRAやControlNetはまだ限られています。今後の拡充が期待される段階です。
用途別おすすめチェックポイントの選び方
モデル選びは、建築プロジェクトで「予算・敷地条件・施主の要望」から工法を決めるのと同じ流れになります。手持ちのGPUを予算、生成したい画像の解像度を要望、使いたい機能(LoRA/ControlNet)を施工条件と置き換えて考えると、選び方の筋道が見えてきます。
低スペックPCならSD1.5系
VRAM 4から6GBのGPUを使っている場合は、SD1.5系のチェックポイントが適しています。生成速度が速いため、プロンプトの調整を素早く繰り返せます。CivitAIで人気の高いSD1.5系モデルとしては、リアル系の「CyberRealistic」やアニメ系の「Anything V5」などがあります。
ただし、512×512の解像度が基本となるため、高解像度が求められる用途には向きません。アップスケーラーとの併用で補うことも可能ですが、ネイティブの高解像度には及ばない点に注意が必要です。
高品質と汎用性ならSDXL系
8GB以上のVRAMがあるなら、SDXLをメインのチェックポイントにするのがおすすめです。1024×1024のネイティブ解像度で細部まで描き込まれた画像を生成でき、LoRAやControlNetの資産も十分に揃っています。
建築パースのAI生成では、SDXL系モデルが主軸として選ばれる事例が多く見られます。解像度と品質のバランスが良く、ControlNetによる構図制御との相性も優れています。
テキスト描画・最新性能ならSD3.5系
24GB以上のVRAMを搭載したGPU(RTX 4090など)をお持ちなら、SD3.5 Largeで最高品質の画像生成ができます。テキスト描画の精度を重視する場合や、最新のアーキテクチャを試したい場合に向いています。
12GB程度のVRAMでもSD3.5 Mediumなら動作しますが、エコシステムの充実度を考えると、現時点ではSDXLとの併用がおすすめです。まずSDXLで安定運用しつつ、SD3.5を文字入り画像の検証用に併用する、というのが2026年4月現在の扱いやすい運用になります。
SD系以外の選択肢も知っておく(Flux.1 / Pony Diffusion)
モデル選びはStability AIの公式ラインナップだけで完結するものではありません。CivitAIの比較記事では、海外の実用主流として「Flux.1 dev / schnell」(Black Forest Labs)や「Pony Diffusion」(SDXLベースの特化派生)が挙げられています。
Flux.1は2024年後半から台頭した新世代モデルで、プロンプト追従性や画質でSD3.5と並ぶか上回るとの評価もあります。Pony DiffusionはSDXLをベースにキャラクター表現を強化した派生モデルで、CivitAIのダウンロード数では上位に位置しています。
SD系3モデルだけで判断せず、こうした選択肢も比較材料に入れておくと、目的に合ったモデル選びの精度が上がります。詳しくはFluxモデル完全ガイドやモデル入手先ガイドも参考にしてください。
CivitAIでチェックポイントモデルを探すコツ
CivitAIでのモデル探しは、建材のオンラインショップで検索条件を絞り込むのと似ています。絞り込み条件を間違えると目的外の商品が大量に出てきてしまうので、まず「対応バージョン」で確実にフィルタをかけるのが正解です。
チェックポイントモデルの入手先として、もっとも利用されているのがCivitAIです。ComfyUIで使うモデルを効率的に見つけるためのポイントを紹介します。
まず、モデル検索画面で「Filters」を開き、Model typesから「Checkpoint」を選択します。次に「Base Model」フィルターで、自分が使いたい世代(SD 1.5、SDXL 1.0、SD 3.5など)を指定します(2026年4月現在のCivitAI仕様)。こうすることで、対応するチェックポイントだけに絞り込めます。
モデルの品質を見極めるには、ダウンロード数とユーザー評価を確認しましょう。加えて、サンプル画像のプロンプトと設定値も参考になります。自分の目的に近いサンプル画像があるモデルを選ぶと失敗が少なくなります。
ダウンロードしたファイルは、ComfyUIの models/checkpoints/ フォルダに配置してください。ComfyUI Wikiでは、このフォルダ配下にSD1.5・SDXL・SD3・FLUXなどのサブフォルダを切って整理する運用が推奨されています。モデル数が増えたときの管理しやすさが大きく変わります。ComfyUIを再起動すれば、ノードのモデル選択欄に表示されるようになります。
なお、公式モデル(Stability AIやBlack Forest Labsのベースモデル)はHugging Faceが一次配布先です。CivitAIで見つからない場合はHugging Faceも確認してみてください。
まとめ
チェックポイントモデルは、ComfyUIでの画像生成の品質と方向性を決める最重要の要素です。
SD1.5は軽量でエコシステムが最も充実しており、低スペック環境や学習用途に向いています。SDXLは解像度・品質・拡張性のバランスに優れ、実務利用の主力として広く選ばれています。SD3.5はLargeとMediumでVRAM要件と用途が明確に分かれ、最新アーキテクチャによる高い性能を持ちますが、対応する拡張機能はまだ発展途上です。
自分のGPUスペックと用途を照らし合わせて、適切なモデルを選んでみてください。SD系以外にもFlux.1やPony Diffusionといった選択肢があるため、視野を広げて比較するのもおすすめです。
あわせて読みたい
- ComfyUI モデル完全ガイド — チェックポイント以外のモデル種類まで通して把握したい方へ
- Fluxモデル完全ガイド|Dev・Schnell・FLUX.2・Chroma — 次世代モデルFluxの導入を検討している方へ
- VAEの役割と選び方|色味・ディテールへの影響 — 色味や細部描写が思うように出ないときに
- ComfyUI LoRAの使い方|導入から建築向けおすすめの選び方 — 画風や建材表現を追加学習で制御したい方へ
- モデル入手先ガイド|CivitAI・HuggingFace・Comfy Registry — CivitAI以外の入手経路も把握しておきたい方へ




