アップスケーリング完全ガイド|Hires Fix・タイル分割
ComfyUI(ノードをつないで画像生成AIを動かすツール)で生成した画像をそのまま提案資料に使おうとすると、解像度が足りず粗さが目立つことがあります。512×512や1024×1024で生成した画像を印刷用途やクライアント提出用に仕上げるには、アップスケーリング(高解像度化)が欠かせません。
ComfyUIのアップスケーリングには、大きく分けて「ピクセル空間での拡大(Upscale Image)」と「潜在空間を経由した再生成(Hires Fix)」の2方式があります。さらにVRAMが限られた環境でも4K以上の高解像度を実現するタイル分割という手法も用意されています。手元の8GB GPUしかなくても4K出力を狙えるので、手持ちのPCを買い替える前に試す価値は十分あります。
この記事では、3つの用語(pixel upscale/model upscale/latent upscale)の整理から始め、Hires Fixワークフローの組み方、タイル分割の具体的な設定値、モデル選びまでを海外一次情報の定量値とあわせて順に解説します。
アップスケーリングの2方式を理解する
アップスケーリングには2つのアプローチがあります。写真を大きく引き伸ばすのに似ていて、「そのまま拡大してぼやかす方法」と「拡大した枠の中で描き直す方法」の2種類、と考えるとわかりやすくなります。ComfyUIでの高解像度化は、目的に応じてこの2方式を使い分けます。
まず前提として、ComfyUIで使われる「アップスケール」という言葉には3つのレイヤーが混在します。
- pixel upscale:バイリニア/バイキュービック等の補間でピクセル画像を引き伸ばす(品質は最低だが軽い)
- model upscale:RealESRGAN等のAIモデルでピクセル画像を拡大する(単体で使える)
- latent upscale:潜在空間でサイズを拡大し、KSamplerで再デノイズする(Hires Fixの中核)
この3語を区別しておくと、以降の設定値や挙動が整理しやすくなります。
単純拡大(Upscale Image)の仕組み
単純拡大は、生成済みの画像をアップスケーリングモデルで拡大する方式です。ComfyUIでは「Upscale Image(Using Model)」ノードを使い、RealESRGANや4x-UltraSharpといったモデルで画像を2倍や4倍に引き伸ばします。
処理が1回で完結するため速度が速く、VRAMの消費も少なめです。ただし、元画像に含まれない細部を新たに描き足す能力は限定的で、生成時に崩れた部分がそのまま拡大されることもあります。
AI再生成(Hires Fix)の仕組み
Hires Fixは、潜在空間(Latent Space。AIが画像を処理する内部表現)で画像をアップスケールしたあと、KSamplerで再度ノイズ除去を行う方式です。拡大後にAIが細部を再描画するため、単純拡大では得られないディテールが加わります。
具体的には、次のような流れで処理が進みます。
- 通常のtxt2imgで低解像度の画像を生成する
- 「Upscale Latent」ノードで潜在空間上のサイズを拡大する
- 2回目のKSamplerでデノイズ処理を行い細部を再生成する
- VAE Decodeで最終画像として出力する
生成品質は高い一方、KSamplerを2回通すため処理時間は長くなります。VRAMの消費量も増えるので、GPUのスペックを確認してから試すのがおすすめです。
どちらを選ぶべきか
判断の基準は「求める品質」と「処理時間の許容範囲」。
素早くサイズだけ大きくしたい場合は単純拡大が向いています。SNS投稿やプレビュー確認など、細部の精度がそこまで求められないケースで重宝します。
一方、建築パースの提案資料やポートフォリオなど、ディテールの品質が問われる用途ではHires Fixが有利です。クライアント提出用の建築ビジュアルでは、Hires Fixを基本として選ぶと仕上がりの安定度が高くなります。提案資料の印象は細部の描き込みで決まるので、手間をかけてでも品質を優先する価値があります。
Hires Fixワークフローの組み方
Hires Fixは「下書きを一度大きい紙に描き直して細部を足していく」作業にたとえられます。一度小さく描いたラフを拡大して、その上からもう一度AIに描き込ませることで、細部のディテールが増えていく、そういう仕組みです。
潜在空間アップスケールの基本構成
Hires Fixの最小構成は以下の5ノードです。
- KSampler(1回目):通常のtxt2img生成を行う
- Upscale Latent:潜在空間上で画像サイズを拡大する
- KSampler(2回目):拡大後のLatentに対してデノイズ処理を実行する
- VAE Decode:Latentをピクセル画像に変換する
- Save Image:最終画像を保存する
1回目のKSamplerから出力されたLatentを「Upscale Latent」に接続し、そこからさらに2回目のKSamplerへつなぎます。プロンプトとモデルは1回目と同じものを共有する形が基本です。
2026年にはモデルアップ/潜在アップ/Tiled VAE/色補正を1ノードに統合した「ComfyUI-HiresFix-Ultra-AllInOne」のような統合ノードも登場しており、ノード接続を簡素化したい場合の選択肢として名前を押さえておくと便利です(2026年4月現在)。出典:ComfyUI-HiresFix-Ultra-AllInOne(GitHub)。
KSamplerの再処理設定
2回目のKSamplerで最も重要なパラメータはデノイズ強度(denoise)です。海外一次情報ではモデル系統とアップスケール方式で推奨レンジが違います(2026年4月現在)。
- SD1.5 × model upscale:0.35〜0.45。構図を維持しつつ細部を補強する標準レンジ
- SDXL × model upscale:0.25〜0.35。SD1.5より低めが推奨で、上げすぎると構図が崩れやすい
- latent upscale後の2回目KSampler:0.55以上。潜在空間で拡大した直後はノイズ性質が崩れるため、一定量以上のデノイズが必要
出典:2 Pass Txt2Img(Hires fix)Examples(ComfyUI公式)、How to Perform Hires Fix in ComfyUI(Prompting Pixels)。
実務では、建築パースのようにSDXLベースで構図の正確さが求められる案件はデノイズ0.28前後から試し、線が溶ける場合は0.22まで下げるのが安定します。ステップ数は20〜30程度に設定すると、品質と処理時間のバランスが取れます。
倍率とVRAM消費の関係
Hires Fixでは、倍率を上げるほどVRAMの消費が急増します。目安となる数値は次のとおりです(2026年4月現在)。
- 1.5倍:追加で約2GB(合計約6GB)
- 2倍:追加で約4GB(合計約8GB)
- 3倍以上:12GB以上が必要になるケースが多い
VRAM 8GBのGPUでは、2倍までが安定動作の上限と考えてください。それ以上の倍率が必要な場合は、次のセクションで解説するタイル分割の活用を検討しましょう。
タイル分割で4K以上を生成する方法
タイル分割は、大きな壁を小分けに塗装するのと同じ発想です。一度に広い面を塗るのはローラーの幅に限界がありますが、区画ごとに分けて塗ってから合わせれば、全面を塗りきれます。画像処理でも同じで、VRAMの「幅」を超える大きな画像を、タイルに分けて1つずつ処理することでメモリ不足を回避できます。
Ultimate SD Upscaleの導入と設定
タイル分割で最もよく使われるカスタムノードが「Ultimate SD Upscale」です。ComfyUI Managerからインストールできます。出典:ComfyUI_UltimateSDUpscale(GitHub)。
このノードは内部でアップスケーリングモデルによる拡大とKSamplerによるタイル単位の再描画を一括で処理します。設定項目が1つのノードにまとまっているため、複雑なノード構成を組まなくても使えます。
ControlNet Tileモデルと組み合わせると、タイル間の一貫性がさらに向上します。建築パースのように壁面や床面が連続するシーンでは、この組み合わせがとくに効いてきます。タイル境界に筋が見える問題を抑えられるので、大判印刷用の高解像度出力でも安心です。
代替として「Tiled Diffusion/MultiDiffusion(shiimizu版)」も海外では広く使われています(2026年4月現在)。Ultimate SD Upscaleと方式は違いますが、タイル分割で高解像度を狙う目的は共通しており、どちらか一方が動かない場合のバックアップとして覚えておくと安心です。出典:ComfyUI-TiledDiffusion(GitHub)。
タイルサイズとオーバーラップの最適値
タイルサイズは、GPUのVRAM容量に合わせて調整します。海外コミュニティで共有されているVRAM別推奨値は以下のとおりです(2026年4月現在)。
| VRAM | 推奨タイルサイズ | オーバーラップ |
|---|---|---|
| 12GB以上 | 2048px | 128〜256px |
| 8〜12GB | 1536px | 96〜192px |
| 8GB未満 | 1024px | 64〜128px |
オーバーラップは64pxからでも動作しますが、狭すぎるとタイル境界に筋が見える場合があります。タイルサイズの10〜15%をオーバーラップに割り当てるのが目安で、256px相当まで広げると非タイル処理とほぼ同等の滑らかさに近づきます。出典:ComfyUI Tiled Diffusion: High-Res Without the VRAM(42.uk)。
VRAM 8GBでも動かすコツ
限られたVRAMで高解像度を実現するには、いくつかの工夫が要ります。
まず、段階的なアップスケールが有効。一度に4倍を狙うのではなく、1K→2K→4Kのように2段階で処理すると、各ステップのVRAM消費を抑えられます。
次に、VAEタイリング(Tiled VAE)の有効化も大切です。VAE Decodeの処理でもVRAMを大量に使うので、VAEのタイルサイズを512に設定するとメモリ使用量を削減できます。Ultimate SD Upscale単体で詰まる場合、Tiled VAEを併用するだけで安定度が一段上がります。
さらに、FP8やGGUF量子化モデルを使うと、モデル自体のメモリ占有量を半分以下に圧縮できます。SeedVR2のQ4モデルであれば、フル精度の95%程度の品質を保ちながらVRAM使用量を約50%削減できます(2026年4月現在)。出典:SeedVR2 ComfyUI Low VRAM Guide(seedvr2.net)。
アップスケーリングモデルの選び方
アップスケーリングモデル選びは、現場に合わせて塗料を選ぶ感覚に近いものです。外壁用と内装用、木部用と金属用、それぞれ最適な塗料が違うように、画像のジャンルや用途に合わせてモデルを選ぶと仕上がりの品質が大きく変わります。
主要モデルの比較
代表的なモデルの特徴を整理します(評価値・DL数は2026年4月現在)。
- RealESRGAN x4plus:写真やフォトリアルな画像全般に対応する汎用モデル。海外メディアの比較で評価9.2/10と写実写真系で最高クラスの扱いを受けており、迷ったときの第一選択として安定しています
- 4x-UltraSharp:シャープネスを強調するモデル。Civitaiでレビュー数2.2万件超と汎用用途のダウンロード数が最多。デジタルアートやCG系の画像で細部のキレが求められる場合に向きますが、ポートレートでは過度にシャープになることがあります
- 4x-Foolhardy-Remacri:テクスチャの再現性に優れたESRGAN系モデル。布地や木目など、素材感を保ちたいシーンで効果を発揮します。8K級の超高解像度出力ではSUPIRと組み合わせる構成も海外で使われています
出典:Best AI Image Upscaler Guide(neurocanvas.net)、The Complete AI Upscaling Handbook(ComfyUI公式ブログ)。
モデルファイルは models/upscale_models フォルダに配置し、「Load Upscale Model」ノードで読み込みます。
SeedVR2の特徴と導入方法
SeedVR2は、ByteDanceが開発したDiffusion Transformerベースのアップスケーラーです(2026年4月現在)。従来のESRGAN系モデルと違って、1ステップで高品質な復元ができる点が特徴です。
主な強みは3つあります。
- 1ステップ生成:従来の多ステップ方式と比べて4倍以上高速に処理できる
- 動画対応:静止画だけでなく動画のアップスケールにも対応している
- 柔軟な量子化:FP16からGGUF Q4まで複数の精度バリエーションがあり、VRAMに合わせて選べる
ただし海外の実測レポートでは、静止画単発・1秒未満の短尺用途に限るとRealESRGAN系が3〜4倍速く、品質差もほぼないという結論が示されています(2026年4月現在)。SeedVR2の真価は動画の時系列一貫性にあるため、静止画中心のワークフローでは既存ESRGAN系のほうが合理的なケースが多い点は覚えておきましょう。出典:SeedVR2 Video and Image Upscaler Complete ComfyUI Guide 2026。
ComfyUIへの導入は、ComfyUI Managerから「ComfyUI-SeedVR2」を検索してインストールする方法が最も簡単です。モデルはHugging Faceからダウンロードできます。
建築パースに適したモデル選定
建築ビジュアルでは、壁面のテクスチャや窓枠のエッジが正確に再現されるかが大切になります。とくに建築パースでは「直線を直線のまま保てるか」が評価の分かれ目になります。ESRGAN系のモデルは直線の再現に強いので、建築用途と相性が良い系統です。
建築パースのアップスケーリングでは、RealESRGAN x4plusを基本モデルに据え、室内の素材感を強調したい場合はRemacri、外観のエッジを立てたい場合は4x-UltraSharpに切り替える運用が扱いやすくなります。SeedVR2は処理速度に優れるので、複数案を短時間で比較したいプレゼン準備の場面で候補になります。
提案資料用の建築パースでは、最終出力を3000×2000px以上にしておくとA3印刷にも耐えられる解像度になります。
まとめ
ComfyUIのアップスケーリングは、単純拡大とHires Fixの2方式を用途に応じて使い分けるのが基本です。速度重視なら単純拡大、品質重視ならHires Fixを選びましょう。
デノイズ値はSD1.5が0.35〜0.45、SDXLが0.25〜0.35、latentアップ後の2回目は0.55以上という定量レンジを押さえておくと、モデル系統が変わっても迷いません。タイル分割はVRAM別に2048/1536/1024pxを基準とし、Tiled VAEや段階的アップスケールを併用することでVRAM 8GB環境でも4K出力が射程に入ります。
モデル選びは用途次第です。建築パースはRealESRGAN x4plusを軸に、素材感はRemacri、エッジはUltraSharpで補完する運用が実務で扱いやすい組み合わせになります。NVIDIA GPU環境でバッチ処理の高速化が必要なら、既存ESRGAN系モデルを2〜4倍高速化するTensorRT版アップスケーラーという選択肢もあります。
高解像度の画像を安定して出力できるようになると、AIで生成したビジュアルの活用範囲が大きく広がります。まずはHires Fixの基本構成から試してみてください。
あわせて読みたい
- ComfyUI ノード基礎・基本ワークフローガイド — アップスケーリングの前提となるノード接続の基本を押さえたい方向け
- ComfyUI txt2imgワークフローの始め方|7ノードで画像生成 — Hires Fixの土台になるtxt2img生成から確認したい方向け
- VRAM最適化テクニック|FP8量子化・モデルオフロード — タイル分割以外のVRAM節約テクニックを押さえたい方向け
- ComfyUI×SeedVR2で動画アップスケーリング|実務の設定5手順 — SeedVR2を使った動画の高解像度化まで広げたい方向け




