ComfyUI ControlNet Depth｜深度マップで建築パース制御

2026年4月23日

部屋の奥行きや天井の高さを保ったまま、内装だけを自由に変えたい。建築パースやバーチャルステージングでは、そんなニーズが頻繁に生まれます。ComfyUI（ノードをつないで画像生成AIを動かすツール）のControlNet（コントロールネット）Depthは、深度マップを使って空間の3D構造をAIに伝える技術です。手前を白、奥を黒で表現したグレースケール画像が、生成画像の奥行きをしっかり固定してくれます。

この記事では、DepthAnythingV2プリプロセッサ（前処理モジュール）の選び方からComfyUIでのワークフロー構築、建築分野での活用法まで、深度マップによる空間制御の全体像をお伝えします。

体験カリキュラム

Blenderで作る
初めての建築3DCGパース

Blenderの導入から基本操作、太陽光の入る白い部屋の制作まで。全3本のカリキュラムを体験できます。

Blenderの導入から基本操作、
太陽光の入る白い部屋の制作まで。
全3本のカリキュラムを体験できます。

まずは体験カリキュラムを受講

深度マップとは？ControlNet Depthの基本

深度マップは空間の奥行きをグレースケールで表現する画像で、ControlNet Depthの入力として使われます。ここでは深度マップの仕組みから、画像生成に与える効果までを順に整理します。

手前が白・奥が黒で空間を表現するしくみ

深度マップは、画像の各ピクセルがカメラからどれだけ離れているかをグレースケールで示した画像です。白に近いほどカメラに近く、黒に近いほど遠い位置を表します。たとえば室内写真の深度マップでは、手前のテーブルが明るく、奥の壁が暗く描かれます。3DCGで言うZパスや、白黒のボリューム模型に近いイメージです。

人間の目には普通の写真に見える画像も、深度マップに変換すると空間の立体構造が一目でわかります。この情報をAIに渡すことで「どこが手前で、どこが奥か」を正確に指示できます。

ControlNet Depthが画像生成に与える効果

ControlNet Depthモデルは、深度マップを条件として受け取り、空間構造を保った画像を生成します。通常のテキストプロンプトだけでは、部屋の奥行きや物体の前後関係を細かく指定するのは困難です。しかしDepthを使えば、3D空間のレイアウトを維持したまま、テクスチャや雰囲気だけを変更できます。

建築パースの生成では、この手法が頻繁に使われる運用パターンになっています。間取りの構造を崩さずにインテリアスタイルだけを差し替えられるため、クライアントへの提案バリエーションを効率よく作成できる点が、提案フェーズで大きな時間差を生みます。

DepthAnythingV2の特徴とモデル選択

2026年4月現在、深度推定のデファクトとなっているのがDepthAnythingV2です。ここではMiDaS系からの進化ポイントと、エンコーダやベースモデル別のDepth ControlNetの選び方を順に見ていきます。

MiDaS系からの進化ポイント

DepthAnythingV2は、2026年4月現在の深度推定プリプロセッサとして標準的な選択肢です。従来主流だったMiDaS系と比較して細かなオブジェクトの前後関係をより正確に捉えられるようになり、NeurIPS 2024にも採択された最新世代のモデルです（出典: Depth-Anything-V2 GitHub）。特に室内空間のような複雑なシーンでの安定性が改善されています。

学習データの拡充により、家具や建築部材のような人工物の深度推定精度も高くなっています。建築分野のユーザーにとって、MiDaS世代からV2への移行は実測値として差が出る領域です。下絵の精度が上がれば、その後の全工程で歩留まりが改善するのと同じ構造です。

エンコーダ（vits / vitb / vitl）と精度（fp16 / fp32）の選び方

DepthAnythingV2には、エンコーダサイズと数値精度の組み合わせで複数のモデルが用意されています（2026年4月現在）。エンコーダ別の特徴量次元は以下のとおりです。

エンコーダ	特徴量次元	VRAM（GPUの作業メモリ）負荷	推奨用途
vits	64	低	テスト・プロト確認
vitb	128	中	静止画・標準用途
vitl	256	高	高精度・映像向け

vitsは最も軽量で処理速度が速く、テスト用途に向いています。vitbは速度と精度のバランスが取れた中間モデルです。vitlは最も精度が高い反面、VRAMの消費量も大きくなります。動画用途では大きいモデルほど時間方向の一貫性が向上する傾向があります。

精度はfp16とfp32の2種類です。fp16は計算が速くメモリ効率も良いため、一般的な用途にはfp16で十分です。fp32は精度が最大になる一方、処理時間とVRAM使用量が増加します。

実務では、静止画ならvitb＋fp16の組み合わせが速度・品質・メモリのバランスに優れ、最もよく使われています。映像や最終出力で最高精度が必要な場合のみ、vitl＋fp32を選ぶと仕上がりとコストのバランスが取りやすくなります。

ベースモデル別のDepth ControlNet（SD1.5 / SDXL / Flux / SD3.5）

Depth ControlNetのモデルは、ベースとなる画像生成モデルごとに別物が用意されています。SD1.5環境では「control_v11f1p_sd15_depth」、SDXL（Stable Diffusionの高解像度版）環境では「diffusers/controlnet-depth-sdxl-1.0」（Hugging Face）が標準です。

Flux（高品質な新世代画像生成モデル）環境ではBlack Forest Labs公式の「FLUX.1 Depth」がTools系列として提供されており、XLabs版より安定した品質で運用できます。2026年4月現在、SD3.5 Large向けにはStability AI公式のDepth ControlNetが提供開始されており（blog.comfy.org SD3.5 Large ControlNet発表）、最新のベースモデルにもDepth制御が追随しています。

自分の環境のベースモデルに合わせて、対応するDepth ControlNetをダウンロードしてください。

ComfyUIでDepth ControlNetを使うワークフロー

ComfyUIでDepth ControlNetを組み込むには、ノード・モデルの事前準備が鍵を握ります。ここでは最小構成から手順を追い、strengthやresolutionの調整ポイントまで順に解説します。

必要ノードとモデルの準備

ComfyUIでDepth ControlNetを使うには、以下の準備が必要です。

まず、ComfyUI ControlNet Auxiliary Preprocessorsプラグインをインストールします。ComfyUI Core単体にはDepth用プリプロセッサが含まれないため、このプラグイン導入が必須です（2026年4月現在）。ComfyUI Managerの検索窓で「controlnet aux」と入力し、インストール後にComfyUIを再起動してください。再起動後、DepthAnythingV2Preprocessorノードが使えるようになります。

次に、Depth用のControlNetモデルをダウンロードします。SD1.5ベースなら「control_v11f1p_sd15_depth」、SDXLベースなら対応するDepthモデル、Flux環境ならFLUX.1 Depthをmodels/controlnet/フォルダに配置してください。

ワークフロー構築の手順

基本ワークフローは3ステップで構成されます。

ステップ1は、入力画像から深度マップを生成する段階です。Load Imageノードで元画像を読み込み、DepthAnythingV2Preprocessorノードに接続します。ckpt_nameにはモデルファイル名を指定し、resolutionは元画像に近い値を設定します。

ステップ2は、ControlNetの適用です。Apply ControlNetノードを配置し、positiveとnegativeの条件付けを入力します。ControlNetモデルのロードにはLoad ControlNet Modelノードを使い、先ほど配置したDepthモデルを選択します。

ステップ3は、KSampler（画像生成の中核ノード）で画像を生成する段階です。ControlNetで条件付けされたpositive/negativeをKSamplerに接続し、通常どおり生成を実行します。

strengthとresolutionの調整ポイント

ControlNetのstrength値は、深度マップの影響度を決める重要なパラメータです。1.0に設定すると深度マップに忠実な構造が再現されますが、プロンプトの自由度は下がります。通常は0.5〜0.8の範囲が扱いやすく、構造を維持しつつ自然な仕上がりになるケースが多いです。

resolutionはプリプロセッサの出力解像度です。元画像と同じか、やや低い値に設定します。高すぎるとノイズを拾い、低すぎると構造がぼやけるため、512〜1024の範囲で試すと調整の起点を掴みやすくなります。

建築・バーチャルステージングでの活用

Depth ControlNetは、建築・バーチャルステージング分野で特に威力を発揮します。ここでは空間構造を保持できるDepthの強みを押さえたうえで、3Dソフト連携やステージングへの応用を紹介します。

間取り・奥行き・天井高を保つDepthの強み

建築パースにおいて、Depth ControlNetは有効な制御手段です。深度マップが空間全体の3D構造を保持するため、間取りの形状や天井高、廊下の奥行きといった建築的要素を崩さずに画像を生成できます。

たとえば、LDKの写真から深度マップを抽出し、「モダン和風」や「北欧スタイル」といったプロンプトで再生成すると、同じ空間レイアウトのまま内装テイストだけが変わります。壁や天井の位置関係が維持されるため、建築的に不自然なパースになりにくい点が大きな強みです。

Blender / SketchUpからの深度入力：Zバッファ出力とviewport共有

3DCGソフトから深度マップを直接出力する方法も、建築分野では実用的です。3DCG連携の全体像はComfyUI × Blender/SketchUp連携｜3Dモデルからパース生成で詳しく紹介しています。Blenderでは、View Layer PropertiesでZパスを有効にし、コンポジターのMap Rangeノードで値を0〜1に正規化することで、深度マップ画像をレンダリングできます。

SketchUpからも、レンダリングプラグインを通じてデプスパスを書き出せます。3DCGソフトで意図的に設計した空間構造をそのままControlNetに入力できるため、写真がない段階でも理想の空間構成でAI画像を生成できる点が、提案初期フェーズで大きな武器になります。

もう一つの選択肢として、ComfyUIのScreen Shareノードを使えばBlender/SketchUpのviewportを直接取り込めます（OpenArt: Hyper SDXL viewport共有ワークフロー）。Zバッファを書き出さずにリアルタイムで生成結果を確認したいケースに向いた手法です。

実務では、設計初期のボリュームスタディでBlenderの深度マップを使い、空間の印象を素早く検証するケースが増えています。

バーチャルステージングで空間を固定し内装だけ変更する方法

バーチャルステージングは、Depth ControlNetの代表的な活用シーンです。空室の写真から深度マップを抽出し、ControlNetで空間構造をロックした状態で、家具や内装を生成します。

効果的な設定のコツは、Depthのstrengthを0.5〜0.6に設定し、プロンプトで家具の配置やスタイルを具体的に記述することです。strengthが高すぎると家具の形状が深度マップに引きずられ、低すぎると壁や床の位置がずれてしまいます。

2026年4月現在、海外のバーチャルステージング実務ではDepth単体ではなく、DepthとCanny（エッジ検出）を重ねるDual-ControlNetが標準的な構成になっています（Superteams.ai: AI Virtual Staging with ComfyUI）。Depthで空間構造を、Cannyで壁や窓のエッジを同時に制御することで、より正確なステージング結果が得られます。

DepthとCannyの使い分け

DepthとCannyは同じControlNetの仲間ですが、得意な場面が異なります。ここではそれぞれの強みを整理したうえで、両方を併用するMulti-ControlNetの考え方へと進みます。

Depthが得意なケース

Depth ControlNetは、空間全体の構造や物体の前後関係を制御したいときに扱いやすい手法です。室内の奥行き表現、人物のポーズ移植、風景写真の構図保持など、「3Dとしての空間配置」を維持したい場面で力を発揮します。

表面のテクスチャやディテールには関与しないため、スタイル変更の自由度が高い点も特徴です。同じ深度マップから和風にもモダンにも変換できます。

Cannyが得意なケース

一方のCanny ControlNetは、エッジ（輪郭線）を保持したい場面に向いています。建物の窓枠や家具の形状、ロゴのアウトラインなど、細部のディテールを崩したくない場合に効果的です。

ただし、Cannyは空間の奥行き情報を持ちません。そのため、大幅なスタイル変更では構造が破綻しやすくなります。CADで言えば、線画情報だけを基準に全体を組み直すような構造なので、プロポーションの整合性までは担保できないと捉えるとわかりやすいでしょう。

両方を併用するMulti-ControlNetの考え方

DepthとCannyの両方を同時に適用するMulti-ControlNetは、構造保持と細部制御を両立できる手法です。Depthで空間の骨格を、Cannyで表面のエッジを同時に指定します。

ComfyUI公式ドキュメントでは、strength合算値を2.0以下に抑える運用が紹介されています。2026年4月現在の海外コミュニティの経験則としても、Depth 0.7 ＋ Canny 0.6のようにtotal weight ≤ 2.0で設計すると、制御同士が干渉して画像が破綻しにくくなります（ComfyUI公式 Mixing ControlNets）。バーチャルステージングでは、Depth（strength: 0.55）＋Canny（strength: 0.25）の組み合わせが扱いやすい構成として知られています。

Multi-ControlNetの詳しい設定方法はComfyUI 複数ControlNet併用テクニック｜実務の組み合わせ5選で解説しています。

まとめ

ComfyUI ControlNet Depthは、深度マップを通じて画像の空間構造をAIに伝える手法です。DepthAnythingV2プリプロセッサで写真から深度マップを自動生成し、ControlNetで空間レイアウトを保ったまま画像を生成できます。

建築パースやバーチャルステージングでは、間取りや天井高を維持しつつインテリアだけを変更できるため、提案の効率が大きく向上します。Blender/SketchUpのZバッファ出力やviewport共有と組み合わせれば、設計段階から空間のAIビジュアライゼーションが可能です。

DepthとCannyを使い分け、必要に応じて併用することで、構造保持と細部制御を両立できます。まずはDepthAnythingV2のvitb＋fp16モデルで試し、用途に応じて精度を調整してみてください。

この記事を書いた人

橘美咲 PERSC 専任講師

「CADは裏切らない。昨日引けなかった線が、今日は引ける。それが楽しいの」

元・完全未経験の文系女子。新卒で入った建築現場で「図面が読めない」と絶望し、悔し涙を流しながらCADを独学で習得した過去を持つ。その後、設計事務所、ゼネコンを経てフリーランスへ転身。現在はPERSCにて「現場で本当に使える技術」を伝授する鬼（？）コーチとして活動中。「線一本にも意味がある」が口癖。趣味は、完成した建物を見上げながらのビールと、深夜の猫動画巡回。

この著者の記事一覧へ

ComfyUI ControlNet Depth｜深度マップで建築パース制御

Blenderで作る
初めての建築3DCGパース