ComfyUI×Wan動画生成の始め方|2.1/2.2ワークフロー構築ガイド
「テキストから動画を生成したいけれど、高価なGPUがないと無理では」と感じていませんか。Alibaba(阿里巴巴)が開発したWan 2.1/2.2は、Apache 2.0ライセンスで公開されたオープンソースの動画生成モデルです。特に1.3Bパラメータの軽量版なら、8GB VRAM(GPUの作業メモリ)のGPUでも動作します(2026年4月現在)。しかもComfyUI(ノードをつないで画像生成AIを動かすツール)がネイティブ対応しているため、カスタムノード追加なしで始められる手軽さも魅力です。2026年4月時点ではWan 2.2が主流で、派生モデルのWan 2.6も登場しています。
この記事では、Wan 2.1と2.2の違いからComfyUIでのワークフロー構築手順、フレーム数や解像度のトレードオフ、建築ウォークスルー動画への活用方法までを解説します。
Wan 2.1/2.2とは:オープンソース動画生成モデルの概要
Wanシリーズは、Alibaba Cloudが公開したオープンソースの動画生成モデルです。ここでは2.1と2.2の特徴・バージョン差を押さえたうえで、必要スペックとVRAMの目安を確認します。
モデルの特徴とバージョンの違い
Wan 2.1は2025年2月にAlibaba Cloudが公開した動画生成モデルです。採用しているのは拡散トランスフォーマー(DiT)アーキテクチャで、時空間VAE(Variational Autoencoder、画像と潜在表現を相互変換する処理)によって高品質な映像を生成します。パラメータ規模は1.3Bと14Bの2種類で、テキストから動画を作るtxt2videoと、静止画から動画を作るimg2videoに対応しています。
Wan 2.2は2025年7月公開の後継モデルで、MoE(Mixture of Experts)アーキテクチャを導入しました。動作の特徴は、高ノイズエキスパートがレイアウトを担当し、低ノイズエキスパートが詳細を仕上げる2段階生成の構造です。建築で言えば「躯体担当と仕上げ担当の職人を切り替えていく」ような仕組みで、総パラメータ数は約27Bですが、ステップあたりアクティブになるのは14B分のみで、VRAM消費は14Bモデル相当に収まります。
Wan 2.2で公開されたのは5Bと14Bの2系統です。特筆すべきはTI2V-5Bで、T2VとI2Vを1つのモデルで兼用できる統合型です。さらに始点と終点のフレームを指定して中間を補間するFirst-Last Frame(FLF2V)機能も加わりました。映像品質も向上し、1080p出力にも対応しています(2026年4月現在)。
どちらもApache 2.0ライセンスで商用利用が可能です。英語と中国語のバイリンガルプロンプトに対応している点も見逃せないポイントです。
必要スペックとVRAM目安
Wanモデルを動かすうえで最も重要なのがGPUのVRAM容量です。では、どの程度のスペックが必要なのでしょうか。以下にモデルごとの目安をまとめます(量子化なし、2026年4月現在)。
- Wan 2.1 T2V-1.3B:約8GB VRAM、480p出力。エントリーGPUでも動作
- Wan 2.2 TI2V-5B:約8GB VRAM、480p出力。T2V/I2Vを1モデルで兼用可能
- Wan 2.1/2.2 14B:16〜24GB VRAM(480p)、40GB以上(720p)
8GBクラスのGPU(RTX 3070やRTX 4060など)をお使いの方は、1.3Bモデルまたは5Bモデルから始めるのが扱いやすい進め方です。14Bモデルでの高解像度生成にはRTX 4090以上が必要になります。
コミュニティで広がっているGGUF(軽量化された量子化形式、Q4_K_M / Q5_K_Mなど)版を使えば、14Bモデルも6〜8GB VRAMで動作可能です。生成時間はクリップあたり10〜15分と長めですが、ハイエンドGPUなしで14Bクラスの品質に届く選択肢として実用的です。VRAM不足で生成が止まる場合は、ComfyUIのVRAM最適化テクニックも参考にしてください。
ComfyUIでWanモデルを導入する手順
CADに新しいレンダリングエンジンを組み込むときと同じで、モデルファイル・補助モデル・ワークフローの3点を揃えていく流れです。
モデルファイルのダウンロードと配置
最初のステップはComfyUIの更新です。Wan 2.1/2.2はComfyUIにネイティブ対応しているため、追加のカスタムノードは不要です。
導入方式は公式ネイティブ、Kijai WanVideoWrapper、GGUF量子化版の3系統から選べます。安定性重視なら公式ネイティブ、先行機能を試したいならKijai、低VRAM運用ならGGUFという使い分けです。
モデルファイルはHugging Faceから取得します。使用するモデルに応じて、以下のリポジトリからダウンロードしてください。
- Wan2.1-T2V-1.3B:テキストから動画生成(軽量版)
- Wan2.2-TI2V-5B:T2V/I2V統合モデル(8GB VRAM対応)
- Wan2.2-T2V-14B / I2V-14B:高品質版(量子化推奨)
ダウンロードしたファイルは、ComfyUIのmodels/diffusion_models/フォルダに配置します。CLIP(テキストを数値化する処理)モデルとVAEモデルもそれぞれ対応するフォルダへの配置が必要です。
ワークフローテンプレートの読み込み
ComfyUIにはWan用のテンプレートが内蔵されています。メニューバーから「Workflow」、「Browse Templates」、「Video」の順に進むと、Wan 2.1やWan 2.2のテンプレートが表示されます。使いたいモデルに合わせてテンプレートを選択するだけで、必要なノードが自動配置される仕組みです。
初めてWanモデルを試す方には、テンプレートからの導入が扱いやすい進め方です。ノードの接続関係を理解したうえでカスタマイズすると、トラブル時の原因特定がスムーズになります。ComfyUI動画生成の全体像もあわせて確認しておくと、モデル選定の迷いが減らせます。
txt2videoワークフローの構築と設定
txt2videoワークフローの品質は、ノード構成とプロンプトの書き方で大きく変わります。ここでは基本構成とプロンプト設計のコツから、フレーム数・解像度・品質のトレードオフまでを順に解説します。
ノード構成とプロンプトの書き方
txt2videoワークフローの基本構成は、テキストエンコーダ、サンプラー、VAEデコーダの3ブロックです。テンプレートを読み込むと、これらのノードがあらかじめ接続された状態で配置されます。
プロンプトには生成したい映像の内容を英語で記述します。推奨される構造は subject(被写体)+ action(動作)+ camera(カメラワーク)+ lighting(光)+ style(スタイル)+ negative(除外要素) の順番です。動作を起点に短く組み立てると、Wanモデルの動画生成性能を引き出しやすくなります。
たとえば「modern living room, slow dolly in, natural afternoon light, cinematic, negative: blurry, distorted」のように記述すると、カメラワークと光を明示できます。ネガティブプロンプトには「blurry, low quality, distorted」などを設定しておくと品質が安定します。
Wan 2.1/2.2は英語と中国語のバイリンガル対応ですが、英語プロンプトのほうが海外コミュニティの検証データが豊富です。日本語プロンプトは直接対応していないため、英語での入力が扱いやすい選択です。
フレーム数・解像度・品質のトレードオフ
動画生成で悩みやすいのが、解像度・フレーム数・生成時間のバランスではないでしょうか。以下はWan2.1 1.3Bを使った場合の目安です(2026年4月現在)。
- Fast:512×320、8フレーム、所要約90〜120秒、VRAM 5〜6GB
- Balanced:768×512、16フレーム、所要約180〜240秒、VRAM 6〜7GB
- Quality:1024×576、24フレーム、所要約300〜360秒、VRAM 7〜8GB
実務では、まずFast設定でプロンプトの方向性を確認し、仕上げにQuality設定で本番生成する2段階の進め方が効率的です。フレーム数は最大81フレーム(約5秒、16fps)まで設定できますが、フレームが増えるほどVRAM消費と生成時間が増加します。
14Bモデルでは720p以上の出力が可能です。ただしRTX 4090でも5秒のクリップ生成に約9分かかるため、用途に合わせたモデル選択が生産性に直結します。
img2videoワークフローで静止画を動かす
3DCGでモデリング済みのシーンにカメラワークだけ足す作業と同じ発想で、既存の画像を崩さずに動きを加えていきます。
画像入力と動き制御のポイント
img2video(画像から動画)は、既存の静止画を起点に動きを加える機能です。建築パースやインテリア写真の動画化に特に有効な手法です。
ワークフローでは、画像読み込みノードをサンプラーに接続します。入力画像の解像度がそのまま出力に影響するため、あらかじめ適切なサイズにリサイズしておくことが大切です。モーション強度の調整に使うのはサンプラーのdenoise値になります。値を下げると元画像に忠実な微細な動き、上げるとダイナミックな変化になります。
Wan 2.2のFirst-Last Frame補間
Wan 2.2で追加されたFLF2V(First-Last Frame to Video)は、始点と終点の2枚の画像を指定して、その間の動きを自動補間する機能です。たとえば、リビングの全景写真とキッチンの写真を指定すると、カメラが移動するような中間フレームが生成されます。
14B版はComfyUI公式ワークフローとして提供されており、5B版はstduhpf製カスタムノード経由で利用できます。従来のimg2videoよりも動きの方向を制御しやすく、意図したカメラワークを実現しやすくなります。詳しい画像から動画への変換手法はComfyUIのimg2video活用ガイドで解説しています。
建築ウォークスルー動画への活用
建築分野では、パース画像から室内を歩き回るウォークスルー動画の需要が広がっています。ここではWan2.2 Fun Cameraでのカメラ制御を軸に、建築パースを活かす実務的な活用法を紹介します。
Wan2.2 Fun Cameraでシネマティックなカメラ制御
建築分野では、パース画像から室内を歩き回るようなウォークスルー動画のニーズが高まっています。Wanモデルはこの用途と相性がよく、実務での活用が広がっている領域です。
カメラワークを明示的に制御したい場合に有効なのが、派生モデルWan2.2 Fun Cameraです。WanCameraEmbeddingノードを使うと、pan、tilt、dolly、zoom、orbital arcといったシネマティックな動きを直接指定できます。プロンプトでカメラワークをほのめかす従来手法と比べ、再現性が大きく向上する仕組みです。
プロンプトでは「modern Japanese living room, slow dolly in, natural afternoon light, cinematic」のように、空間の特徴とカメラの動きを具体的に記述します。建築用語(corridor、atrium、double-height ceilingなど)を加えると、より正確な空間表現が得られます。
建築パースを活かす実務的アプローチ
海外の建築ビジュアライゼーションコミュニティでは、img2videoワークフローに建築パースを入力してFun Cameraで前進動作を加える手法が、最も自然なウォークスルー結果を生む組み合わせとして紹介されています。txt2videoで一から生成するよりも、既存のパースを活かすほうが建築的な正確さを保ちやすい傾向があります。
生成した動画はプレゼン資料やSNS素材として活用できます。3DCGソフトでのウォークスルー動画制作には数時間かかりますが、Wanモデルなら数分で概要レベルの動画が得られます。ComfyUIを使った建築AI活用の全体像もあわせて確認してみてください。
まとめ
Wan 2.1/2.2は、ComfyUIでの動画生成を手軽に始められるオープンソースモデルです。1.3BやTI2V-5Bなら8GB VRAMで動作し、14Bモデルでは高品質な720p以上の出力が可能です。GGUF量子化版を使えば、14Bクラスを低VRAM環境で試す選択肢もあります。txt2videoでテキストから動画を生成する方法と、img2videoやFLF2Vで静止画を起点に動きを加える方法を使い分けることで、さまざまな用途に対応できます。
建築ウォークスルーでは、Wan2.2 Fun Cameraによる明示的なカメラ制御が再現性の高い結果につながります。まずはComfyUIのテンプレートを読み込み、Fast設定で試してみてください。プロンプトの書き方に慣れたら、解像度やフレーム数を引き上げて本番品質の動画制作に進めましょう。
あわせて読みたい
- ComfyUI動画生成ガイド — Wanを含む動画生成モデルの全体像と選び方
- ComfyUIでHunyuanVideoを使う方法 — Wan以外の動画生成モデルとの比較
- ComfyUIのimg2video活用ガイド — 画像から動画への変換手法を詳しく解説
- ComfyUI VRAM最適化テクニック — 8GB以下のGPUで快適に動かすための設定
- ComfyUIを使った建築AI活用の全体像 — 建築分野でのComfyUI活用全体像




