ComfyUI 動画生成ガイド【2026年版】モデル選びと実践ワークフロー

2026年4月23日

ComfyUI（ノードをつないで画像生成AIを動かすツール）で動画を生成する選択肢は、2026年に入って一気に広がりました。テキストから映像を作るWanやHunyuanVideo、静止画を動かすImage to Video、既存のStable Diffusion（画像生成AIの代表格）モデルにモーションを加えるAnimateDiff、数秒レベルで動画を仕上げるLTX-Videoがそろっています。いずれもオープンソースで無料利用でき、GGUF（軽量化された量子化形式）の普及によって8GB VRAM（GPUの作業メモリ）のGPUでも動作する時代になっています（2026年4月現在）。

この記事では、ComfyUIで使える動画生成モデルの全体像と使い分けの判断基準を解説します。自分の用途やGPU環境に合ったモデルを選ぶための地図として活用してください。

体験カリキュラム

Blenderで作る
初めての建築3DCGパース

Blenderの導入から基本操作、太陽光の入る白い部屋の制作まで。全3本のカリキュラムを体験できます。

Blenderの導入から基本操作、
太陽光の入る白い部屋の制作まで。
全3本のカリキュラムを体験できます。

まずは体験カリキュラムを受講

ComfyUIで動画を生成する方法の全体像

ComfyUIでの動画生成には、目的に応じた3つの主要アプローチがあります。ここではText-to-Video・Image-to-Video・モーション付加のそれぞれの特徴を整理し、主要モデルの位置づけへとつなげます。

動画生成の3つのアプローチ

ComfyUIでの動画生成は、大きく3つのアプローチに分かれます。建築で言えば「ゼロから3Dモデリング」「既存写真にアニメーションを付ける」「既存のパース集にカメラワークを足す」に近い三択です。それぞれの仕組みと向いている場面が異なるため、最初に全体像を押さえておくと迷いにくくなります。

Text-to-Video（テキストから動画） は、テキストプロンプトだけで映像を生成する方法です。Wan 2.1/2.2、HunyuanVideo、LTX-Videoなどの専用モデルが対応しています。ゼロから映像を作りたい場合や、プロンプトで動きや光を指定したい場合に適した手法です。

Image-to-Video（静止画から動画） は、既存の画像を起点に動きを加える方法です。建築パースやインテリア写真を入力すると、カメラが前進するようなウォークスルー動画に変換できます。元画像のテクスチャや照明を引き継ぐため、画像の世界観を崩さずに動きを足したい用途に向いています。

モーション付加（AnimateDiff） は、既存のStable Diffusionチェックポイントにテンポラルモジュールを追加して、静止画をアニメーション化する方法です。専用の動画モデルを別途用意しなくても、普段使っているSDモデルの画風をそのまま活かせる手軽さが特徴です。

主要モデルの位置づけと選び方

2026年4月現在、ComfyUIで利用できる主要な動画生成モデルの特徴を比較します。

モデル	パラメータ数	VRAM下限（量子化時）	得意分野	生成速度
Wan 2.1/2.2	1.3B〜14B	約8GB	質感表現、カメラ制御	中速
HunyuanVideo	13B	約8GB（GGUF Q4）	人物描写、複数人物シーン	やや遅め
AnimateDiff	SD 1.5ベース	8〜12GB	既存SD資産の活用	比較的速い
LTX-Video	2B〜22B	12GB〜	高速プロトタイピング	非常に速い
SeedVR2	3B/7B	約8GB（GGUF）	動画アップスケーリング	高速（1ステップ）

どのモデルも一長一短があります。品質重視ならWanかHunyuanVideo、速度重視ならLTX-Video、既存資産活用ならAnimateDiffという選び方が基本です。用途に応じた詳しい選び方は、記事の後半で解説します。

品質重視のモデル：Wan 2.1/2.2とHunyuanVideo

建築パースの現場で言うなら、ここでは「大型レンダラーとハイエンドビジュアライゼーションソフト」に相当する2本柱を見ていきます。

Wan 2.1/2.2の特徴と向いている用途

Alibaba（阿里巴巴）が開発したWan 2.1/2.2は、Apache 2.0ライセンスのオープンソース動画生成モデルです。ComfyUIにネイティブ対応しており、カスタムノードを追加しなくても使い始められます（2026年4月現在）。

Wan 2.1は1.3Bと14Bの2つのパラメータ規模を提供しています。1.3Bモデルなら8GB VRAMでも動作するため、RTX 3070やRTX 4060クラスのGPUで試せます。後継のWan 2.2ではMoE（Mixture of Experts）アーキテクチャが導入され、T2VとI2Vを1つのモデルで兼用できるTI2V-5Bも登場しました。

Wan 2.2で注目したいのがFun Camera Control機能です。パン・ズーム・回転といったカメラワークをコードで直接指定でき、建築パースのウォークスルー動画で特に有効です。始点と終点の2枚の画像から中間を補間するFirst-Last Frame（FLF2V）機能も加わっています。

質感表現やカメラ制御を重視する用途、とくに建築パースの動画化にはWanシリーズが扱いやすい選択肢です。詳しい導入手順はComfyUIでWan動画生成を始める方法で解説しています。

HunyuanVideoの特徴と向いている用途

Tencent（テンセント）が公開したHunyuanVideoは、13Bパラメータの大規模モデルです。人物の顔や手指の描写精度に定評があり、複数人物が登場するシーンでも表情の整合性を維持できます。フレームレートは24fpsで、Wanの16fpsよりなめらかな映像を出力できます。

txt2videoとimg2videoの両方に対応しています。img2videoは2025年3月にリリースされ、ComfyUIがDay-1でネイティブ対応しました。最大720p・24fps・約5秒の動画を生成できます（2026年4月現在）。

フルモデルは60GB以上のVRAMが必要ですが、ComfyUI v0.3.10以降のtemporal tilingとGGUF Q4版を組み合わせれば、8GB程度のVRAMでも動作します。品質の低下が少ないFP8版は、RTX 4070以上のGPUを持つ方にバランスの良い選択肢です。

人物が登場する動画やクライアント向けの高品質映像には、HunyuanVideoが扱いやすい選択肢です。詳しくはComfyUIでHunyuanVideo動画生成を始める方法をご覧ください。

WanとHunyuanVideoの使い分け

両モデルの使い分けを迷う方は多いのではないでしょうか。選び方の目安をシンプルにまとめます。

建築パースの動画化やカメラ制御を重視する場合：Wan 2.2のFun Camera Controlが有効
人物が登場する映像や複数キャラクターのシーン：HunyuanVideoの描写精度が活きる
8GB VRAMで手軽に始めたい場合：Wan 1.3BモデルまたはTI2V-5Bが最軽量
プロンプトへの追従性とフレームレートを重視する場合：HunyuanVideoが24fpsで優位

実務では、テクスチャや自然な動きの表現にはWan、人物の表情や手指の精度にはHunyuanVideoという使い分けが定着しつつあります。どちらもGGUF量子化で8GB環境に対応しているため、両方試して比較するのが確実です。

既存SDモデルを活かすAnimateDiff

建築パースに置き換えると「手持ちのPhotoshop素材にそのまま動きを付ける」ような立ち位置で、新しいデータを用意せずに映像化できるのが特長です。

AnimateDiffの仕組みと立ち位置

AnimateDiffは、Stable Diffusionのチェックポイントにテンポラルモジュールを追加する技術です。お気に入りのSD 1.5モデルやLoRA（軽量な追加学習ファイル）をそのまま使いながら、画像をアニメーション化できます。

ComfyUIでは「ComfyUI-AnimateDiff-Evolved」カスタムノードを導入し、AnimateDiff Loader → KSampler（画像生成の中核ノード） → Video Combineの流れでワークフローを構築します。モーションモジュールはV2とV3の2種類があり、V2はMotion LoRAによる8種のカメラワーク制御に対応、V3はDomain Adapterでより自然な動きを実現する設計です。

推奨解像度は512×512、フレーム数16、コンテキスト長16が安定動作の基本値になります（2026年4月現在）。ControlNet（コントロールネット）との併用でポーズ制御も可能です。

専用動画モデルとの違い

AnimateDiffの最大の利点は、VRAMが8〜12GBと軽量なことと、既存のSD資産を無駄にしないことです。一方、映像品質ではWanやHunyuanVideoといった専用モデルに及びません。

位置づけとしては、高品質な動画生成はWanやHunyuanVideoに任せ、短尺アニメーションの試作やSD特有の画風を活かした映像制作にAnimateDiffを使う形が現実的です。導入手順とモジュール選びの詳細はComfyUIでAnimateDiffを使う方法で解説しています。

静止画から動画を作るImage to Video

Image-to-Video（i2v）は、建築パース制作と特に相性のよい動画生成アプローチです。ここでは向いている理由を押さえたうえで、進化が著しいカメラモーション制御へと話を進めます。

i2vが建築パースに向いている理由

Image to Video（i2v）は、1枚の静止画を起点にAIが動きを推定して動画を生成する手法です。Text-to-Videoとは異なり、元画像のテクスチャや照明をそのまま引き継ぎます。3DCGでモデリング済みのシーンに「カメラワークだけ」を足す感覚に近い進め方です。

建築パースのウォークスルー動画を作りたい場合、t2vでは設計意図と異なるデザインが生成されるリスクがあります。i2vなら完成済みのパース画像を入力するため、外壁の素材感や窓の配置を維持したまま動きを加えられるのが利点です。3DCGソフトでのウォークスルー動画制作に数時間かかる工程を、数分に短縮できます。

ComfyUIではWan、HunyuanVideo、SVDなど複数のi2v対応モデルを利用できます。用途別には、低VRAMで手軽に試すならWan 1.3B、カメラ制御を細かく指定するならWan 2.2のFun Camera Control、画質優先ならHunyuanVideo I2Vという選び方です。

カメラモーション制御の進化

i2vの品質を大きく左右するのがカメラモーション制御です。Wan 2.2以降のFun Camera Controlでは、パン・ズーム・回転をコードで直接指定できるようになりました（2026年4月現在）。プロンプトだけに頼る従来手法と比べ、再現性が大幅に向上しています。

建築外観にはZoom In + Pan Right、室内パースにはslow Pan Leftといった組み合わせが実務で多用されています。i2vの具体的な手順やモデル比較はComfyUIで静止画から動画を生成する方法をご確認ください。

速度特化のLTX-Videoとアップスケーリング

LTX-Videoのリアルタイム生成

Lightricks社が開発したLTX-Videoは、速度に特化したDiTベースの動画生成モデルです。RTX 4090環境で5秒分の映像を4秒前後で生成できるため、再生速度を上回るリアルタイム性能を実現しています（2026年4月現在）。

品質ではWanやHunyuanVideoに劣る場面もありますが、プロトタイピング用途で複数パターンを素早く試すのに向いています。まずLTX-Videoで10〜20パターンを生成し、方向性が決まったらWanやHunyuanVideoで仕上げる二段階ワークフローが効率的です。

T2VとI2Vの両方に対応しており、ComfyUIのテンプレートから手軽に始められます。LTX-Videoの詳しい設定はComfyUIでLTX-Videoを使う方法で解説しています。

SeedVR2による後処理アップスケーリング

AI動画生成モデルの出力は多くの場合480p〜720pです。最終品質を高めるには、後処理でのアップスケーリングが欠かせません。

ByteDanceが開発したSeedVR2は、1ステップの拡散処理で高速かつ高品質なアップスケーリングを実現するモデルです。従来のフレーム単位処理とは異なり、複数フレームをまとめて処理するため、テンポラル一貫性（フレーム間のちらつき防止）を保ったまま解像度を引き上げられます。

GGUF量子化版を使えば8GB VRAMでも動作可能です。ComfyUIのワークフロー内で動画生成からアップスケーリングまで完結するため、ファイルの受け渡しが不要な点も実務で扱いやすいポイントです。詳しくはComfyUIで動画をアップスケーリングする方法をご覧ください。

用途別おすすめワークフロー

建築プレゼンで言えば、初期のスタディ案を複数並べる段階と、クライアントに提出する最終案を仕上げる段階で、使う道具も時間のかけ方も変わります。動画生成も同じ考え方で組むと効率化しやすくなります。

VRAM別のモデル選択ガイド

お使いのGPUのVRAM容量によって、選べるモデルと最適な構成が変わります。以下は2026年4月現在の目安です。

8GB VRAM（RTX 3070 / RTX 4060など）
– Wan 2.1 T2V-1.3B（ネイティブ対応）
– Wan 2.2 TI2V-5B（T2V/I2V兼用）
– AnimateDiff（SD 1.5ベース）
– GGUF量子化版のHunyuanVideo Q4、Wan 14B

12〜16GB VRAM（RTX 4070 / RTX 4070 Tiなど）
– HunyuanVideo FP8版
– Wan 14Bモデル（480p）
– LTX-Video 2B版
– SeedVR2 FP8版

24GB以上（RTX 4090など）
– HunyuanVideo フルモデル
– Wan 14Bモデル（720p以上）
– LTX-Video 13B distilled版
– SeedVR2 FP16版（7B）

8GB環境でもGGUF量子化のおかげで主要モデルが一通り試せるようになっています。ただし生成時間は長くなるため、24GB以上の環境があれば作業効率は格段に上がります。

二段階ワークフローの実践例

動画生成を「試作」と「仕上げ」の二段階に分けるワークフローが、作業効率の面で扱いやすい進め方です。

ステップ1：試作（速度優先）
LTX-Videoで複数パターンを高速生成し、構図やカメラワークの方向性を確定します。1パターンあたり数秒から数十秒で結果が出るため、10〜20のバリエーションを短時間で試せます。

ステップ2：仕上げ（品質優先）
方向性が決まったら、WanまたはHunyuanVideoで高品質に生成します。出力が480p〜720pの場合は、SeedVR2でアップスケーリングして最終品質に仕上げます。

この方法なら、高品質モデルで最初から全パターンを試す場合と比べて、作業時間を大幅に短縮できます。クライアントへの提案段階では速さを優先し、納品では品質を確保する。この切り替えが動画生成の効率を左右するポイントです。

まとめ

ComfyUIで使える動画生成モデルは、2026年に入って選択肢が急速に広がりました。Wan 2.1/2.2は質感表現とカメラ制御に強く、HunyuanVideoは人物描写に優れ、AnimateDiffは既存のSD資産を活かせます。速度重視ならLTX-Video、後処理の高画質化にはSeedVR2という組み合わせです。

GGUF量子化の普及により、8GB VRAMでも主要モデルをほぼ試せる環境が整いました。まずは自分のGPU環境に合ったモデルから始め、用途に応じて使い分けてみてください。試作はLTX-Videoで高速に、仕上げはWanやHunyuanVideoで品質を追い込む二段階ワークフローが、実務で効果的な進め方です。

この記事を書いた人

橘美咲 PERSC 専任講師

「CADは裏切らない。昨日引けなかった線が、今日は引ける。それが楽しいの」

元・完全未経験の文系女子。新卒で入った建築現場で「図面が読めない」と絶望し、悔し涙を流しながらCADを独学で習得した過去を持つ。その後、設計事務所、ゼネコンを経てフリーランスへ転身。現在はPERSCにて「現場で本当に使える技術」を伝授する鬼（？）コーチとして活動中。「線一本にも意味がある」が口癖。趣味は、完成した建物を見上げながらのビールと、深夜の猫動画巡回。

この著者の記事一覧へ

ComfyUI 動画生成ガイド【2026年版】モデル選びと実践ワークフロー

Blenderで作る
初めての建築3DCGパース