ComfyUI Image to Video｜静止画から動画生成する実務5手順

2026年4月23日

建築パースの完成イメージを見せたいとき、1枚の静止画だけでは空間の奥行きが伝わりにくいと感じたことはありませんか。ComfyUI（ノードをつないで画像生成AIを動かすツール）のImage to Video（i2v）機能を使えば、レンダリング済みの画像をそのまま入力し、数秒のウォークスルー動画へ変換できます。

テキストから動画を作るText-to-Videoとは違い、i2vは元画像のテクスチャや照明をそのまま引き継ぎます。3DCGで言えば「モデリング済みのシーンにカメラワークだけ足す」作業に近く、建築パースの質感を維持したまま動きを加えられる点が大きな強みです。

この記事では、ComfyUIで静止画を動画に変換するImage to Videoの仕組みから、対応モデルの比較、建築パースへの実践手順、カメラモーション制御のコツまでを順番に解説します。

体験カリキュラム

Blenderで作る
初めての建築3DCGパース

Blenderの導入から基本操作、太陽光の入る白い部屋の制作まで。全3本のカリキュラムを体験できます。

Blenderの導入から基本操作、
太陽光の入る白い部屋の制作まで。
全3本のカリキュラムを体験できます。

まずは体験カリキュラムを受講

Image-to-Videoとは？静止画から動画を生成するAI技術

Image-to-Video（i2v）は、1枚の静止画から動画を生成するAI技術で、Text-to-Videoとは用途が異なります。ここではi2vの仕組みと使われ方を押さえ、t2vとの違いへと話を進めます。

i2vの仕組みと用途

Image-to-Video（i2v）は、1枚の静止画を起点にAIが動きを推定して動画を生成する技術です。入力画像を潜在空間にエンコードし、ノイズ除去のプロセスを経てフレームを生成していきます。

建築パースのウォークスルー動画や、インテリア写真にカメラの動きを加えたプレゼン素材の制作など、幅広い場面で活用できます。写真1枚から数秒の映像を自動生成できるため、3DCGソフトでアニメーションを作るよりも大幅に工数を削減できるのが特徴です。

Text-to-Videoとの違い

Text-to-Video（t2v）はテキストプロンプトだけで映像を生成します。一方、i2vは画像を基準にするため、出力結果のコントロール性が高くなります。

たとえば建築パースの場合、t2vでは想定と異なるデザインが生成されるリスクがあります。i2vなら完成済みのパース画像を入力するため、外壁の素材感や窓の配置をそのまま動画に反映できます。「画像の世界観を崩さずに動きを足したい」という用途には、i2vが適しています。

対応モデル比較（2026年4月現在）

ComfyUIで使えるi2v対応モデルは複数あります。カメラレンズや工具を選ぶときと同じで、用途に合った道具を選ぶほど仕上がりが安定します。それぞれの特徴を整理します。

Wan 2.1〜2.6、軽量かつ高機能

Alibaba PAIが開発したWanシリーズは、i2v対応モデルの中でも選択肢が豊富です。2026年4月現在の最新版はWan 2.6で、Wan 2.2以降はMoE（Mixture-of-Experts）アーキテクチャへ刷新され、学習データは画像が従来比+65.6%、動画が+83.2%拡大されています。

Wan 2.1ではi2vとカメラ制御の基本機能が搭載されました。Wan 2.2ではFun Camera Controlが追加され、パン・ズーム・回転をコードで指定できるようになっています。さらにWan 2.6では最大1080p出力に対応し、参照動画のモーションを学習して再現するReference-to-Video機能も加わりました。

軽量運用の面でも選択肢が豊富です。Wan 1.3Bモデルは約8GBのVRAM（GPUの作業メモリ）で動作し、RTX 3070クラスのGPUでも利用できます。加えてWan 2.2本体もFP8量子化版やGGUF（軽量化された量子化形式）版が公開され、14BモデルでさえVRAM 8GB環境で動作した事例が海外コミュニティで共有されています（2026年4月現在）。

建築パースのi2v変換では、軽量で試行錯誤しやすいWanシリーズが扱いやすい選択肢です。

HunyuanVideo I2V、高品質な映像表現

Tencent Hunyuanが公開した13Bパラメータの大規模モデルです。ComfyUIではネイティブサポートされており、kijaiやcity96による拡張ノードに加え、GGUF・FP8量子化版のワークフローも用意されています（2026年4月現在）。

使い分けの基準は公式アナウンスで明示されています。v1（concat）はモーションの滑らかさとプロンプト追従性に優れ、動きを重視する場面で選ばれます。v2（replace）は入力画像への忠実度を優先しており、元画像の構図や素材感を崩したくない建築プレゼンに向きます。最大720p・24fpsで約5秒の動画を生成可能です。

SVD（Stable Video Diffusion）

Stability AIが公開したSVDは、i2vの先駆的なモデルです。ComfyUIではSVD img2vid Conditioningノードを使い、初期画像・動画パラメータ・VAE（画像と潜在表現を相互変換する処理）モデルを組み合わせてフレーム生成を制御します。

WanやHunyuanVideoと比べると世代が古いため、画質やモーションの自然さでは差が開いています。ただし、軽量で動作が安定しているため、テスト用途や短いループ動画には今でも使えます。

モデル選定の判断基準

用途別の選び方をまとめます。

低VRAMで手軽に試したい場合、Wan 1.3BモデルまたはWan 2.2のFP8/GGUF版
カメラ制御を細かく指定したい場合、Wan 2.2以降のFun Camera Control
画質と元画像忠実度を優先するプレゼン素材には、HunyuanVideo I2V v2
動きの滑らかさとプロンプト追従を重視する場合、HunyuanVideo I2V v1
安定したテスト環境が必要な場合、SVD

建築パースからウォークスルー動画を作る手順

ここでは、Wan i2vモデルを使い、建築パースの静止画からウォークスルー動画を生成する具体的な手順を紹介します。

入力画像の準備と解像度の注意点

i2vモデルは入力画像の解像度に厳密な制約があります。Wanモデルの場合、720pでの対応解像度は以下のとおりです（2026年4月現在）。

横長、1280×720（高品質）、832×480（中品質）
縦長、720×1280（高品質）、480×832（中品質）
正方形、624×624

寸法は16の倍数に揃える必要があります。元画像のアスペクト比を維持したままリサイズするには、ComfyUI-ConstrainResolutionノードが便利です。建築パースは横長が多いため、1280×720を基準にする進め方が実務では扱いやすい選択肢になります。

Wan i2vワークフローの組み方

ComfyUIでのワークフロー構成は次の流れになります。

Load Imageノードで入力画像を読み込む
CLIP（テキストや画像を数値化する処理）Vision Encoderで画像の特徴量を抽出する
UMT5 Text Encoderでテキストプロンプトをエンコードする
Wan i2vモデルをModel Loaderで読み込む
KSampler（画像生成の中核ノード）でデノイズ処理を実行する
VAE Decodeで潜在空間から映像フレームに変換する
Video Combineノードで動画ファイルとして書き出す

実務では、ステップ数を20〜30に設定し、CFG Scaleを7前後にするとバランスの良い結果が得られます。生成時間は1.3Bモデル・480p・5秒動画で約2〜3分が目安です（RTX 4070環境）。

プロンプトの書き方（建築シーンの動きを指示する）

i2vのプロンプトでは、動きの方向と速度を明確に記述するのがポイントです。建築パースの場合、以下のような書き方が効果的になります。

「slow camera pan from left to right, revealing the living room interior」
「gentle zoom into the entrance of a modern house, soft natural lighting」
「camera slowly moves forward through the hallway, steady motion」

「slow」「gentle」「steady」といった速度を示す形容詞を入れると、急激な動きを抑えられます。建築パースでは落ち着いたカメラワークが求められるため、速度指定が仕上がりの印象を大きく左右する要素になります。

カメラモーション制御でプロ品質に仕上げる

i2vでプロ品質の動画に仕上げるには、カメラモーションの制御が大きな分かれ目になります。ここではパン・ズーム・回転の指示方法を整理し、Wan Fun Camera Controlの活用やパラメータ調整へと進みます。

パン・ズーム・回転の指示方法

Wan 2.2以降のFun Camera Controlでは、カメラの動きをコードで直接指定できます。公式ワークフローでサポートされる代表的なモーションタイプは以下のとおりです。

Pan Up / Pan Down、上下のパン
Pan Left / Pan Right、左右のパン
Zoom In / Zoom Out、ズームイン・アウト
上記を組み合わせた複合モーション

さらに英語プロンプトで動詞指示を加えると、Dolly（前後移動）、Tracking（被写体追従）、Orbital Arc（被写体を中心にした弧状回転）、Crane（上下の大きな移動）、Pull-back（引き）、Whip Pan（高速パン）といった細かい動きも再現できます（2026年4月現在）。コードと英語動詞を併用すると、プロンプトだけに頼るより正確にカメラワークを制御できます。

Wan Fun Camera Controlの活用

Wan Fun Camera Controlのワークフローでは、専用のカメラ制御ノードを追加して使います。入力画像とテキストプロンプトに加え、Camera Motion Typeノードでモーションを選択する構成です。必要なモデルファイルはwan2.2_fun_cameraモデル本体、対応LoRA、umt5_xxl Text Encoder、VAEの4点が基本構成になります。

実務では、建築外観のパースにはZoom In + Pan Rightの組み合わせがよく使われます。室内パースにはslow Pan Leftで部屋全体を見渡す動きが効果的です。カメラの動きが大きすぎると画像の整合性が崩れるため、控えめな設定から調整する進め方が安定した仕上がりにつながります。

動きの品質を左右するパラメータ

生成動画の品質に影響する主なパラメータを整理します。

ステップ数、20〜30が推奨。多いほど品質は上がりますが処理時間も増加します
CFG Scale、5〜9の範囲で調整。高すぎるとアーティファクトが発生しやすくなります
フレーム数、Wanモデルでは最大81フレーム（約5秒・16fps）に対応
Shift値、Wan 2.2のデノイズ設定で、標準モデルは8、Lightningモデルは5が推奨値です

まず低ステップ・低解像度で動きの方向を確認し、問題なければ高品質設定で本番生成する2段階のアプローチが、試行錯誤のコストを抑えやすい進め方です。

入力画像の品質が結果を決める

建築のレンダリングと同じで、元データの解像度が足りないといくら後処理を重ねても破綻が残ります。入力画像の品質確保が最優先の工程です。

解像度と対応サイズ

i2vモデルは入力画像の品質をそのまま引き継ぐため、元画像の解像度が結果を大きく左右します。480p未満の画像を使うと、生成動画にもぼやけやノイズが目立つ傾向があります。

可能であれば720p（1280×720）以上の画像を用意してください。建築パースをレンダリングする段階で、i2v用の出力解像度を意識しておくと後処理の手間が減ります。

画像の前処理とアップスケール

元画像の解像度が足りない場合は、ComfyUIのImage Upscaleノードで事前に拡大する方法があります。アーティファクトや不自然な描写がある画像は、アップスケール前に修正しておくのが確実な進め方になります。拡大後に修正すると、より多くの箇所に手を入れる必要が出てきます。

SeedVR2やFlashVSRなど、動画専用のアップスケーラーを後段で適用する方法もあります。ただし、入力段階での品質確保が最も効果的な対策です。高品質な入力画像を準備することが、i2vワークフロー全体の成功率を左右します。

まとめ

ComfyUIのImage to Video機能を使えば、建築パースなどの静止画から数秒のウォークスルー動画を手軽に生成できます。Wan・HunyuanVideo・SVDなど複数のモデルが利用でき、用途やハードウェア環境に合わせて選択可能です。FP8やGGUFの量子化版も普及したため、VRAM 8GB環境でも本格的なi2vに取り組める時代になりました。

カメラモーション制御やプロンプトの工夫で動画の品質は大きく変わります。入力画像の解像度を720p以上に揃え、低ステップのテスト生成から始めるアプローチが効率的です。生成後にフレーム補間（RIFE / FILM VFI）やAPI型サービス（Klingなど）を組み合わせる選択肢もあるので、用途に応じて使い分けてください。

この記事を書いた人

橘美咲 PERSC 専任講師

「CADは裏切らない。昨日引けなかった線が、今日は引ける。それが楽しいの」

元・完全未経験の文系女子。新卒で入った建築現場で「図面が読めない」と絶望し、悔し涙を流しながらCADを独学で習得した過去を持つ。その後、設計事務所、ゼネコンを経てフリーランスへ転身。現在はPERSCにて「現場で本当に使える技術」を伝授する鬼（？）コーチとして活動中。「線一本にも意味がある」が口癖。趣味は、完成した建物を見上げながらのビールと、深夜の猫動画巡回。

この著者の記事一覧へ

ComfyUI Image to Video｜静止画から動画生成する実務5手順

Blenderで作る
初めての建築3DCGパース