ComfyUI×AnimateDiffでモーション付加|実務設定とモジュール選び
Stable Diffusion(画像生成AIの代表格)で生成した静止画に動きをつけたいと思ったことはありませんか。AnimateDiffは、既存のSDチェックポイントにテンポラルモジュール(時間軸の処理を担当する追加モジュール)を追加するだけで、画像をアニメーション化できる技術です。専用の動画生成モデルを用意しなくても、普段使っているモデルをそのまま活かせる点が大きな強みです。
この記事では、ComfyUI(ノードをつないで画像生成AIを動かすツール)でAnimateDiffを導入する手順からモーションモジュールの選び方、ControlNet(コントロールネット)との併用方法まで、実践的なワークフローの組み方を順を追って解説します。
AnimateDiffとは?既存SDモデルにモーションを追加する仕組み
AnimateDiffは、既存のSDモデルに「動き」を付与できる追加モジュール方式の動画生成技術です。ここでは仕組みの核となるテンポラルモジュールから、WanやHunyuanVideoとの違いまでを整理します。
テンポラルモジュールによるアニメーション化の仕組み
AnimateDiffは、Stable Diffusionの画像生成プロセスにテンポラルレイヤー(時間軸の情報を扱う層)を差し込む技術です。通常のSDモデルは1枚の静止画を生成しますが、AnimateDiffのモーションモジュールを組み込むと、複数フレームにわたる動きの連続性を学習した結果が反映されます。
仕組みとしては、SDチェックポイントの重みはそのまま保持し、追加のモジュールが「フレーム間のつながり」を制御する構造です。建築で言えば「既存の図面(SDモデル)は変えずに、動きの指示書(モーションモジュール)だけを差し込む」ようなイメージになります。画風やキャラクターの特徴はチェックポイント側が決め、動きのパターンはモーションモジュール側が担当する分業関係になります。お気に入りのモデルやLoRA(軽量な追加学習ファイル)をそのまま使いながらアニメーションを作れるため、既存の画像生成環境を無駄にしません。
Wan・HunyuanVideoとの違い
AnimateDiffと比較されることの多いWan VideoやHunyuanVideoは、最初から動画生成を前提に設計された専用モデルです。どのような違いがあるのでしょうか。
Wan Video(2026年4月現在、最新はWan 2.2)は、テキストや画像から映画品質の動画を直接生成できます。高い映像品質が魅力ですが、推奨VRAM(GPUの作業メモリ)は60〜70GBと要求スペックが高めです。HunyuanVideoはさらに上の80GB前後を想定した専用モデルで、複数キャラクターの表情や手の描写に強みがあります。
一方AnimateDiffは、SD 1.5ベースなら8〜12GB程度のVRAMで動作可能です(2026年4月現在)。既存のチェックポイントやLoRAを流用できる柔軟性も魅力です。映像品質では専用モデルに及びませんが、「今あるSDモデルの画風で短いアニメーションを作りたい」という用途では最も手軽な選択肢になります。
AnimateDiffは、建築パースのウォークスルー的な短尺アニメーション制作で、低スペック環境でも動画を試作できる手段として位置づけられます。
ComfyUIでAnimateDiffを導入する手順
CADソフトにアドインを追加するのと同じ感覚で、カスタムノードとモーションモジュールの2点を整えるだけで使い始められます。
ComfyUI-AnimateDiff-Evolvedのインストール
ComfyUIでAnimateDiffを使うには、Kosinkadink氏が開発する「ComfyUI-AnimateDiff-Evolved」カスタムノードを導入します。もっとも簡単なのはComfyUI Manager経由の方法です。
- ComfyUI Managerを開き、「Install Custom Nodes」から「AnimateDiff Evolved」を検索してインストール
- ComfyUIを再起動
- ノードメニューに「AnimateDiff」カテゴリが追加されていれば導入完了
手動で導入する場合は、ComfyUIの custom_nodes フォルダ内でリポジトリをクローンします。
cd ComfyUI/custom_nodes
git clone https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved.git
再起動後、ノード一覧に反映されます。Manager経由のほうが依存関係の解決もまとめて処理されるため、初めて導入する方にはManager経由が扱いやすい進め方です。
モーションモジュールのダウンロードと配置
モーションモジュールは、AnimateDiffの公式リポジトリやHugging Faceからダウンロードできます。取得したファイルは以下のパスに配置してください。
ComfyUI/models/animatediff_models/
配置後にComfyUIを再起動すると、AnimateDiff Loaderノードのドロップダウンからモジュールを選択できるようになります。
モーションモジュールの種類と選び方
AnimateDiffのモーションモジュールは複数のバージョンが公開されています(2026年4月現在)。
V2(mm_sd_v15_v2)の特徴とMotion LoRA対応
V2モジュールは、より大きな解像度とバッチサイズで学習されたモデルです。最大の特徴はMotion LoRAに対応している点にあります。なお、Motion LoRAはV2専用の仕組みで、V3やSDXL版では動作しない点に注意してください。
Motion LoRAを使うと、以下8種類のカメラワークを動画に適用できます。
- ZoomIn(ズームイン)/ ZoomOut(ズームアウト)
- PanLeft(左パン)/ PanRight(右パン)
- TiltUp(上ティルト)/ TiltDown(下ティルト)
- RollingClockwise(時計回り)/ RollingAnticlockwise(反時計回り)
建築パースで室内をパンしながら見せたい場合や、外観をズームインで印象づけたい場合に役立ちます。
V3(v3_sd15_mm)の特徴とDomain Adapter
V3モジュールは、Domain Adapter LoRAという新しい仕組みを導入しています。静止画のフレームで事前学習したアダプターが、モーション生成の精度を底上げする構造です。より自然で滑らかな動きが得られる傾向にあります。
Motion LoRAとDomain Adapter LoRAは別概念です。前者はV2専用のカメラワーク制御、後者はV3専用の画質底上げという位置づけなので、用途を混同しないようにしましょう。実務では、V2とV3の両方を手元に置き、生成結果を比べながら使い分けると仕上がりの幅が広がります。モーションの質感が異なるため、テーマによって向き不向きがあります。
SDXL版(mm_sdxl_v10_beta)の位置づけ
SDXL向けのモーションモジュールも公開されていますが、2026年4月現在ベータ版の位置づけです。1024×1024の高解像度で16フレームのアニメーションを生成できる反面、VRAM消費が大きく安定性にも課題が残ります。SD 1.5ベースのV2・V3と比べて実用段階にはまだ距離があるため、まずはSD 1.5系モジュールから始めるのが現実的な選択肢です。
AnimateDiffワークフローの基本構成
ComfyUIでのAnimateDiffワークフローは、いくつかの定番ノードをつなぐ構成で組み立てます。ここでは基本となる接続の流れを押さえたうえで、フレーム数・FPSなどのパラメータ設定を解説します。
AnimateDiff Loader→KSampler→Video Combineの流れ
ComfyUIでAnimateDiffワークフローを組む基本ステップを紹介します。
- Load Checkpoint: 使用するSD 1.5チェックポイントを読み込む
- AnimateDiff Loader: モーションモジュールを選択し、モデルに適用する
- CLIP(テキストを数値化する処理)テキストエンコード: プロンプト(ポジティブ・ネガティブ)を設定する
- KSampler(画像生成の中核ノード): サンプリングを実行して複数フレームを一括生成する
- Video Combine: 生成されたフレーム群をGIFやMP4に結合する
AnimateDiff Loaderの出力をKSamplerのモデル入力に接続するのが要点です。通常のテキストから画像を生成するワークフローと大きく変わらないため、既存のワークフローに数ノード追加するだけで動画生成に対応できます。
チェックポイントの選び方について詳しく知りたい方は、ComfyUIチェックポイントモデルの選び方も参考にしてください。
フレーム数・FPS・コンテキスト長の設定ポイント
AnimateDiffで安定した動画を生成するには、解像度と3つのパラメータ調整が鍵になります。まず推奨解像度は512×512です(2026年4月現在)。AnimateDiffの学習解像度に合致しており、ここから大きく離れると破綻の原因になります。
フレーム数(Total Frames): 生成するフレームの総数です。16フレームが標準的な設定で、短いループアニメーションに適しています。32〜48フレームに増やすと動きに余裕が出ますが、VRAM消費も比例して増加します。
FPS(Frames Per Second): 出力動画の再生速度を決めます。8FPSならゆっくりとした動き、16FPSでスムーズな印象になります。フレーム数16で8FPSなら2秒、16FPSなら1秒の動画です。
コンテキスト長(Context Length): Uniform Context Optionsノードで設定します。AnimateDiffが一度に参照するフレーム数を意味し、推奨値は16(2026年4月現在)。この値から大きく離れると動きの品質が低下するため注意してください。Context Optionsを設定しない場合、24フレーム程度が生成上限になります。長尺のループ動画を生成したいときは、UNet全体の無限長対応を担うContext Options、またはモーションモジュール内で動作するView Optionsを追加するのが鍵になります。
ControlNetとの併用でポーズ制御を加える
建築現場で言えば「躯体担当と仕上げ担当を同時に動かす」ような構成で、AnimateDiffが動きを、ControlNetが骨組みを担当する分業が有効です。
OpenPoseやTileモデルとの組み合わせ方
AnimateDiff単体ではプロンプトだけで動きを制御するため、意図したポーズや構図を正確に再現するのは難しい場合があります。ControlNetを併用すると、フレームごとの姿勢や構図を細かく指定できるようになります。
代表的な組み合わせは次の2つです。
OpenPose + AnimateDiff: 各フレームのポーズ情報をOpenPoseで指定し、キャラクターの動きを制御します。歩行アニメーションや手を振る動作など、人物の動きを意図どおりに再現したい場合に有効な手段です。OpenPoseの詳しい設定はComfyUIでControlNet OpenPoseを使う方法で解説しています。
Tile + AnimateDiff: Tileモデルを使うと、元画像のディテールを保ちながらフレーム間の一貫性を維持できます。キャラクターの顔や服装が途中で崩れるのを防ぎたいときに効果的な手法です。Tileモデル(control_v11f1e_sd15_tile.pth)をControlNetフォルダに配置して利用します。
併用時のTipsとして、ControlNetの強度はSD単体で使うときよりも弱めに設定してください。AnimateDiff環境では適用が強く出やすく、標準値のままだとフィルタのように動きを固定してしまいがちです。精密制御が必要ならAdvanced-ControlNet拡張ノードを導入し、Context Optionsと連携させる方法も役立ちます。またControlNet以外にも、AnimateDiff-EvolvedはSparseCtrlやIPAdapter(Image Prompt Adapter、画像でスタイル指定するアドオン)をネイティブに組み合わせられるため、参照画像ベースで動きを誘導したい場合の選択肢として覚えておくと役に立ちます。
実務では、OpenPoseで大まかな動きを制御しつつ、Tileで画質の安定性を確保する二重構成が安定した結果につながります。
まとめ
AnimateDiffは、既存のStable Diffusionチェックポイントにモーションモジュールを追加するだけで、静止画をアニメーション化できる技術です。ComfyUIでは「AnimateDiff Evolved」カスタムノードを導入し、AnimateDiff Loader→KSampler→Video Combineの流れでワークフローを構築します。
モーションモジュールはV2とV3を使い分けるのが効果的です。V2はMotion LoRAによる8種のカメラワーク制御に対応し、V3はDomain Adapterで自然な動きを実現します。推奨解像度は512×512、フレーム数16、コンテキスト長16が安定動作の基本値です。
ControlNetとの併用により、ポーズ制御や画質の一貫性も確保できます。Wan VideoやHunyuanVideoと比較するとVRAM要件が8〜12GBと軽量で、既存のSD資産をそのまま活用できるのがAnimateDiffの立ち位置です。高品質な専用動画生成はWan/Hunyuanに任せ、手軽な短尺アニメーションはAnimateDiffで作る使い分けが現実的な選択になります。
動画生成の全体像を把握したい方は、ComfyUI動画生成ガイドを確認してください。ほかの動画生成手法との比較や使い分けも紹介しています。
あわせて読みたい
- ComfyUI動画生成ガイド — AnimateDiffを含む動画生成手法の全体像と使い分けを解説
- ComfyUIでWan Videoを使う方法 — 専用動画モデルWanとの違いを実践的に比較
- ComfyUIチェックポイントモデルの選び方 — AnimateDiffと組み合わせるSD 1.5モデルの選定基準
- ComfyUIで画像から動画を生成する方法 — img2vidワークフローの構築手順を解説




