ComfyUI LTX-Videoでリアルタイム動画生成する始め方と設定
AI動画生成に興味はあるものの、1本の動画に何十分もかかるのは困る。そんな悩みを解決するのがLTX-Videoです。Lightricks社が開発したこのモデルは、DiT型アーキテクチャと13B distilled版の登場により、RTX 4090で5秒クリップを数秒レベルで生成できます(2026年4月現在)。再生時間に迫る速度で動画が完成する、まさにリアルタイム生成と呼べる性能です。
この記事では、ComfyUI(ノードをつないで画像生成AIを動かすツール)でLTX-Videoのワークフローを構築する具体的な手順から、Wan 2.2やHunyuanVideoとの速度・品質比較、プロトタイピング用途での活用法までを解説します。
LTX-Videoとは(DiTベースの高速動画生成モデル)
LTX-Videoは、Lightricks社がオープンソースで公開している動画生成AIモデルです。最大の特徴は「速さ」にあります。他のモデルが数分から数十分かかる処理を、わずか数秒から数十秒で完了させる設計思想が根底にあります。建築で言えば、下書きスケッチを描くくらいの感覚で映像のたたきを起こせる位置づけです。
DiTアーキテクチャが速さを生む理由
LTX-Videoの高速性を支えるのが、DiT(Denoising Diffusion Transformer)アーキテクチャです。従来のU-Net型モデルとは異なり、Transformerベースの構造でノイズ除去を行います。
具体的には、ノイズが混ざった潜在表現を段階的に精製し、鮮明な映像フレームへと変換していく仕組みです。この方式は空間的なディテール処理と時間的な一貫性の維持を同時に実現できるため、フリッカー(ちらつき)やエッジのブレが少ない動画を効率よく生成できます。
2B版は軽量でコンシューマ向けGPUでも十分に動作する構成になっています。bfloat16精度で最適化されているため、RTX 40シリーズのFP8カーネルとの相性もよく、追加のパフォーマンス向上が見込めます。
モデルのバリエーションと進化(0.9.8 distilledからLTX-2.3まで)
LTX-Videoは短い周期でアップデートされています(2026年4月現在)。主要なバージョンを整理します。
- LTX-Video 0.9.5(2B): マルチキーフレーム制御に対応し、商用利用可能なOpen RAIL-Mライセンスを採用
- LTX-Video 0.9.8 13B distilled: フル13B比で品質を維持しつつ大幅高速化。リアルタイム用途の主流構成として公式配布
- LTX-2: 最大20秒の4K動画を音声付きで生成。NVIDIAとの最適化でRTX 50シリーズではVRAM(GPUの作業メモリ)使用量が大幅に削減
- LTX-2.3(22B、2026年3月リリース): 新VAE(画像と潜在表現を相互変換する処理)と時空間アップスケーラーを搭載。9:16ポートレート出力や音声同時生成にも対応
この記事では、ComfyUIでリアルタイム生成を狙う主流構成として「0.9.8 13B distilled版」を基準に解説します。最新の22B版LTX-2.3は品質重視の選択肢として位置づけましょう。
LTX-Videoのリアルタイム生成性能
速度こそがLTX-Videoの最大の武器になります。では、実際にどれほど速いのでしょうか。具体的な数値で確認していきます。
RTX 4090での実測ベンチマーク
RTX 4090環境での生成速度を解像度別にまとめます(2026年4月現在、出典: Lightricks公式リポジトリおよびNVIDIA RTX AI Garage)。
| 解像度 | フレーム数 | モデル | 生成時間 |
|---|---|---|---|
| 768×512 | 120(5秒/24fps) | 2B | 約4秒 |
| 1216×704 | 88 | 13B distilled | 数十秒〜2分前後 |
| 4K(10秒) | 30〜36ステップ | LTX-2 | 約9〜12分 |
| 1080p プレビュー | – | LTX-2 | 約2〜4分 |
注目すべきは、2Bモデルの768×512解像度での速度です。5秒分の映像を4秒前後で生成できるため、再生速度を上回るリアルタイム性能を実現しています。
さらにRTX 50シリーズでは、ComfyUI本体に追加されたNVFP4量子化を使うと最大で約3倍高速化、VRAM使用量は約60%削減されます。NVFP8量子化でも約2倍高速・VRAM約40%削減という結果が公式ブログで公開されています(2026年4月現在、出典: blog.comfy.org)。
Wan 2.2・HunyuanVideoとの速度比較
同じRTX 4090環境で、主要なオープンソースモデルと速度を比較します。
生成速度の傾向(短尺クリップ生成時):
– LTX-Video 0.9.8 13B distilled: 数秒から数十秒。群を抜いて高速
– Wan 2.2: 数分から十数分。高品質だが時間がかかる
– HunyuanVideo: 数分から十数分。群衆シーンに強いが処理は重い
品質面ではWan 2.2が肌の質感や毛並みの再現で優れ、HunyuanVideoは複数キャラクターの動きに強みがあります。一方、LTX-Videoはディテールの精細さでは両者に劣る場面もあります。
実務では「まずLTX-Videoで高速に複数パターンを生成し、方向性が決まったらWan 2.2やHunyuanVideoで仕上げる」という二段階ワークフローが効率的な進め方です。速度と品質、それぞれの長所を組み合わせる考え方が大切になります。
ComfyUIでLTX-Videoワークフローを構築する手順
ここからは、ComfyUIでLTX-Videoを実際に動かすまでの手順を説明します。CADソフトに新しいレンダラーを導入する流れに近く、モデルファイルとカスタムノードを整えれば使い始められます。
必要な環境とモデルファイルの準備
まず、動作に必要な環境を確認しましょう。
ハードウェア要件:
– GPU: NVIDIA RTX 40シリーズ以上(VRAM 12GB以上推奨、24GBで快適)
– RAM: 16GB以上
– ストレージ: モデルファイル用に20GB以上の空き
ソフトウェア要件:
– ComfyUI最新版(Async OffloadとPinned Memory対応、大モデルのメモリ効率が改善)
– ComfyUI Manager(カスタムノード管理用)
– Python 3.10以上
モデルファイルの配置(2026年4月現在):
1. ltx-video-0.9.8-13b-distilled.safetensors を ComfyUI/models/checkpoints/ に配置
2. t5xxl_fp16.safetensors を ComfyUI/models/text_encoders/ に配置
モデルファイルはHugging Faceの公式リポジトリ(Lightricks/LTX-Video-0.9.8-13B-distilled)からダウンロードできます。軽量動作を優先したい場合は2B版、最終品質を追い込みたい場合はフル13Bや最新のLTX-2.3(22B)を選びましょう。
Text-to-Video(T2V)ワークフローの設定
テキストプロンプトだけで動画を生成するT2Vワークフローの設定手順です。
ステップ1: カスタムノードのインストール
ComfyUI Managerを開き、「Install Custom Nodes」で「LTXVideo」を検索してインストールします。インストール後にComfyUIを再起動してください。
ステップ2: ワークフローの読み込み
ComfyUIのテンプレートブラウザで「LTX」と検索すると、公式のT2Vワークフローが見つかります。JSONファイルをキャンバスにドラッグ&ドロップするだけで、必要なノードが自動配置されます。
ステップ3: プロンプトの記述
動画プロンプトでは、被写体の描写に加えてカメラワークの指定が効いてきます。「Slow zoom in on a modern building facade」のように、カメラの動きを英語で指示すると動きのある映像になります。
ステップ4: パラメータの調整
– 解像度: 768×512が最速。1080p以上は13B distilledやLTX-2系を推奨
– フレーム数: 24fpsで96〜120フレーム(4〜5秒)が扱いやすい範囲
– ガイダンススケール: 7〜8が標準。高くするとプロンプトへの忠実度が上がるが、不自然さも増す
建築パースの動画化テストでは、プロンプトに「architectural visualization, sunlight, modern interior」と加えるだけで、建築向けの映像を素早く試作できます。
Image-to-Video(I2V)ワークフローの設定
既存の静止画を動画に変換するI2Vワークフローも用意されています。
設定手順はT2Vとほぼ同じですが、入力ノードに「Load Image」を追加する点が異なります。参照画像を接続し、プロンプトで動きの方向を指示してください。
I2Vは建築パースや製品画像のアニメーション化と相性がよく、静止画1枚からカメラが建物の周囲を回るような映像を生成できます。ただし、元画像と大きくかけ離れた動きを指示すると破綻しやすいため、自然な動きに留めるのが扱いやすい進め方です。
ComfyUIの動画生成全般については、ComfyUIで動画生成する方法を徹底解説で体系的にまとめています。
品質と速度のトレードオフを理解する
LTX-Videoの速さは魅力的ですが、万能ではありません。
LTX-Videoが得意なシーンと苦手なシーン
得意なシーン:
– 風景のパンやズームなど、大きな動きの少ない映像
– 建築物の外観やインテリアの簡易プレビュー
– テキストオーバーレイ用の背景動画
– SNS投稿用の短尺コンテンツ
苦手なシーン:
– 人物の表情や手指の細かい動き
– 毛並みや布地の質感が重要なクローズアップ
– 複数キャラクターが同時に動く群衆シーン
– 長尺(20秒以上)で一貫性が必要な映像
苦手なシーンではComfyUIでWan Videoを使う方法やComfyUIでHunyuanVideoを使う方法で紹介しているモデルのほうが適しています。
プロトタイピング用途での活用戦略
LTX-Videoの真価はプロトタイピングで発揮されます。1本の動画を数秒から数十秒で生成できるため、短時間で大量のバリエーションを試せるからです。
活用フローの例:
1. LTX-Video 0.9.8 13B distilledでプロンプトを変えながら10〜20パターンを生成(所要時間: 数分)
2. 方向性の合うクリップを2〜3本に絞り込む
3. 選んだ方向性をWan 2.2やHunyuanVideo、または22B版LTX-2.3で高品質に仕上げる
この方法なら、高品質モデルで10パターンを試す場合に比べて作業時間を大幅に短縮できます。クライアントへの提案段階では「速さ」が武器になり、最終納品では「品質」を優先する。この切り替えが実務では効果的です。
VRAM使用量を抑えたい場合は、ComfyUI VRAM最適化ガイドも参考にしてください。モデルのオフロード設定やバッチサイズの調整で、12GBのGPUでもLTX-Videoを動かせる可能性があります。
まとめ
LTX-Videoは、速度に特化したDiTベースの動画生成モデルです。RTX 4090環境で5秒動画を数秒レベルで生成できるリアルタイム性能は、他のオープンソースモデルにはない強みといえます。
ComfyUIでの導入は、カスタムノードのインストールとモデルファイルの配置だけで完了します。T2V・I2V両方のワークフローに対応しているため、テキストからも静止画からも動画を作成できます。
品質面ではWan 2.2やHunyuanVideoに劣る場面もありますが、プロトタイピング用途で複数バリエーションを素早く試すワークフローと組み合わせれば、制作全体の効率を高められます。速度と品質、両方を活かす二段階アプローチをぜひ試してみてください。
あわせて読みたい
- ComfyUIで動画生成する方法を徹底解説 — 動画生成の全体像を体系的に学べます
- ComfyUIでWan Videoを使う方法 — 高品質な動画生成モデルの導入手順を解説しています
- ComfyUIでHunyuanVideoを使う方法 — 群衆シーンに強いモデルの活用法を紹介しています
- ComfyUIで画像から動画を生成する方法 — Image-to-Video全般のワークフローを網羅しています




