ComfyUI×SeedVR2で動画アップスケーリング｜実務の設定5手順

2026年4月23日

AI動画生成ツールで作成した映像は、多くの場合480pや720pといった低解像度で出力されます。せっかく高品質なプロンプトで生成しても、そのままでは実務レベルの画質に届きません。そこで注目されているのが、後工程で解像度を引き上げるアップスケーリング技術です。

中でもByteDanceが開発した「SeedVR2」は、1ステップの拡散モデルで動画を一括処理できる点が特徴的です。ComfyUI（ノードをつないで画像生成AIを動かすツール）のノードとして導入すれば、GUI操作だけで4K品質の動画アップスケーリングが完結します。

この記事では、SeedVR2の仕組みからComfyUIでの具体的な導入手順、VRAM（GPUの作業メモリ）別の推奨構成、他の手法との比較まで、動画アップスケーリングに必要な知識を解説します。

体験カリキュラム

Blenderで作る
初めての建築3DCGパース

Blenderの導入から基本操作、太陽光の入る白い部屋の制作まで。全3本のカリキュラムを体験できます。

Blenderの導入から基本操作、
太陽光の入る白い部屋の制作まで。
全3本のカリキュラムを体験できます。

まずは体験カリキュラムを受講

AI生成動画にアップスケーリングが必要な理由

AI生成動画は計算コストの制約で低解像度出力になりがちなため、アップスケーリングが仕上げ工程の鍵になります。ここでは解像度制限の背景と、フレーム単位・動画一括処理の違いを順に整理します。

生成時の解像度制限と後処理の重要性

WanVideoやHunyuanVideoといったAI動画生成モデルは、計算コストの制約から480p〜720p程度の解像度で出力するのが一般的です。高解像度で直接生成しようとすると、VRAM消費が跳ね上がり、処理時間も大幅に増加します。

そのため、まず低解像度で構図や動きを確定させ、その後アップスケーリングで解像度を引き上げるワークフローが定番になっています。建築レンダリングで、プレビュー解像度でライティングを詰めてから本番解像度に切り替えるのと同じ発想です。この2段階方式なら、VRAM使用量を抑えつつ高画質な映像を得られます。

実務では、建築パースの動画を作成する際にもこの手順を踏みます。まず低解像度で動線やカメラワークを確認し、納品前にアップスケーリングで仕上げるのが効率的な進め方です。

フレーム単位と動画一括処理の違い

動画のアップスケーリングには、大きく分けて2つの方式があります。どちらを選ぶかで仕上がりの品質が大きく変わるため、違いを押さえておきましょう。

フレーム単位処理は、動画を1フレームずつ静止画として高画質化する方法です。Real-ESRGANなどの画像用モデルで処理できますが、フレーム間の整合性（テンポラル一貫性）が保証されません。結果として、ちらつきや明るさの揺れが発生しやすくなります。

動画一括処理は、複数フレームをまとめて処理する方法です。前後のフレーム情報を参照しながらアップスケールするため、テンポラル一貫性を保ったまま解像度を向上できます。SeedVR2はこの動画一括処理に対応しており、バッチサイズ5以上でテンポラル一貫性が有効化される仕組みです。

建築パースの動画生成でフレーム単位処理を使うと、窓ガラスの反射がフレームごとに変動する問題が出やすい傾向があります。動画一括処理に切り替えるとこの問題は解消されます。

SeedVR2とは？ByteDance発の1ステップ高画質化モデル

SeedVR2は、ByteDance Seedチームが開発した1ステップ型の高速アップスケーリングモデルです。ここでは仕組みと特徴を押さえたうえで、従来手法との速度差を見ていきます。

SeedVR2の仕組みと特徴

SeedVR2は、ByteDance Seedチームが開発した動画復元（Video Restoration）モデルです。正式名称は「SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training」で、ICLR 2026に採択されています（2026年4月現在）。Photoshopのニューラルフィルタで写真を一気に高精細化するのに近い挙動を、動画の時間軸にも拡張したモデルと捉えると分かりやすくなります。

2026年4月現在、ComfyUI向けのカスタムノードはv2.5系が最新で、sharp系モデル（seedvr2_ema_7b_sharp_fp16.safetensors等）が追加されています。ディテール再現力が強化された派生モデルです。

最大の特徴は、1ステップの拡散処理で高品質なアップスケーリングを実現する点です。従来の拡散モデルが数十ステップの推論を必要としたのに対し、SeedVR2はDiffusion Adversarial Post-Trainingという学習手法で1ステップ生成を可能にしました。

モデルサイズは3Bと7Bの2種類が公開されています。3Bモデルは処理速度重視やVRAM制限がある環境向け、7Bモデルは最高品質を求める場合向けです。ジェネレータとディスクリミネータを合わせた総パラメータ数は約160億で、過去最大規模のVR用GANモデルとして注目されています。

従来手法との速度差

SeedVR2の処理速度は、マルチステップ拡散モデルと比較して4倍以上高速です。一部の検証では10倍の速度差が報告されています。

この高速化を支えているのが、適応的ウィンドウアテンション機構です。出力解像度に応じてウィンドウサイズを動的に調整し、高解像度出力時の計算効率を向上させています。固定サイズのウィンドウアテンションで起きていた不整合問題も、この仕組みで解消されました。

処理速度が速いということは、試行錯誤のサイクルを短縮できるということでもあります。パラメータを変えながら最適な設定を探る作業が、実用的な時間内で完了するのは大きな利点です。

ComfyUIでSeedVR2を使う手順

CADにアップスケーリング用のアドインを入れるときと同じで、カスタムノードとモデルファイルを揃えれば使い始められます。

ノードのインストールと初期設定

ComfyUIでSeedVR2を使うには、専用のカスタムノード「ComfyUI-SeedVR2_VideoUpscaler」を導入します。ComfyUI Managerから検索してインストールする方法が最も手軽です。

手動でインストールする場合は、ComfyUIのcustom_nodesディレクトリにGitHubリポジトリをクローンします。依存パッケージはrequirements.txtに記載されているため、pip installで一括導入できます。

モデルファイルは初回実行時に自動ダウンロードされ、ComfyUI/models/SEEDVR2ディレクトリに保存されます。手動で配置する場合は、HuggingFace（ByteDance-Seed/SeedVR2-3BまたはSeedVR2-7B）からダウンロードしてください。

ワークフロー構築（4ノード構成）

SeedVR2のComfyUIワークフローは、4つの専用ノードで構成されています。それぞれの役割を見ていきましょう。

SeedVR2LoadDiTModelは、Diffusion Transformerモデルを読み込むノードです。3Bと7Bのどちらを使うかをここで選択します。FP16、FP8、GGUF（軽量化された量子化形式）量子化モデルのいずれかを指定できます。

SeedVR2LoadVAEModelは、VAE（Variational Autoencoder、画像と潜在表現を相互変換する処理）を読み込むノードです。エンコードとデコードの処理を担当し、動画のフレームを潜在空間に変換してから復元します。

SeedVR2VideoUpscalerは、実際のアップスケーリング処理を行う中核ノードです。入力動画に対してスケール倍率やターゲット解像度を指定し、バッチサイズを設定して実行します。

SeedVR2TorchCompileSettingsは、torch.compileによる最適化を設定するノードです。初回コンパイルに時間がかかりますが、2回目以降の処理速度が向上します。連続して複数の動画を処理する場合に効果を発揮します。

主要パラメータの設定ポイント

アップスケーリングの品質と処理速度を左右する主要パラメータを確認していきます。

scaleは拡大倍率の指定です。2倍や4倍を設定できます。480pの動画を4倍にすると約1920p（フルHD相当）になるため、用途に応じて倍率を調整してください。

batch_sizeはテンポラル一貫性に直結する設定項目です。動画処理では5以上でテンポラル一貫性が有効化され、値を大きくするほど安定しますが、VRAM消費も増加します。実務では、VRAM容量に応じて5〜8の範囲で調整するのが現実的な落としどころです。

block_swapは、モデルの一部ブロックをCPUメモリに退避させてVRAM使用量を削減する設定です。8GB環境では8〜12の値が目安とされ、数値を上げるほどVRAM消費が下がる代わりに処理速度は低下します。

vae_tilingは、大きなフレームをタイル分割して処理するオプションです。encode側とdecode側で個別にタイルサイズを指定でき、8GB環境ではencode 512 / decode 256が実用値として知られています（2026年4月現在）。VRAMが不足する環境でも高解像度出力が可能になり、品質への影響は最小限です。

VRAM消費と処理時間の目安

SeedVR2を実際に動かすときに気になるのが、VRAM消費と処理時間です。ここではGPUのVRAM容量別に推奨構成を示したうえで、GGUF量子化を使った低VRAM運用の方法を紹介します。

VRAM別の推奨構成

お使いのGPUのVRAM容量によって、選ぶべきモデル形式と最適化設定が変わります（2026年4月現在）。海外検証ソースの実測値に基づいた推奨設定は以下のとおりです。

VRAM	推奨モデル	block_swap	vae_tiling	batch_size	実測FPS（1080p）
8GB以下	GGUF Q4_K_M（3B）	8〜12	512 / 256	5	15〜20
12〜16GB	FP8（3Bまたは7B）	0〜4	512 / 256	5〜8	25〜35
24GB以上	FP16（7B）	0	不要	8〜16	40〜50

8GB環境ではGGUF量子化モデルの活用が必須です。Q4_K_M形式を使うと、本来24GBを必要とする7Bモデルでも8GB GPUで動作します。ただし量子化による品質低下があるため、最終出力には12GB以上の環境が扱いやすい構成です。

実測FPSはあくまで目安で、動画の長さや解像度、CPU・ストレージ性能によっても変動します。連続処理での安定性を求めるなら、表の中央帯（12〜16GB）以上の構成が現実的な目安です。

GGUF量子化で低VRAMに対応する方法

GGUF量子化は、モデルの重みを低ビット精度に変換してメモリ消費を削減する技術です。SeedVR2ではQ4_K_MとQ8_0の2種類が利用できます。

Q4_K_M（約1.8GB）は最も軽量で、8GB以下のGPUでも動作します。処理速度も速いため、パラメータ調整のテスト用途に適しています。Q8_0はQ4_K_Mより高品質ですが、メモリ消費はやや増加する点に注意してください。12GB前後のGPUで品質とメモリのバランスを取りたい場合の選択肢です。参考までに、3Bモデルのフルサイズは3〜6GB、7Bモデルは4〜15GBがモデル形式により変動する目安です（2026年4月現在）。

BlockSwapは、モデルの一部をCPUメモリに退避させる機能です。GGUF量子化と組み合わせることで、さらにVRAM使用量を削減できます。ただし、CPU-GPU間のデータ転送が発生するため、処理速度は低下します。VAE Tilingと併用すれば8GB環境でも1080pの動画処理が現実的に可能です。

他のアップスケーリング手法との比較

アップスケーリングはSeedVR2以外にも複数の有力手法があり、用途により向き不向きが分かれます。ここではReal-ESRGAN・Topaz Video AIとの比較を整理したうえで、用途別のおすすめ選択を紹介します。

Real-ESRGAN・Topaz Video AIとの違い

動画のアップスケーリングに使われる主要な手法を比較します（2026年4月現在）。工具箱に「精密工具」「汎用工具」「商用の完成品」が並んでいるイメージで、得意分野が異なります。

項目	SeedVR2	Real-ESRGAN	Topaz Video AI
処理方式	拡散モデル（1ステップ）	GAN	独自AIエンジン
テンポラル一貫性	あり（batch_size 5以上）	なし（フレーム単位）	あり
対応環境	ComfyUI / CLI	CLI / GUI	専用アプリ
費用	無料（オープンソース）	無料（オープンソース）	年額約199ドル
VRAM要件	8GB〜（GGUF使用時）	4GB〜	6GB〜
品質	高い（ディテール復元力）	中程度	高い

SeedVR2の強みは、オープンソースでありながらテンポラル一貫性を備えている点と、肌質感や細部のディテールを自然に再現する力にあります。Real-ESRGANに代表されるGAN系は「強調型」で10〜20倍高速な反面、微細な情報の復元ではDiffusion系に及びません。Topaz Video AIは商用ソフトならではの安定動作と充実したUIが魅力ですが、顔の自然さを損ないがちという海外レビューの指摘もあります。質的な軸で整理すると、SeedVR2=微細情報の再現、Topaz=商用の安定性、Real-ESRGAN=高速・軽量という使い分けです。

用途別おすすめの選び方

では、どの手法を選ぶべきでしょうか。目的に応じた使い分けの指針を整理します。

ComfyUIで動画生成から仕上げまで完結させたい場合は、SeedVR2が扱いやすい選択肢です。生成ワークフローにアップスケーリングノードを追加するだけで、シームレスに高画質化できます。

大量の動画を自動処理したい場合は、SeedVR2のCLIモードやReal-ESRGANが適しています。どちらもスクリプトに組み込みやすく、バッチ処理に対応します。

操作の簡便さを重視する場合は、Topaz Video AIが有力な選択肢です。専用GUIで設定項目が整理されており、AI動画制作に慣れていない方でも扱いやすい設計になっています。

ComfyUIで生成した建築パース動画のアップスケーリングでは、SeedVR2が扱いやすい選択肢です。ワークフロー内で完結するため、ファイルの受け渡しが不要な点が実務での利点として挙げられます。

まとめ

AI動画生成後のアップスケーリングは、最終的な品質を左右する重要な工程です。SeedVR2は1ステップの拡散処理で高速かつ高品質なアップスケーリングを実現し、ComfyUIとの連携で操作性も確保されています。

VRAM容量に応じてFP16からGGUF量子化まで柔軟に対応できるため、幅広い環境で導入できます。フレーム単位処理ではなく動画一括処理を採用することで、テンポラル一貫性を保った仕上がりが得られます。

動画生成ワークフローにアップスケーリングを組み込む際は、まず低解像度で生成内容を確定させ、SeedVR2で解像度を引き上げる2段階方式を試してみてください。

この記事を書いた人

橘美咲 PERSC 専任講師

「CADは裏切らない。昨日引けなかった線が、今日は引ける。それが楽しいの」

元・完全未経験の文系女子。新卒で入った建築現場で「図面が読めない」と絶望し、悔し涙を流しながらCADを独学で習得した過去を持つ。その後、設計事務所、ゼネコンを経てフリーランスへ転身。現在はPERSCにて「現場で本当に使える技術」を伝授する鬼（？）コーチとして活動中。「線一本にも意味がある」が口癖。趣味は、完成した建物を見上げながらのビールと、深夜の猫動画巡回。

この著者の記事一覧へ

ComfyUI×SeedVR2で動画アップスケーリング｜実務の設定5手順

Blenderで作る
初めての建築3DCGパース