SkyReels-V1のQ8のGGUFをVRAM12GBで動かしてみた

2025/2/23 人工知能

主題の通りで発表されたばかりのHunyuanVIdeoの亜種のSkyReels-V1で遊んでみたくて奮闘した。

使ったのはこちらのワークフローになる。

SkyReels-V1 Img2Vid Simple Workflow (Finetuned Hunyuan Video) - v3 (Q4) | Hunyuan Video Workflows | Civitai

Version 3 (Q4) Update ComfyUI and all nodes to the latest version. If your VRAM is 16GB or less, try reducing the number of frames. If the results ...

civitai.com

ワークフローの解説に書いてある通りにモデルなどをダウンロードして、エラーするノードをマネージャーからインストールしていざ動かすと次のエラーに悩まされた。

size mismatch for img_in.proj.weight: copying a param with shape torch.Size([3072, 32, 1, 2, 2]) from checkpoint, the shape in current model is torch.Size([3072, 16, 1, 2, 2]).

ググるとあれを更新しろとかこれを変えてみろとか意見があったが、なかなか正解に辿り着かず、効いたのはComfyUIそのもののアップデートだった。

GitHub - comfyanonymous/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface. - comfyanonymous/ComfyUI

github.com

GUIのバージョンなんて普段あまり気にしないので盲点だった。

そしてSkyReelsもHunyuanVideo同様にVRAMを大量に消費する。

Q4モデルで遊んでいたがHunyuanVideoのようにDisTorchでQ8が動かないかと

VRAM 12GBのグラボでHunyuanVideoの高ビットモデル(24GB)を動かす方法｜夢の技術DisTorch活用

VRAM 12GBのグラボでHunyuanVideoの高ビットモデル(24GB)を動かす方法｜夢の技術DisTorch活用

HunyuanVideoの量子化と高ビットモデルの活用 VRAM12GBローカル環境でHunyuanVideoを使用していると、Q5程度の...

www.retire49.com

探してみるとワークフローがあるにはあるが複雑でtorchコンパイルとか使っており自分の環境では鬼門なのとノードを大量にダウンロードすると他のFulx.1などの環境が壊れそうなので最初使っていたワークフローにDisTorchを使うノードをコピーしてきて線をつなぎ変えるだけで

Q8のモデルがRTX4070で動いてしまった。^^;

ローカル動画生成AI界隈ではGGUFがDisTorchで動かせないと試行錯誤されていたようなのでびっくりした。

もしかするとComfyUIの最近のアップデートが効いているのかもしれないかな？

とりあえず短いフレーム数と小さな動画サイズで試していたので次はどこまで大きく長くできるか試してみたい。

あとはCOGVIDEOのi2vに比べてどの程度イメージからの動画再現能力があるかだ。

ローカルで稼働できるCOGVIDEOは自身のモデルに存在する画像に合わせようとするのかフレーム経過で画像が劣化していくのと画面上に表示していない物体が見えた時の表現が残念なのでこのあたりがオンラインの動画AIサービス並みによくなっていると嬉しい。

いくつか作って遊んでいたがやはりオンラインAIサービスとは比べるまでもなさそう。

もちろん顔を画面いっぱいにすればそれなりに形になるが小さいと潰れてしまう。

これはあれだ。

あっち勢の必殺技であり東京五輪反対などにも利用された「我々みんな激おこなんだぞ！」の実写版を作ってみたw

ローカルはあまりに作画状態がひどいので炎の演出を加えてみた。

その後Q4用のワークフローでQ8使っていたようでQ5用ワークフローでQ8を動かしたところ人の動作の精度が上がった。

顔も破綻しないし能面じゃなくて表情もつくし動きもCOGVIDEOとは比較にならずオンラインサービスに近い、というのは言い過ぎだが544×960の中では普通のビデオを見ている感じだ。

しかし精度が上がったトレードオフで生成時間が3倍近くになってしまう。

3秒生成するのに30分は辛い。