ローカル稼働のFlux1にハマる　ー　目指せ第二の新海誠！

画像生成AIが3回目のマイブームになった

一度目のブームはStable Diffusionを使った画像生成で、単純にガチャ感覚でテーマを決め、美しい画像を引き当てる遊びにハマっていた。

二度目はLoraを利用し、実物の顔に近づけた画像を作るというテーマだった。

それから約1年半、Stable Diffusionを立ち上げる機会はほとんどなくなり、たまに動画用の素材を作る程度に留まっていた。

その間にオンライン版の画像生成AIが急激に進化し、構図が不安定になりがちなローカル環境のPCで作業する意味が薄れてしまったためだ。

その後は言語生成系、動画生成系、音声生成系、音楽生成系などの新しいツールを楽しんでいた。

しかし、オンライン版も無料でかなりのレベルに達したため、これらをローカル環境で使用することも次第に減少。

最近はオンラインで作成した商用利用可能な静止画を元に、ローカル環境で動画を作り、加工や編集を加えてYouTubeにアップする活動を行っている。

ただし無料プランでは生成できる画像枚数が限られるため、久々に画像生成AIのローカル版をチェックしてみることにした。

Flux1との出会い

ローカル環境向けに優秀なモデルが続々と発表されている中、Flux1というモデルに注目した。

以前オンライン版で試したことがあったが、このモデルのローカル版が昨年中旬にリリースされていたため、早速インストールして使用してみた。

Flux1を使うと、RTX4070で1枚の画像を出力するのにStable Diffusionの数倍の時間がかかる。

ただし数枚生成すれば欲しい構図の画像を得ることができる。

プロンプトを詳細に記述すれば、狙いどころかそれ以上の画像を生成可能だ。

ガチャ感が薄れた点は物足りないが、ビジネスで活用するならこの方が圧倒的に効率的だ。

以下は1つのプロンプトで3枚ずつ出力した画像のなかで廃棄した失敗作だが、Stable Diffusionであればこれでも「大当たり」と言えるレベルだ。

（ブログアップのために画質はかなり下げている）

詳しくは知らんが特に有能なのが人間が書くプロンプトを画像生成モデルにわかるように解釈するCLIPの機能なのだろう。

Flux1モデルの種類と特徴

Flux1には以下の3種類のモデルがある。

それぞれ特徴と商用利用の可否が異なるため、用途に応じて選択する必要がある。

FLUX.1 [pro]
超高画質版。業務用として有料。商用利用可能。
FLUX.1 [dev]
高画質版。無料だが商用利用不可。ローカル環境で構築可能。
FLUX.1 [schnell]
高画質、高速版。無料で商用利用可能。ローカル構築も対応。VRAM要件が比較的軽め。

インストール方法は以下の記事が参考になる。
インストール手順 – Note

なお、公式推奨のVRAMは16GBだが、12GBでも予想以上に快適に動作した。

軽量版の”schnell”であればVRAM 8GBでも十分動作可能と思われる。

今後の展望

生成した画像を元に動画を作成し、それを長尺化。AIで中間フレームを生成して高フレーム化・スケールアップした素材を加工・編集し、YouTubeにアップするのを楽しんでいる。

今回はLoraを使った学習の予定はない。

しかし、これほど高画質で破綻していない構図が描写できるなら、学習機能を活用するのも再び面白そうだ。

少し高性能なGPU搭載PCやGPUクラウドを使ってAIを学習・活用すれば、若い頃の新海誠監督のように脚本、演出・カメラ（絵コンテ、アニメーター）、編集を一人でこなしほぼ実写の動画作品制作も可能だろう。

彼が作っていた当時よりは効率がいい動画制作ができる。

もし才能があって自主制作品をYoutubeにアップしていればアクセスが増えて話題になって監督になる日がやってくるかもしれない。

音楽だったらハチ名義で自作ボカロ動画をアップし続けて有名になった米津玄師もいる。

もっとも、自分にはそんな才能はないのでクリエイターは目指してはいない。

補足

画像から動画生成はローカルPC環境でも可能。

ただし、とんでもない生成時間がかかる。

6秒で20分、1分生成するのに3時間以上かかる。

PCの電気代だけでもバカにならんし放置もできない。

だからFlux1で作成した画像を元に、オンラインのRunwayの有料プランで動画を生成する方が効率的だと思う。

Unlimitedプランは月76ドルだが、短期間加入して一気に生成を繰り返せばタイパもコスパも良い。

ただし、ワンシーン最大40秒という制約が厄介だ。

よくAIで作成した数分以上の長編作品を観るがどれも世界観が細切れでストーリーが繋がっている感じがしない。

脈絡のない短編動画を単につなぎ合わせただけに見える。

本気でストーリーのある作品を制作するなら例えば3〜4レイヤーに分けて背景、天候、エキストラ、主要キャラで作り分けた方がいい。

背景は止め絵で準備してエキストラと主要キャラはLoraで学習させて生成していく。

AI系の編集ソフトでクロマキーで切り抜いてアニメのセルみたいに貼り合わせて動画にする。

まさに昔のアニメの制作方法だ。

あと生成AIは顔が安定しないし、たかが1分でも一度表情を変えると元に戻っても顔が変わったりする。

静止画から対応するならLoraでキャラを呼び出して固定するか、フレームに設定のキャラの設定フレーム差し込んでそこから動画生成をリスタートさせるか顔スワップで維持するしか無い。

あと静止画から動画にするのはストーリーから構図を考える時にはアニメで絵コンテ切っているようなもので楽だが、いざ動かす時には静止画で見えていない部分や画像の中に存在しないものをフレームインさせて動かすのはほぼ不可能だ。

アイディアとして最終フレームを加工して表示したい物体をstable diffusionのinpaintなどで呼び出して動画生成を続ける手もあるがフレーム補完処理をきっちりしないと違和感のある動画になる。

ダイナミックな動きで見えていない部分も見せたいならイメージtoビデオでは無くテキストtoビデオで作るのが無難だろう。

個人的には、高フレーム化はPCで行うので、Runwayが低フレームの1分以上動画を普通に生成できるようにしてくれれば、1ヵ月だけ無制限コースに加入して動画素材を大量に作りたい。