おーら

2年 ago

stable diffusion{写真遊びの魅力}

集合体恐怖症の方には若干危険な写真がありますので閲覧にはご注意ください。

stable diffusionをインストールして1週間で感想を書いているがどハマり中だ。

stable diffusionについての詳細はググっていただければわかるがディープラーニング技術を使って単語だけで絵を描くソフトだ。

最近であれば単語で絵を描くスマホアプリで検索してくると色々出てくる。

AI絵、Conversation AI、AIイラスト、AIピカソ、WonderAI、WOMBOドリーム、画像生成AI、AIアートインポスター、AI絵画などなど。

メジャー処はMidjourneyあたりでAI画像ウェーブ乗り遅れてはなるまいと写真や動画ソフトの雄であるAdobeもFirefryで参戦した。

stable diffusionはその中でもいち早くコンシューマー向けに発表されたフリーウェアだ。

クライアント・サーバーの形ではなくPCの中でサーバーを動かしてローカル内でブラウザを立ち上げて使用することもできる。

ローカルで稼働できるので利用料を取られることもCMを見せられ続けることも倫理的な理由から生成を断られることもないし一定枚数無料アプリのように作った画像を共有されることもない。

いくら使っても電気代以外は無料というのがいい。

それに自分の使いやすいように拡張機能をインストールできるし公開されているモデルもダウンロードして使い放題だ。

寝る前にバッチで生成して朝出来上がった写真何千枚かをチェックできる。

但しパソコンのスペックがそれなりに必要でビデオメモリーを最低6GB以上積んでいる最新のエントリーモデルのゲーミングPCが必要になる。

グラフィックボードはNVIDIA製でこれから買うならRTX3060以上が推奨だ。

あとはPCがそこそこ使える知識さえあればググってインストール方法と使い方を覚えれば問題ない。

使い方は調べもせず困った時だけググっているのでかなりの我流になっている。

最初はシュチュエーションの写真を作っていた。

前回ご紹介したBUMP OF CHICKENのＫを写真で再現してみようといった類だ。

そこからポートレート→風景やファンタジー作品→旅写真風→抽象画→エロ(笑)→マクロフォトグラフィー→

そして今は美とエロスの写真を追求している。

目指せ加納典明！

古いしちょっと違う(笑

要はフォトコンテストで優勝しそうなワンシーンを切り取って生成している。

素人カメラマンになった気分だ。

一見スーパースローで撮った写真に見えるが現実ではこんな綺麗なシーンを切り取るのは難しい。

このソフトなら適当に単語を並べて表示させて並べ替えてとやっていればできてしまう。

ただ実在するものと実在するものであり得ない組み合わせは苦手だ。

例えばスカイダイビングをする花嫁だ。

大抵のモデル(*)を使うと突っ立ったまま空に浮いている。

※人物を指すモデルとソフトのモデルを混乱するので文書内ではこのソフトの絵を作る元となるデータをモデルと統一する。

それでもそんなシーンを学習させればなんとかなる。

この絵は奇跡的に既成のモデルとプロンプト(絵を作る指示)だけで出来た。

うまいことプロンプトを組み合わせると幻想的な水泳をする女性のフォトもできる。

水に落ちないファンデーションのCMポスターに使えそうw

このソフトは学習させれば基本は何でも写真や絵にできるので例えば世の中に存在しない人物をどんなシュチュエーションに置くこともどんなポーズにもさせることも可能だ。

ただディープラーニングで学習していないポーズや表情や静物は描けないので学習させて作り上げていく必要がある。

絵は外から取り込んでもいいがソフトで生成した写真の中からランダムに生成されるイメージに近い絵柄を厳選してこれがこのシュチュエーションに当たる絵だよ！と学習させていく。

それをいくつか組み合わせてベースになるモデルと共に絵を完成させる。

カメラの種類やレンズの種類を記入するとそのカメラで撮ったように再現するモデルもあるようなのでカメラに詳しい方なら更に面白いだろう。

モデルにも学習させて取り込んだ絵柄がアニメ系、モノクロ、実写や人物、風景、機械など得手不得手がある。

顔ひとつ挙げても、

顔のパーツを詳細なプロンプトで指示しても使うモデル次第で人物の顔立ちも髪型も表情も肌質もこのようにことごとく変わる。

肌のディテールを最大限に表示してと頼んでもそんな写真を取り込んでいなければ表現できないのでツルツルな3Dモデリングのような肌になる。

綺麗な女性を出してとお願いしてもモデルに学習させていなければ出てこない。

指なんて複雑な動きする物体はプロンプトのネガティブワード駆使してもまともに5本で指らしく正しい形状になる確率はかなり低い。

これでもそこそこ５本指の手っぽく見えるがよくみると両手とも6本ある。

だから枚数を生成してその中から不自然ではない写真を見つけ出す。

seedを固定してサンプル数をずらしてとかやればある程度の修正は効くが他も微妙に変化する。

何を選ぶか、そして選んだ絵にどんな単語を関連づけて学習させたモデルによって絵柄がまるで変わってしまう。

作った人の嗜好や視点がモデルに集約されているわけだ。

その数多あるモデルと自身で追加学習させた絵と単語の羅列を組み合わせ試行錯誤しながら絵や写真を作っていく。

カメラマンになった気分と書いたが、実際は色々な素材やモデルやLoRAを組み合わせて奇跡の一枚を待つエディターガチャだ。

ゲームで言えば実績B安定Cの馬を配合して凱旋門賞まで一気に勝ち進む競走馬を作るダービースタリオン、敵を瞬殺できるようなキャラを仲魔の掛け合わせで作る女神転生、一族と神様を結婚させて生まれた強い子で鬼を討伐する俺の屍を越えてゆけのノリに近い。

できた絵と絵をまた掛け合わせて世代を紡いでいくのはメガテンよりもダビスタや俺屍に近い。

それにゲームに比べると掛け合わせるものが無限大で攻略本や攻略サイトは存在しないのでいくら時間があっても足りない。

あとどんなポーズでも作れると言っても学習されていないポーズを取らせるのは苦心の技だ。

例えば今やっている人を見たことがないあっかんべー👅を表現しようとしたが無理だった。

出せないモデルも多いが上の写真のように何とか舌は出せる。

しかし目の下あたりを指でスワイプもポイントも効かない。

普段の行動でそんなシュチュエーションがないからだろう。

レアなポーズは特定のポーズ集を作り別途学習させる必要がある。

表情についても同じだ。

こんな地道な作業を繰り返していると1日があっという間に溶けていく。

ダビスタ、メガテン、俺屍、エリーのアトリエやモンスター育成など配合、調合ゲームが好きな方はハマること間違いない。

アトリエシリーズとモンスター育成系はやったことは無いが他の３つは最近も遊んでいるほど大好きなのでハマるべくしてハマった。

コレクション癖はないのでプロンプトを駆使して色々なパターンやシュチュエーションが出るように一気に生成してそれを高速ビューアーで見て「おっ、いい写真がでけた、いいねぇ」でさっさと消している。

日に数枚の特に印象に残った絵と使ったプロンプトの保存のために1枚だけサンプルを残すだけ。

旅の写真でもスマホで撮ってブログにアップしてあとは倉庫行きでこれまで見たことがない。

ただ撮ったものをその場で見るのが楽しいのと同じ。

日に数千枚は平気で生成できるのでコレクション癖がある方は管理が大変なので逆にやめた方がいい気がする(笑

同じ絵柄をそんなに生成して意味があるかと言えばプロンプトは複数の単語をランダムで選択する記述ができるので選択ステートメントをいくつも掛け合わせると無限大のシュチュエーションになる。

例えばプロンプトにこのようなステートメントを書いたら

{white | black | gray} cat is { running | sleeping | jumping}

3×3のパターンができ白猫が走る黒猫が走る灰猫が走る白猫が寝る黒猫が寝る灰猫が寝る白猫が飛ぶ黒猫が飛ぶ灰猫が飛ぶという写真がランダムや全パターン生成するようにできる。

これを重ねてパターンを増やすのと単語をどんどん増やしていくと全部の単語を使わなくなるので優先度記述によって拾ったり拾わなかったり、同じ優先度であればランダムに取捨してAIの解釈も関与するので無限なパターンが生まれる。

上の写真は「空軍制服着た少女が舌を出して彼女の目を指している」というあっかんべー狙いの文章で生成した。

目を指差すに一致するポーズが学習されていないので顔を指していたかと思えばピースのようなポーズを取ったりパンチのようなポーズを取ったりドンピシャな映像が学習されていないと揺らぎが出てくる。

もちろん空軍制服は理解出来るのでそれっぽい服を着ている絵が頻出するが、

それでも時折よくわからない服を着ていたりするのでイレギュラーな絵柄も面白い。

バッチで大量に生成してその中のベストショットを見つけるのが楽しい。

通常生成する絵そのものは1枚1Mバイト程度で千枚保管しても1日1GBなのでHDDを圧迫することはない。

写真でファインモードのような4K静止画で6Mバイトあるが生成に時間がかかるし画面が広いほど空いているところを何かで無理矢理に埋めようと残念な構図になるので実際には1024×1024あたりまでが限界だ。

共感できる方でゲーミングPCなどをお持ちなら是非一度やってみて欲しい。

環境が無い方でもカネ持ってて退職後の暇つぶしに面白そうと考えて前述のゲーム好きならありよりのありだ。

もし新規で買う場合、4K高画質でゲームをやるつもりでなければ電気代が怖いので上位機種では無くエントリーのRTX3060(12GB)※あたりで組むかこのグラボを積んだPCを買うのがおすすめだ。

※2023/8以降だとRTX4060Ti(16GB)あたりがVRAM多くて電気代も安くてAIベンチマークの結果次第ながらオススメになりそうだ。描写速度はゲームだけじゃなくAIでもCUDA性能とCUDA数とバンド幅なので価格と性能がリニアでハイエンド程速いがstable diffusion関連で何かやろうとするとそもそもVRAM搭載量がネックになるのでエントリーモデルならより上位モデルを買うよりまずはVRAM容量が大きいモデルを選択肢とした方がいい。

このソフトを使うならRadeonのグラボは苦労しそうなのでやめた方がいい。

もちろん高性能なグラボを買えば生成速度が上昇するがハマってしまうともっともっとと枚数が増えていくだけで毎日ぶん回し続けて電気代見て驚くことになる。

あと技術的な情報を集めるときに日本人はアニメ絵が中心になり同じ実写なら英語で検索した方がいい。

日本人＝アニメ絵ではなく日本でゲーミングPCを持っている人の多くがアニメ絵の嗜好者が多いのかも。

個人的にはクオリティの高いストーリーのためにアニメも観るが2次元キャラに愛着は湧かない。

といいつつこのすば爆焔は放映開始を楽しみにしている^^

アニメは日本の伝統文化なので大切にしよう。

アニメファンだけじゃなく日本の実写嗜好者もそろそろ食いついて活動を始めて成果をブログで公開して活発になると嬉しい。

繰り返すがモデルによっては著作権のある画像を読み込ませて学習した商用不可なものもあるので商用利用するなら商用可なモデルやオンラインサービスを探して使った方が無難だ。

あと肖像権、商標、著作権などがありそうな絵柄を故意若しくは不可抗力にしろ公開する場合は許諾をしないとダメだ。

いくら本人が自分で作った画像だといっても10人中半数がオリジナルを連想するような人物、モノはアウトだろう。

ただ有名人の似顔絵は普通に公開している人もいるのでこのあたりの線引きを法整備していかないと混乱が生まれるだろう。

ゲーム沼が脱出できたばかりでも数ヶ月はこの沼にハマっていようw

続く

クリニックもイオン化してしまったらどうだろう？ »

« キンブルお買い物2023年3月その2

Categories: 人工知能

おーら: