具体的なイメージを出力する - AI画像編 -

 これは私の持論ですが。

 いくら小説がメイン、とはいえ、表現力というものは広きを目にしなければ幅が広がらないものだと思っております。


 一番は実際に旅に出て世界を見て回る事なのかもしれませんが、そんな体力は無い!気力も無い!休日は家でゲームしていたい!という人も多いのでは。私もその一人です。


 ですが、現代はなんと、インターネット上にそんなめくるめく新世界が広がっているのですよ。お互い、良い時代に生まれましたね。


 そのうちに一つに本日触れましたので、そのレポートがこれになります。


 具体的には、AI画像に手を出しましたので、その環境構築手順と製作レポートになります。


 流石にプロの絵師さんや実際にAI画像でお金を稼いでいる方レベルには届きませんが、興味がある方、有り余るPCスペックの使い道が欲しい方などは、まとまった時間があれば挑戦してみると、世界が広がるかもしれません。



 まず、AI画像を生成するにはその作業環境の構築が必要です。

 こうやって聞くと難しそうな気もしますが、ゲームで例えると、マインクラフトをやりたい!となった時に、まず選ぶのはゲーム機ですよね?それと同様に、AI画像を生成したい!となったら、まず何を使って生成するのか、を選ぶ必要があります。


 私は、Stable Diffusion Web UIというものを選びました。

 なぜこれにしたか、というと、簡単にできるから、と説明に書いてあったからです。

 実際、以前手を付けようと思った時と比べると断然簡単だったので、私もこれをオススメしたいです。


 紹介サイトでは1.0.0が紹介されていましたが、探してみると1.6.0があったので、そちらのインストーラーで導入しました。


 ただ、断然簡単だった、とはいえ、トラブルが全くなかったわけではありません。

 具体的なやり方については私のXに貼っているリンクを見ていただくとして、私が環境構築(Stable Diffusion Web UIをインストール)する際に遭遇した問題は以下の2点でした。


 まず、pythonのpipコマンドが使えないというエラー。

 そして、gitコマンドが使えないというエラー。


 コマンド、というのは馴染みがないかもしれませんが、アニメとかでハッカーが黒い画面に白い文字をタイピングしていく場面、みたいなのがありますよね?

 その黒背景に白文字で打ち込むのがコマンドってやつです。ざっくりとした説明ですが。


 で、Stable Diffusion Web UIというツールはWeb UIとあるように、ブラウザで開けるものなのですが、大元の実行部分は黒背景に白文字の画面で、これが裏で動いているんです。


 これはコマンドライン(cmd)、と言われる、だいたいどのPCにも備わっている基本アプリなんですが、これを操作するときに使うのがコマンドです。

 表でブラウザに表示されたボタンとかをポチポチすると、cmdが裏で動いて適切な処理をしてくれるわけですね。


 特に画像の生成中は、ブラウザの方でもゲージは進んでいますが、cmdの画面でもゲージが進んでいて、パーセンテージなどでより詳細な状態を見ることが出来ます。


 それで、このツールのインストール時も、このcmdが起動して全部やってくれるわけなんですが、PCの環境によっては、○○のxxってコマンドが使えないよー!とか、○xってコマンドがそもそも無いから使えないよー!ってなことになるわけです。


 これらが私の環境で出た、pythonのpipコマンド、と、gitコマンドのエラーになります。

 基本的にはエラーメッセージをそのまま検索すれば解決策が出てきます。


 前者はコマンドラインを使う必要がありましたが、後者はwindows用のgitのインストーラーがありますので、それでインストールしました。

 全く同じ問題が発生するとは限らないので、簡単に書きましたが、XにDMいただければ、暇な時に答えます。返信にはあまり期待しないでください。



 Stable Diffusion Web UIのインストールが終わったら、次に導入するのはモデルです。

 モデルというのは、どんな画像を出力したいか、で、それぞれ何が違うのかと言えば、やはり絵のタッチやどういう系統の画像を出したいのか、だと思います。


 これも紹介サイトで色々紹介されてますが、私はAnythingというのを選びました。

 理由は、プロンプト(呪文とも言われる、AIに画像を出力させる元となる文字列)が短くてもそこそこのクオリティの画像が生成される、とあったからです。


 やはり、何事も最初でこけると一気にやる気がそがれるものですから。

 そこから、足りないものを付け足していけばいい、という気持ちで決めました。


 モデルはcivitaiからダウンロードしました。

 紹介サイトではv4.0が紹介されていましたが、私はv5を使うことにしました。

 v5はVAEというものが無かったので、safetensorsのみ導入しました。



 これで環境構築は終了です。

 最低限の準備が整ったので、画像の生成を始めることにしました。

 が、まずはサンプルの出力からです。

 私は紹介サイトから丸ごとテンプレをコピペして、それの改変を始めました。


 これはパクリか否かですが、AI画像のプロンプト(呪文)は単語の連なりでして、そのうちのほとんどは画質に関するもので、実際に画像の内容に影響するものは(よほど多くの物を画角内に入れない限りは)ほんのちょっとしかありません。

 大半はモデルや学習させた内容(これは後述)任せになります。


 そのため、AI画像でのテンプレートとは、これとこれとこれを入れておけば画質が改善されるよ!といった、美麗画像を出力するための前提、みたいなところがあり、各所で公開されています。

 これを真似しないのは、使い方が分からない家電の説明書を読まない程度には時間効率が悪いです。やらなきゃ損ってやつですね。



 Xに載せたアナンタは、リンク先のサイトのテンプレから髪色や瞳の色を変えたり、他のサイトを参考にしつつ、単語を足したり減らしたりして、まずは差分の原型となる、こちらを見上げるアナンタ、の画像を出力し、その差分を色々試したうちの一つ、になります。


 こちらにも、明日の10月初旬進捗報告にて載せようと思っております。


 テンプレに付け足したものは、年齢の描写、髪色と瞳の色、体型、表情、撮影アングル、背景などです。


 特に撮影アングルは何か他にも入れる必要がありそうだったのですが、面倒だったのでごり押しました。結果、割と接写になってしまいましたが、見下ろすような構図で撮れたので良し。


 また、つり目、などの具体的な単語を入れても反応が無かったため、アイシャドウでごまかしました。化粧万歳ですね。なお、出力した画像のアナンタは化粧していない設定です。


 ややこしいですね。


 差分はinprintというモードを使ってやりました。

 このモードではブラシでマークした特定の範囲内のみを再生成できるんですね。

 そのため、これで表情を変えたり、服装を変えたり、背景を変えたりしました。

 差分が簡単に作れました。すごい。


 最悪、パーツ分割してコラかな?と思っていただけあって、これは衝撃的でした。



 そんな感じで、昼から夕方まで頑張って、とりあえず満足できるものは出来ました。

 という話でした。


 もし興味があれば、私のXからどうぞ。

 直リンクは色々と恐いのですみません。



追記

 学習させた内容(これは後述)に触れるのを忘れていたので。

 これはLoRAと呼ばれるもので、アタッチメントやmodみたいな位置づけのものです。

 ほとんどの場合、AI画像を出力すると、背景などがぼんやりしたり、はっきりしないことが多いんですが、例えば、森の背景特化のLoRAを読み込むと、画像生成したときにハッキリ森の背景が描画されるようになる。という代物です。


 背景だけでなく特定の体型、や、特定のキャラクター、に特化したLoRAもあるんですが、こうなってくると、特定のアニメキャラのLoRAみたいなものもあり、著作権がヤバい!みたいなこともあり得るので、使用には気を遣いましょうね。という代物でした。


 私はまだ使ってません。

 もうちょっと、モデルを色々使ってみてからかなぁ、と思っています。

 触ってみて分かりましたが、Anythingは結構平坦なんですよね。

 だから、もう少し奥行きのあるモデルを使ってみたいなぁ、という感じです。

  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る