AIを開発している人は、性能の汎化を目指してるんだよ。

AIは推論を目的に学習する。「推論」というくらいだから、様々なデータに対して有効に働くことが望ましいよね。決まりきった回答しか出せないものを「推論」と呼ぶのはおこがましいからね。だから、より良い推論を目指して技術は発展する。

では、どうやったらバリエーションのある推論（汎化性能の獲得）ができるのか？

これはもう様々なバリエーションと質の高い素材で学習するしかない、そしてそれだけでは十分ではなくて、敢えてノイズを混ぜたりして、過学習を避けるように調整することだね。これは簡単に聞こえるかもしれないけれど、より良い汎化性能を目指して競争している世界なのだから、これを簡単というのは、あまりに想像力が無さすぎるよね。

そういえば、人が夢を見るのは、ノイズを入れて過学習を避ける為だ、なんて話もあるよね。

生成AIは、パラメータの塊なので、パラメータの数が多ければ多いほどにサイズが大きくなってしまう。より良い汎化ができるなら、小さいサイズを目指すのが技術の目指す道だよね。パラメータ数が多いほど大きな処理スペックが必要になるのだから、小さいは正義なのだ。

画像生成AIも同じことで、推論で絵を描いているけれど、方法には種類があるので説明は難しいね。たとえば、拡散モデルは、ノイズから始めて推論でノイズを取り除くというステップを繰り返して絵を描くのだけど、ノイズに方向性を乗せると描かれる絵を誘導しやすいので扱いが便利だよね。

「海を背景にピースした赤い髪の女の子」とプロンプトを投げると、ノイズを取り除きながら「海」やら「ピース」やら「赤い髪」やら「女の子」やらの特徴を徐々に再現していく。少しずつ再現するのは、それだけ細部を調整しやすくなるから。なぜなら、周囲の具合を見ながら推論しないと絵にまとまりが出なくなってしまうから、ステップを減らすほど破綻したものが出やすいよね。

画像生成AIも汎化を目指しているので、性能が良くなるほどにプロンプトの指示に従うように破綻しない結果を出すようになる。決まった絵しか描けない（推論が弱い）性能だとプロンプトに従った絵を描くのが難しいのだから、そりゃそうだよね。破綻もするさ。

指示を明確にすればするほど、汎化性能が問われ、描かれる絵がユーザーの指示に近づいていくのだけれど、言葉で書きたい絵を伝えるには限度がある。だから詳細にイメージ通りに描いてもらいたいなら、どこかで言葉（プロンプト）で伝えるのを諦めなきゃならないのは注意したいところ。段階的に修正しても良いけれど、他の方法も探るべきなんだ。言葉がコミュニケーションのすべてでは無いのだから。

生成AIの絵がどれも似ている理由は、多くの絵から特徴を学ぶという学習の都合上、多くの絵に一致する特徴をより強く学んでしまう結果だよね。でも、それしか知らないわけでもないので、AIのもつ潜在知識空間からどのように情報を引き出すかの研究と努力も必要になってくるんだよね。

AIは、決まりきったことしかできない？

これは難しいよね。人の望むものは人の知ったものであることが多いのだから、人の知識や思考から外れたものは、そもそも望まれない。だから調整するほどに人におもねってしまう。これは技術の問題ではなくて、調整の問題で運用の問題なんだよね。

AIに人知を超えた新しいものを描いてほしいなら、人がAIの人知を超えた世界観に拠りそう覚悟が必要なんじゃないかな。

ああ、そうそう。画像生成AIモデルの中に絵のコピーは入ってないよ。そもそもとして、そのような方向性の技術じゃないのだから。あるわけない。