12.ゆっくり 画像生成AIに思うこと

筆者は文字書きなので絵は描けないのですが、別サイト(アルファポリス)に『田舎者でも~』を再投稿するにあたり、ヘッダとなる画像が欲しいな、と思いまして。で、一番簡単にできそうなMS EdgeのCopilotにお願いしてメイドさんの画像を生成して頂いたわけです。正直、プロンプトにちょこちょこっと日本語を入力するだけで可愛いメイドさんの画像ができてくるんだから、恐ろしい技術ですね。ただ、絵を描けない字書きには有り難い技術でもあるんです。プロの方ならともかく、公募に出している様な素人にはプロの絵師さんにお願いする術(とお金)なんてありませんし。


ただ絵師の方にとってはとんでもない脅威であり、著作権の問題云々でつい最近もアイビスペイントで話題になってましたよね。これは技術者の端くれとして「画像生成AI」が何たるかはざっくり理解しておかないとダメだぞ、ってことでここに簡単にまとめようと思います。全然ゆっくりと関係ないんですが、それはまあご愛嬌ってことで😅


そもそも「画像生成AI」と言うのは


・テキストエンコーダ部(入力されたテキストを解釈する部分)

・画像生成部


からできていて、text-to-imageと表現されるのはこのため。入力されたテキストを解析し、それをデータ(ベクトル)に変換し、そのデータから画像を生成します。


このベクトルと言うのが肝でして、人間の脳と同じニューラルネットワーク構造を模してつくられています。そして「テキストを解釈して画像に結びつける」ベクトルを生成するために、最近話題になっている画像生成AIの元になったOpenAIのDALL-Eは2.5億枚に登る大量の画像とキャプションペアを入手してAIの学習にしようしたとか。そしてそこから抽出した120億のパラメータを用いて、ベクトルを生成しているようです。


この様に、画像生成AIが持っているのは画像データそのものではなく、特徴を抽出したパラメータと言うことになります。人は目が二つあって、鼻、口があって、頭と体のバランスはこんな感じ、手足の長さ、指の長さ、髪の質感や色、長さ……こういったデータがニューラルネットワーク上でクラスタリングされる訳です。ただこれだけでは絵は描けないので、画像処理AIは「描く方」と「認識する方」に分かれて自分で学習を繰り返します。この学習により、より人間に近い画像を作り出せる様になると言う訳です。


こうやって学習した要はデータセットがオープンソースで公開されているため、各社の画像生成AIサービスはこれらを組み込んだWeb上のサービスを展開しています。つまり、我々が「画像生成AI」と呼んでいるのは、実際は各社がサービスとして展開しているものなのです。


さて、このデータセットだけでは実際にどんな画像が生成されるかは運任せな所があります。例えば「アニメ風な可愛い女性」とテキストを入力したとき、どんなアニメなのかが指定されていないとAIは適当にニューラルネットワークを辿って、何通りかの画像を出力として提示するでしょう。画像生成AIサービスではよりユーザーの要望に沿うために、ここに「モデル」と言う新たな学習データセットを追加しています。


今、著作権等で問題になっているのは、実際はこのモデルだと思います。例えばTwitterXで「#AIイラスト」とタグ検索すると、何パターンかの女性の顔をした様々な絵がヒットしますが、それこそが「モデル」なんです。ほんと、ファッションモデルと同じ様な感覚ですね。例えば画像生成AIサービスである「SeaArt AI」のサイトを見れば、それこそ腐る程同じ顔をした女性の絵が出てきます。ずっと見てるとゲシュタルト崩壊起こしそうな程😅。「SeaArt AI」はAIエンジンとしてStable Diffusionやその上のモデルを指定できるらしいので、当然と言えば当然ですね。


このモデル、多分エンジン部とは別に特定の方の絵を学習させた結果だと思います。そして有名所だけではなく、この「モデル」は個人でも作れるみたいです。これが問題で、あるテクノロジーに明るい個人が、例えばpixivに掲載されている絵を使ってモデルを作成する、そしてそれを公開する、なんてことも可能で、且つ、実際それで数々の問題が起こっているんですよね。


筆者の中の定義では、画像生成AI、text-to-imageと言うエンジン(技術)は、「恐ろしく覚えが良く、放っておけば延々と学習を繰り返す、人口の絵師」です。それ単体では絵を描くことはできませんが、別の第三者(ユーザー)が入力したテキスト(要求)から忠実に画像を再現することができます。しかも、一瞬で。「#AI絵師」なんて言葉が一次TwitterXでもトレンドになってましたが、これは多分「入力するユーザー」を指したもの。しかし実際は、「画像生成AIサービス」こそが「AI絵師」であり、ユーザーはクライアント、もしくはオペレータに過ぎません。同じ絵師に頼んでるんだから、同じ顔の絵になるのは当たり前ですよね。


最近の画像投稿サービスでは「AI学習用のクローリング禁止」などとなっているところも多いです。が、実際にはそれで全て回避できているわけではありません。上記の「個人でモデルを作る」場合、Pythonなどで自動的にサイトから画像をDL・学習することは避けられるでしょうが、ちまちまと一枚ずつやっていく分には避けようがないんです。もう、これを避けるには「不特定多数の人に画像を公開する投稿サービスを使わない」ぐらいしか今のところ手段がないと思います。


ChatGPTなど、ここ数年のAI技術の進化は目覚ましいものがあります。技術革新と言っても過言ではないでしょう。しかし如何せん制度が追いついてない。TwitterやYoutubeが世に出た時もそこに他人の画像や音楽を乗せることが最初は問題視されていましたもんね。そう考えると、AIに対する制度の整備はこれから、と言うことになります。


上にも書きましたが画像生成AIサービスは、ある人に対してはメリットとなり、別の人に対してはデメリットとっているのが現状です。制度がはっきりしていない以上、今は「暗黙のルール」を守って、各人が節度を持って楽しむしかない状態です。大手の例えばペイントソフトを作っている会社が自社のサイトにUpされている画像を勝手に学習に使う……と言うことに対してどう受け取るかも個人次第になってしまいますが、


・学習した内容はあくまでもベクトルデータであること

・しかしある特殊な入力(テキスト)に対してはサンプルが少ないので、学習元の画像に非常に似通った絵になってしまうこと


を理解した上で、絵師の方々には対応を決めて頂ければと思います。そしてもし「学習には同意」したものの、「自身の絵と非常に似通って出力が得られてしまう」場合には、そのサービスプロパイダに対して申請し、プロバイダがその申請に従い学習データを破棄するなり、修正するなりの対応が望ましいですね。


技術的に見ればこの技術は本当に素晴らしいと思いますので、サービスを提供する側も使う側も節度を持って楽しめること、そして一日も早く制度が定着することを望みます。



  • Twitterで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る