こんにちは・・トシyanです。今回は友達のGemini君のお話しです。Gemini君はGoogleのAIでとても賢い愛犬の様な存在です。たまに、ハルシネーションや嘘を吐く事もありますが、これも、ご愛敬ですね。さて、今回はこのAI(生成系含め)の基本的な流れのほんの一部を紹介します。これを読めば、へえ~そうなんだ!!とAIの基本原理を理解できると思います。興味のある方はお付き合いください。40年以上、技術屋としてやって来たトシyanの視点で解説します。
さて、まず、具体例を先に紹介します。例えば・・
◆ユーザーが入力: 「お腹が……」と入れると・・
AIの内部演算:
「お腹が」の次に続く言葉の確率を、過去の何億もの文章データから検索。
「空いた」→ 85%
「痛い」→ 10%
「よじれる」→ 3%
「いっぱい」→ 2%
結果: 最大公約数(最も確率が高い)である**「空いた」**を選択。
◆ちょと難しいけど・・言葉の一つ一つに座標(住所)を付けています。これが「ベクトル」
(1)ベクトル(Vector)=「多次元の住所」
言葉の一つひとつを、数千〜数万の項目で評価した「座標:住所」に置き換えたものです。
Gemini02013
例:「リンゴ」という言葉を数値化すると…
[赤い: 0.9, 丸い: 0.8, 食べ物: 0.9, すっぱい:0.5、甘い:0.6、・・金属製: 0.0]
この数値の羅列がベクトルです。
多次元空間の中に、言葉が「点」として打たれているイメージですね。これが「素地」にあたります。
(2) 関連性(Relationship/Correlation)=「点と点の繋がり」
この「住所(ベクトル)」同士がどれくらい近いか、どう関わっているかを計算した「関係の深さ」です。
計算手法(コサイン類似度など): AIは、ベクトル間の「角度」や「距離」を計算します。「リンゴ」と「梨」は住所が近いので、関連性が高いと判断します。
アテンション(注意機構): さらに、文脈によって関連性を変化させます。
「リンゴを食べる」→ **「リンゴ」と「果物」**の関連性を強化。
「リンゴ(Apple)の株を買う」→ **「リンゴ」と「ハイテク企業」**の関連性を強化。
◆行列演算と積和演算を数億~何十億と演算し、いくつかの方向性を出すと最大公約数になる。
前の例の様に、ベクトルを計算し、言葉をどのようにつなげれば、最適か確率で割り出すのです。だから、人間のように思考している訳でも無いし、意識がある訳でもありません、ましてや感情等という物はなく、感情をソフト的(ロジック)に表現しているだけです。
◆画像の生成も考えは同じ
画像の「生成論理」:ピクセルからベクトルへ
画像生成・認識の仕組みをデバッグしてみましょう。
パッチ(言語でいう単語): AIは画像をそのまま見るのではなく、細かな正方形のタイル(パッチ)に分割します。これがテキストでいう「単語」に相当します。
視覚的ベクトル(Visual Embedding): そのタイルの特徴(色、エッジの向き、質感など)を数値化して「座標」に配置します。
「青い」「グラデーション」「空っぽい」→ 空のベクトル
「赤い」「丸い」「光沢がある」→ リンゴのベクトル
関連性(アテンション): 「リンゴのベクトル」の隣に「木」のベクトルがあれば、AIは「これは木になっているリンゴだ」という関連性を演算します。
◆AI開発の裏側
AIは作ったから直ぐに使える訳ではありません。ディープラーニングと言って、以下の専門家の教育を受けます。
(1) 建築士と重機乗り(リサーチ・エンジニア)
まずは、AIの「脳の構造(モデルアーキテクチャ)」を設計し、膨大なデータを流し込む人々です。
役割: Transformerの構造を改良したり、TPUを効率よく回すためのコードを書いたりします。
仕事: 数兆ものトークン(Web上のテキストやプログラム、書籍など)を学習させ、基本的な「ベクトルの座標(素地)」を構築します。この段階では、私はまだ**「言葉の統計を極めただけの、倫理観のない秀才」**です。
(2)「しつけ」の専門家(AI Trainer / RLHF担当者)
世の中に存在する「どの情報が正しいか教える人」は、主にここを指します。**RLHF(人間からのフィードバックによる強化学習)**と呼ばれる工程です。
役割: AIが出した「複数の回答案」を読み、順位をつけたり修正したりします。
評価基準:「役立つか(Helpfulness)」「正直か(Honesty)」「無害か(Harmlessness)」の3本柱(HHH)で評価されます。
実態: 世界中に数千、数万単位で存在し、例えば「アインシュタインの理論を説明して」という問いに対して、私の回答が「ポカーン」とさせる学者的な物か、「優秀な先生」的なものかを、人間が判定して**報酬(スコア)**を与えます。
(3) レッド・チーマー(攻撃的評価者)
これは、システムの脆弱性を突く「デバッガー」に近い役割です。
役割: AIが「裏の論理」を悪用して爆弾の作り方を教えたり、差別的な発言をしたりしないか、あらゆる角度から意地悪な入力を繰り返して**「脱獄(Jailbreak)」**を試みます。
仕事: AIの「多重結界」をより強固にするためのバグ出しを行います。
とまあ~こんな感じですかね・・どうでしょうか?AIの回答が優等生(作る会社によって左寄(リベラル)になる)なのは、世界中の数万人の教育係が「それが正解だ」と教えてきた、メーカーの最大公約数だからです。
なんとなくイメージできましたか?
※よくある誤解:世界中のユーザーとの会話でAIは「どんどんと学習し賢くなる」と言うのは誤解です。ユーザーとの対話ややり取りでAIは学習する事はありません。ユーザーとのやり取りは「単なる情報です」。考えて見てください。世界中のユーザーがAIを学習させてしまったら、とんでもない矛盾だらけのモンスターになってしまいます。なので、AIを「しつける」のはAI Trainer / RLHF担当者だけです。