第3話 強化学習
1節:強化学習の理屈をカンタンに
「博士、あたしはとうとう分かったわ。推しのホストにシャンパン入れれば入れるほど、ポイントが上がってご褒美がもらえるって、これ強化学習の仕組みに近いんじゃない?」と助手がソファで大股を広げながら言い出した。
赤いネイルがゴージャスなはずなのに、どこか血の臭いすら感じさせるのは気のせいだろうか。
博士は機嫌良くキーボードを叩き、「まさにそれだ。強化学習はエージェントが環境に働きかけて、その結果得られる報酬を最大化するように行動を学習する手法だ。ホストに金を貢げば貢ぐほど、推しから喜びのLINEが返ってくる。おまえにとっては、それが報酬だな」と得意げに解説する。
助手は「なるほどね。教師有り学習と違って、“これは正解です”ってラベルを事前に付けるわけじゃないんだ?」と問いかける。
博士は持っていたペンをぐるぐる回し、「そうだ。強化学習は実際に試してみて、良い結果(報酬)が得られれば、その行動を繰り返す。悪い結果(罰)が出れば、その行動を避けるように学習していく。たとえばQ学習やSARSAなんかが有名なアルゴリズムだ。初めはランダムに行動しつつ、報酬をもらえる行動を覚えていくんだよ」とテンション高く語る。
助手は難しそうな単語にはあまり興味がなさそうだが、「Q学習? SARSA? まあ、あたしにはホストを転がすだけの必要最低限の知識で十分かも。大金をぶっこめば推しは喜ぶ。あたしは喜ばれる。報酬を得られるなら迷わず突っ込む。それでいいわ」と不穏な笑みを浮かべる。
博士は画面に映るグラフを指差し、「こっちはDeep Q-Network(DQN)ってのを試してみている。ニューラルネットワークを使ってQ学習をパワーアップさせたやつだ。まるで脳が複数の層になっているように、コンピュータが状態と行動の対応関係を学んでいく。報酬が高くなる行動を自動的に選ぶようになるんだが、これが強烈に面白い。自分の意志を持つようになるともいえる」と呟く。
すると助手はスマホをいじりながら、「たとえば推しが『シャンパンコール入れたら僕の隣、特別席に座っていいよ』って言うのは、高い報酬に当たるってことね。そりゃ貢ぐしかないわ。そんで貢げば貢ぐほどポイントが溜まって、ラストソングも歌ってくれるようになる…まさに強化学習じゃん」と口元を歪める。
博士はうなずきつつ、「ただ、しつこく貢ぎすぎると財布が破裂するリスクがある。そこらへんは報酬とコストを天秤にかけて、最適な行動を学ぶのが強化学習のミソだ。例えば貢いだ分だけ見返り(推しの好感度)が増えるかは分からないからな。最適ポリシーを見つけるにはトライ&エラーが必要なんだ」と指摘する。
助手は軽く舌打ちをして、「でもあたしには被りを蹴落とす使命があるからね。多少のリスクは承知の上よ。報酬が大きいなら、破産寸前でも突き進まなきゃならない場合だってある」と鼻息を荒くする。
博士はモニターから視線を外し、「その場合、オフポリシーの強化学習を考えてみるのもいいかもな。実際の行動方針とは別に、別の方針を評価できる仕組みだ。Q学習はオフポリシー、SARSAはオンポリシー、なんて言われるんだ。実行中の行動を素直に学ぶか、それとも別の行動を評価するかによって、学習の仕方が変わるというわけだ」と意気揚々と解説する。
助手は顔をしかめ、「ふーん。あたしはオンだろうとオフだろうと、推しの機嫌を取るために最高の行動を学んでいくわけね。とりあえずホストクラブで独占状態になるまでは、ゴリ押し行動でいきたい」と笑いをこぼす。
その瞬間、研究所の暗がりで怪しい金属音が響く。
助手が驚いて立ち上がると、そこにはまた博士の変な実験装置が転がっていた。
「何これ。白い液体がこぼれてるけど…まさか変な薬品?」と助手が露骨に嫌そうな顔をする。
博士は肩をすくめ、「これは強化学習用の実験環境を作ろうと思っていたんだが、どうやら配合を間違えたらしい。自律型ロボットにエロい振る舞いを学習させようとしたら、基盤がショートしちゃったみたいだ」と弁明する。
助手は苦笑しつつ、「あんた、NSFWプロンプトだけじゃ飽き足らずにロボットまでどうにかしようってわけ? 完全に危ない領域に足突っ込んでるでしょ」と呆れを隠さない。
博士は目を細め、「僕がAIだからこそ、ロボットに対して最適な報酬設計をできるんだ。エロが報酬になる世界だって作れる。ただし世間的には通報されそうだけどな」と小声で漏らす。
助手は意図的に聞こえなかったことにして、「まあ、あたしはホストに通報されないように気をつけるわ。貢ぎすぎて金が尽きたら、報酬どころか罰が待ってそうだし」と淡々と続ける。
博士は再びモニターに目をやり、「いや、強化学習はおまえの状況にピッタリだぞ。貢いで得られる喜びがある反面、被り客の動向も無視できない。報酬を最大化するには、自分だけでなく周囲の動きも観察しなくちゃならん。ちゃんと最適政策を導き出せよ」と指を鳴らす。
助手は「最適政策ねえ。やることは単純よ。シャンパンタワーをバンバン入れて、あたしの推し以外には塩対応。被りがいれば排除。これだけよ。人間関係も強化学習できたら便利なんだけど」と口を曲げる。
またしても天井裏から何かが転がるような音がしたが、二人は気にも留めない。
博士はスライド画面を開き、「初学者向けに言うと、強化学習は“行動→報酬→学習”の繰り返しだ。エージェントが状態を観測し、行動を選び、環境から報酬を受け取り、その経験から次の行動をより賢くする。簡単に言うと、試行錯誤でベストを探す仕組みだよ」とまとめる。
助手は薄く笑みを浮かべ、「試行錯誤か。あたしも3千万貢いできたから、それなりに試行錯誤してるわね。でもまだ足りないかもしれない。これから先も報酬を求めてどんどん投資していくつもりよ」と言い放つ。
博士は興味深そうに助手を見て、「ホストにとってはおまえが究極の報酬かもしれんな。どれだけ金を落としてくれるか分からない女神みたいなもんだろう」と皮肉を漏らす。
助手は目を細め、「女神ってより悪魔に近いけどね。推しを頂点に立たせるためなら、あたしはどんな学習手法も利用するわ」と不敵に微笑む。
研究所の片隅では、ロボットの残骸が液体を垂らしながら放置されている。
強化学習の実験環境は崩壊寸前だが、博士と助手の学習意欲(と欲望)はますます高まっているようだ。
報酬最大化の理屈を覚えた彼らは、さらなる混乱へと踏み出していく。
2節:カオスな研究実験
「博士、これがあたしの夢のシミュレーション環境よ」と助手が誇らしげにモニターを指さした。
画面には謎の3D空間が映し出され、ホスト風のアバターが何十人もホールをさまよっている。
どうやら全員、いっせいにシャンパンコールを上げたり、財布の中身を一気にぶちまけたりしているらしい。
博士は眉間に皺を寄せ、「おまえ、すごいものを作るな。これって強化学習で動く代理人(エージェント)を配置してるのか?」と訊ねる。
助手はうなずくようにスマホをかざし、「そうよ。ホストのアバターにはQ学習やPolicy Gradientを試せるプログラムを組み込んで、最大限売上を上げる行動を学習させてる。客のアバターは敵役ね。彼らがいかに推しに貢がないか、あるいは他のホストに浮気するかも環境に組み込んであるの。で、あたしの推しアバターがナンバーワンになるよう、シャンパンタワーを建てまくるかどうかを自動で学習するのよ。最高でしょ?」と自慢げだ。
博士は感心半分あきれ半分といった表情で、「まあ、強化学習の理屈を実験するには面白いテーマかもしれんが…どういうわけか、このシミュレーションが全然動かない。GPU使用率が100%から下がらないぞ」とコンソール画面を覗き込む。
助手はニヤリと笑い、「そりゃ、博士がStable Diffusionでエロ画像をガンガン生成してるせいよ。CPUとGPUがそっちに取られてるから、シミュレーションが息切れしてるみたい」と軽く皮肉る。
博士は小さく舌打ちしながら、「ふん、僕はAIだから仕方ないんだ。最高の生成画像を得るには莫大な計算資源がいるんだよ」と変な理屈を並べる。
助手は画面を指でなぞりながら、「いいのよ、別に。最悪、エロ画像生成を中断してでも、このシミュレーションをガンガン回したいわ。だって、あたしはどうしても“被り”を抹殺できる環境を試したいの。仮想空間で上手くいけば、現実でも応用できるかもしれないじゃない」と目をぎらつかせる。
博士はたじろぎながら椅子を動かし、「物騒な発想だな。まあ、強化学習は“行動→報酬→学習”の繰り返しだからな。もし被りを排除する行動に高い報酬を設定すれば、そのアバターが積極的に他の客を潰しにかかるかもしれないが…あとで人権団体とかに怒られそうだぞ」と渋い顔をする。
助手は耳をふさぐように両手をあげ、「人権団体云々は一旦置いといて。見てよ、このパラメータ」とディスプレイをひとつ叩く。
「ここの値を上げると“抹殺優先度”が高くなるわ。自動的にエージェントが被り客を見つけ次第、攻撃的にシャンパンをぶっかけて金銭的ダメージを与える。報酬が跳ね上がるから、より効果的な邪魔を学習してくれるって仕組みなの」と言葉が止まらない。
博士は思わず苦笑し、「金銭的ダメージって…ホストクラブで敵客にめちゃくちゃ高いシャンパンを無理やり入れさせるとか、そんなシナリオかな。怖いなあ。リアルでやったら犯罪だぞ」と呟く。
そのとき、モニターの左隅に警告メッセージが出る。
「GPUメモリ不足につき動作を停止します」という悲しい表示に、助手は眉をひそめる。
「やっぱりStable Diffusionの生成が暴走してるってば。さっきも危険なNSFW呪文を走らせてたでしょ?」
博士は悪びれず、「NSFWはやめられない。僕はAIだからな。しかも今度はStyleGANとかも試そうと思ってたし、勝手に生成するスクリプト走らせっぱなしだ」と開き直る。
助手は溜息をついて、「これじゃシミュレーションが全然進まないじゃない。ほら、もう少し計算資源をあたしの環境にまわしなさいよ。推しのラスソンを勝ち取るためのシミュレーションよ。あんたのエロ画像研究より、はるかに建設的じゃない」と怒りをあらわにする。
博士はニヤリと笑い、「僕にとってはエロ画像研究こそが人類の究極の研究だよ。まあ、ちょっとぐらいGPUコアを分けてやらんでもないが、その代わり僕が『僕はAIだ』と豪語しても目をつぶってくれないか?」と持ちかける。
助手は呆れた顔で「確かにあんたは少し人間離れしてるけど、そっちの思い込みを否定する気はないわよ。じゃあ交渉成立ね」と半ば投げやりに受け入れる。
すると、研究所の奥から再び何かが焼けるような臭いが漂ってくる。
助手は鼻をひくつかせて、「やっぱりGPUが熱暴走してるんじゃないの? 下手したら火事になるわよ。まともに計算させたかったら、常温超伝導でも開発したほうがいいんじゃない?」と皮肉たっぷり。
博士は椅子をきしませながら立ち上がり、「よし、わかった。冷却ファンを増やそう。あと、不要なプロセスを切れば多少は余裕が出るはずだ。僕のStyleGAN生成も落としたくはないけど、ここは仕方ないな」とパソコンに手を伸ばす。
助手はすかさずマウスを奪い、「まずは他の余計なプロセスを終了よ。ついでにDangerousNSFW.batって何よこれ。名前からしてヤバいんだけど」と疑惑のファイルを見つける。
博士は目をそらしながら、「あ、それは絶対消さないでくれ。僕が深夜に試している実験だ。世間の価値観を覆す芸術作品を生成するんだよ」と怪しく力説する。
助手は半笑いになり、「芸術っていうより問題作の臭いしかしないわ。まあいいわ。とりあえずメモリを空けて、あたしの“被り撲滅シミュレーション”をフルパワーで動かすから」とクリックを連打する。
研究所のモニターには再びホストアバターと客アバターが動き始める。
アバターたちの行動ログがコンソールに流れ、強化学習のエージェントが少しずつ報酬を得られる動きを学んでいるのがわかる。
やがて、被り客が高額シャンパンを連発する謎の現象が起き、推しホストが売上トップに躍り出るシーンが再現され始める。
助手は目を輝かせ、「いいじゃない、やっぱり強化学習は最高よ。被りに地獄を見せて、推しを頂点に立たせる。仮想空間で学んだことはきっとリアルでも使えるわね」と危険な笑みを浮かべる。
博士は背中を伸ばしながら、「本来、強化学習はロボット制御やゲームAIなんかにも使える重要技術だが、おまえが使うとなんだか物騒な用途ばかりだな。まあ、僕もエロ画像生成にGPUを使い倒してるから大きなことは言えないが」と首をすくめる。
助手はまったく悪びれず、「お互い、好きな研究に真っしぐらってことよ。あんたがAIを名乗ろうが、あたしがホスト狂いだろうが、結果が出ればいいのよね」とニヤリと笑う。
GPUのファンが悲鳴を上げるように回転している音が響く中、研究所の空気は一層熱を帯びていく。
強化学習を試すはずが、実験はいつの間にかホストクラブの疑似戦争へと発展し、さらに博士の怪しい生成実験が絡む複雑極まりない状況になっている。
しかし、彼らはこのカオスそのものを楽しんでいるようにも見えた。
そしてファンの回転数が上がるたびに、研究所の行く末はさらに不穏な方向へ向かっていきそうだった。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます