ロゲルペグニージ

悪紫苑

第1話 学習機能

『うなぎ文』という言葉をご存知だろうか?


「おい、お前。今日の昼飯、何にする?」

「そうだな……。俺は、カツ丼にする」

「じゃあ、私は天丼ね」

「君は?」


──という他愛もない文章だ。


いうまでも無いことだが、最後の登場人物は実は〝うなぎ人間〟でした──なんてオチではない。与太話に解説を加えるような野暮なことはしたくないが、あえて解説すると、『僕はを食べる』と表明しただけの話。要は省略文である。


日本語は海外のあらゆる言語と比べても、こういう省略文がきわめて多い。何故に『うなぎ文』なんて名前がついているかというと、その昔、金田一春彦という偉い言語学者の先生が、この手の省略文の例として「僕はうなぎだ」を使ったからだそうだ。


はてさて──、何故こんな話を切り出したかというと、私はこの『うなぎ文』に散々悩まされているからだ。


言い忘れていたが、私の職業はプログラマだ。プログラマと『うなぎ文』は繋がらないって? まあ、そう焦らないでほしい。

私がやっているのは機械学習──いわゆる〝ディープラーニング〟と言われる分野だ。ビッグデータを再帰型ニューラルネットを模したアルゴリズムで処理して答えを出すというアレだ。

とは再帰処理を三回以上繰り返すことを示しているのだけど、近年まで有意な結果が出ず、進展がなかった。それが、最近になって実用的な制限ボルツマンマシンRestricted Boltzmann machineが開発され、ちょっとしたブームになっている。


まあ、この手の人工知能の話は、半世紀以上に渡って、流行ったり廃れたりを繰り返しているので、眉唾まゆつばに思っている人も多い。制作にたずさわっていながら、こういうのも変な話だが、実は、私自身もそうだ。

そもそも、脳をしたニューラルネットとか何とか言いながら、人間の脳はそこまで階層深く学習ラーニングしていないことが分かっている。模してはいるが、特化しすぎていて全然似ていない。一体、どこを目指しているのだろうね?


それに、ディープラーニングに関して言えば、プログラム自身はしゅではなく、どちらかと言えばじゅうだ。


──事前学習pretrainingはあるか?

──教師付きfine-trainingなのか?

──自己符号化器autoencoderを使うか?


プログラムする上で色々と考えるべき部分は確かにあるのだけど、主はあくまでデータだ。ノイズの少ない質の良いデータを持っている方が勝つ。いくら素晴らしいアルゴリズムを開発したとしても、データが貧弱では何もできない。

入力に対してどんな出力が出てくるのか、出てくるまでさっぱり分からないブラックボックスを作っている気分だ。



──で、ここまできて、ようやく『うなぎ文』と結びつく。


私が開発しているプログラムの納入先は、とある外資系企業の営業部である。日本にも支店があるそこそこの大手だが、日本での営業成績はそれほどかんばしくない。

理由は割と簡単で、一言でいえばのだ。本社の方針か何だか知らないけど、全ての社員が本国から送り込まれている。もちろん日本語は話せるが、のとのは違う。


彼らは、「僕はうなぎだ」という一文を平気で、"I am an eel."と訳すのだ。


そりゃ、この一文だけ取り出せばそうなる。もっとも、漫画やアニメでもない限りうなぎが喋る筈はないので『何か変だ』と気づいても良さそうなものだが、彼らは気にしないらしい。


──気にしろよ。


しばらくしてから本社の方も、業績が伸びない原因は、現地民との意思疎通コミュニケーションの困難さにあると気づいて、その部分のテコ入れを考えてきた。いやまあ、その前に取引先の人を称して〝現地民〟と言うのはどうかと思うが、そういうも含めてダメダメなのである。

普通の会社ならこういう場合、それこそ『現地民を社員として採用する』という道を選ぶ筈だ。全員とは言わないが、少なくとも顧客との接客部門インターフェイスには配置するんじゃないかな? しかし、この会社は違った。外資系企業の考えることは良くわからない。


もっともそのお陰で、私のもとに飯の種が舞い込んできたことになる。どういうことかというと、その外資系企業は現地民を採用する道を選ばず、『日本語をニュアンスまで含めて完璧に翻訳トランスレーションできるソフトの開発』を弊社に依頼してきたというわけだ。

ディープラーニングの花形と言えば、画像認識や音声認識なわけだが、音声認識の先には自然言語の翻訳という本丸があるのは必然だ。相手の表情から情報を得られることまで考えると画像認識の技術も使えるかもしれない。


ただ、〝かなり難しい〟ことは『うなぎ文』の例でも分かってもらえるだろう。「僕はうなぎだ」の一文だけを切り出しても翻訳することはできない。まずはこの文章を『何か変だ』とコンピュータが気づき、前に遡って文章を〝解釈〟する必要がある。

「じゃあ、私は天丼ね」なんて文章が先にあるから、『なんだ。メシの話か……』と人間は気付くが、コンピュータがそんな都合の良い解釈をする筈がない。『うなぎ』を『うなぎ丼』ではなく『うな丼』に翻訳するだけでも至難の技だ。



そんなこんなで3ヶ月。私はある程度〝これだ!〟と思うアルゴリズムを構築し、外資系企業クライアントが指定したサーバー上に実装した。ただ、これで終わりではない。プログラム自身はしゅではなく、どちらかと言えばじゅうだ。作成した〝赤ん坊の脳〟に、今から沢山のデータ──ビッグデータ──をたらふく食わせてやらなければならない。


問題はデータの〝質〟だ。『三つ子の魂百まで』ということわざ──ちなみに、文脈中に突如として現れることわざというのも難関のひとつだ──の通り、何を学習させるかで、出てくる結果がガラリと変わる。

上品で正しい日本語を与えれば良い──というわけでもない。これは外資系企業クライアントが何を求めているのかに関わってくるのだが、「帰って頂けませんか?」という表現ではなく「ぶぶ漬けでもどうどす?」と翻訳しなければならないパターンだってあり得る。



外資系企業クライアントの国内支店社員との会話は、それはもう要領を得ないものだった。

──もっとも、だから翻訳機械を必要としているのだが。


それでも、何度か足を運んで会話をしておぼろげながらにも分かってきたのは、彼らはいわゆる〝お役所言葉〟が分からないので何とかして欲しいという要望リクエストを持っていた。政治家の言葉もその中に含まれる。それは難関中の難関だ。言語明瞭意味不明。そんな翻訳ソフトがあるなら私も欲しい。いやいや、それを作らねばならんのだ。私が。



で、食わせるビッグデータを何にするか──である。官僚同士が喋っているデータとか政治家同士が喋っているデータとか、それこそ大量に必要になる。ただし、言葉だけ揃っていれば良いわけではない。その言葉によって、


──相手がどう反応したか?

──物事がどのように動いたか?


そこまで含めないと、正しい翻訳はできない。それこそ"I am an eel."と訳すことになってしまう。


散々考えた挙句、私はハタと気付いた。国営放送NHKの放映データを丸ごと入れれば良いんじゃないかと……。テレビならリアルタイムの文字起こしも行われているし、官僚や政治家がたくさん登場する──っていうか、官僚や政治家しか登場しない──国会中継を含んでいる。これら中継の議事録は完璧に残っているし、そこで話し合われたことが、どのような〝事業〟として形に残っているかも簡単に調べることができる。これだけ〝質の良い〟データはそうそうない。

また、これらの資料は各国の政府機関が専門の翻訳家をつけて、一字一句間違いのないように丁寧に翻訳しているから、〝答え合わせ〟もバッチリだ。



データ入力は順調だった。もちろん、多少の見込み違いもあった。"No smoking."を「横綱お断り」と翻訳した時にはさすがに脱力したが、相撲中継をデータから外したら解決した。その他、直接関係のなさそうな番組は外して〝精度〟を上げつつ、再び3ヶ月後。何とか半年の納期に間に合わせることができた。やれやれ。


──本当のところを言うと、私はこの翻訳ソフトの〝精度〟をどう評価していいのか分からなかった。私が作ったのは、ある入力に対してある出力が出てくるブラックボックスだ。ブラックボックスの動作原理は、製作者だから当然知っているが、ある入力に対してどういう出力が出てくるかは判断できない。

ディープラーニングを基礎として創られた囲碁ソフトは、今や人間が勝てないほど強くなっているが、〝彼〟がどのような手を次に打つかは、製作者も分からない。そもそも、製作者より〝彼〟の方が囲碁に関しては圧倒的に上手なのだ。


要するに──だ。何がいいたいかというと、私はなのだ。だから、言葉を教え始めて最初の1ヶ月程度で、私の語学力より翻訳ソフトの方が流暢──たぶん──になってしまい、評価できなくなってしまった。

もちろん、ことあるごとにネイティブの人に確認をお願いしていて、最終的には「申し分ない」という評価をいただいてはいたものの、外資系企業クライアントの望むものになっているかどうかはまた別な話となる。


まあ、納入から半年は保守期間のお試し期間。バグがあっても違約金が発生することはない。ただ、あまりに沢山の手直しが発生したら、その分タダ働きが増えてしまう。それは私の能力が低かったせいで仕方がないと諦めるしかない──そう思っていた。




外資系企業クライアントの評価は大絶賛エクセレントだった。こっちが、「えっ? 本当に良いの?」って思うくらいベタ褒め。何しろ、私をハグするためだけにアジア地区の統括支店長がシンガポールから駆けつけたってほどだ。リップサービスで話半分に割り引いたとしても、評価は上々だった。


「政治家の言葉が分かりやすい!」


どうやらこの一言に尽きるらしい。建築公募の入札とかがとてもやり易くなったそうだ。──そっち関係の分野も私はうといので「はぁ、そうですか?」と答えるのが精一杯だったのだが……。


結局、その後の追加作業は一切発生しないこととなり、双方がWin-Winで私としてもとてもハッピー──な筈なんだけど、何か引っかかる。

変な話〝たかが〟翻訳ソフトじゃないか。今までこの世に無かった画期的な商品を提供できたわけじゃない。単に言い換えただけ──それだけだろ?


私はその夜、ふと思いたち、国会中継の翻訳版──制作した翻訳ソフトが訳したヤツではなく、アメリカ政府機関に属する専門の翻訳家が訳したヤツ──を逆翻訳バックトランスレーションしてみることにした。

外資系企業クライアントに提供したサーバーの同型機は弊社にも残されていて、半年は試験用として同じ翻訳ソフトが稼働している。


簡単な話だ。が日本語を英語に変換する。この段階で間違いはないだろう。彼らは翻訳のプロだ。むろん政治にも精通している。

次に、彼らが訳したその英語を、制作したで日本語に変換する。そして、その日本語を、元々の国会中継の日本語と比べるのだ。

完全に一字一句一致することはないにしても、ニュアンスを含め同じ意味であるならば良い。




──数十分後。


私は爆笑していた。分かりやすい。実に分かりやすい。今後の国会中継は、これでやるべきだ。そう思いながら腹を抱えて笑った。


だってそうだろう。


「善処します」→「やる気はありません」

「検討します」→「暇があればやります」


「今後このような不祥事が発生しないよう、十分注意いたします」

        ↓

「今後このような不祥事が漏洩しないよう、隠蔽に注力します」


になっているんだから……。

  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る