ロゲルペグニージ
悪紫苑
第1話 学習機能
『うなぎ文』という言葉をご存知だろうか?
「おい、お前。今日の昼飯、何にする?」
「そうだな……。俺は、カツ丼にする」
「じゃあ、私は天丼ね」
「君は?」
「僕はうなぎだ」
──という他愛もない文章だ。
いうまでも無いことだが、最後の登場人物は実は〝うなぎ人間〟でした──なんてオチではない。与太話に解説を加えるような野暮なことはしたくないが、あえて解説すると、『僕はうな丼を食べる』と表明しただけの話。要は省略文である。
日本語は海外のあらゆる言語と比べても、こういう省略文がきわめて多い。何故に『うなぎ文』なんて名前がついているかというと、その昔、金田一春彦という偉い言語学者の先生が、この手の省略文の例として「僕はうなぎだ」を使ったからだそうだ。
はてさて──、何故こんな話を切り出したかというと、私はこの『うなぎ文』に散々悩まされているからだ。
言い忘れていたが、私の職業はプログラマだ。プログラマと『うなぎ文』は繋がらないって? まあ、そう焦らないでほしい。
私がやっているのは機械学習──いわゆる〝ディープラーニング〟と言われる分野だ。ビッグデータを再帰型ニューラルネットを模したアルゴリズムで処理して答えを出すというアレだ。
ディープとは再帰処理を三回以上繰り返すことを示しているのだけど、近年まで有意な結果が出ず、進展がなかった。それが、最近になって実用的な
まあ、この手の人工知能の話は、半世紀以上に渡って、流行ったり廃れたりを繰り返しているので、
そもそも、脳を
それに、ディープラーニングに関して言えば、プログラム自身は
──
──
──
プログラムする上で色々と考えるべき部分は確かにあるのだけど、主はあくまでデータだ。ノイズの少ない質の良いデータを持っている方が勝つ。いくら素晴らしいアルゴリズムを開発したとしても、データが貧弱では何もできない。
入力に対してどんな出力が出てくるのか、出てくるまでさっぱり分からないブラックボックスを作っている気分だ。
──で、ここまできて、ようやく『うなぎ文』と結びつく。
私が開発しているプログラムの納入先は、とある外資系企業の営業部である。日本にも支店があるそこそこの大手だが、日本での営業成績はそれほど
理由は割と簡単で、一言でいえば日本語が分かっていないのだ。本社の方針か何だか知らないけど、全ての社員が本国から送り込まれている。もちろん日本語は話せるが、話せるのと理解できるのは違う。
彼らは、「僕はうなぎだ」という一文を平気で、"I am an eel."と訳すのだ。
そりゃ、この一文だけ取り出せばそうなる。もっとも、漫画やアニメでもない限りうなぎが喋る筈はないので『何か変だ』と気づいても良さそうなものだが、彼らは気にしないらしい。
──気にしろよ。
しばらくしてから本社の方も、業績が伸びない原因は、現地民との
普通の会社ならこういう場合、それこそ『現地民を社員として採用する』という道を選ぶ筈だ。全員とは言わないが、少なくとも顧客との
もっともそのお陰で、私のもとに飯の種が舞い込んできたことになる。どういうことかというと、その外資系企業は現地民を採用する道を選ばず、『日本語をニュアンスまで含めて完璧に
ディープラーニングの花形と言えば、画像認識や音声認識なわけだが、音声認識の先には自然言語の翻訳という本丸があるのは必然だ。相手の表情から情報を得られることまで考えると画像認識の技術も使えるかもしれない。
ただ、〝かなり難しい〟ことは『うなぎ文』の例でも分かってもらえるだろう。「僕はうなぎだ」の一文だけを切り出しても翻訳することはできない。まずはこの文章を『何か変だ』とコンピュータが気づき、前に遡って文章を〝解釈〟する必要がある。
「じゃあ、私は天丼ね」なんて文章が先にあるから、『なんだ。メシの話か……』と人間は気付くが、メシを食べた経験のないコンピュータがそんな都合の良い解釈をする筈がない。『うなぎ』を『うなぎ丼』ではなく『うな丼』に翻訳するだけでも至難の技だ。
そんなこんなで3ヶ月。私はある程度〝これだ!〟と思うアルゴリズムを構築し、
問題はデータの〝質〟だ。『三つ子の魂百まで』という
上品で正しい日本語を与えれば良い──というわけでもない。これは
──もっとも、だから翻訳機械を必要としているのだが。
それでも、何度か足を運んで会話をしておぼろげながらにも分かってきたのは、彼らはいわゆる〝お役所言葉〟が分からないので何とかして欲しいという
で、食わせるビッグデータを何にするか──である。官僚同士が喋っているデータとか政治家同士が喋っているデータとか、それこそ大量に必要になる。ただし、言葉だけ揃っていれば良いわけではない。その言葉によって、
──相手がどう反応したか?
──物事がどのように動いたか?
そこまで含めないと、正しい翻訳はできない。それこそ"I am an eel."と訳すことになってしまう。
散々考えた挙句、私はハタと気付いた。
また、これらの資料は各国の政府機関が専門の翻訳家をつけて、一字一句間違いのないように丁寧に翻訳しているから、〝答え合わせ〟もバッチリだ。
データ入力は順調だった。もちろん、多少の見込み違いもあった。"No smoking."を「横綱お断り」と翻訳した時にはさすがに脱力したが、相撲中継をデータから外したら解決した。その他、直接関係のなさそうな番組は外して〝精度〟を上げつつ、再び3ヶ月後。何とか半年の納期に間に合わせることができた。やれやれ。
──本当のところを言うと、私はこの翻訳ソフトの〝精度〟をどう評価していいのか分からなかった。私が作ったのは、ある入力に対してある出力が出てくるブラックボックスだ。ブラックボックスの動作原理は、製作者だから当然知っているが、ある入力に対してどういう出力が出てくるかは判断できない。
ディープラーニングを基礎として創られた囲碁ソフトは、今や人間が勝てないほど強くなっているが、〝彼〟がどのような手を次に打つかは、製作者も分からない。そもそも、製作者より〝彼〟の方が囲碁に関しては圧倒的に上手なのだ。
要するに──だ。何がいいたいかというと、私は英語が苦手なのだ。だから、言葉を教え始めて最初の1ヶ月程度で、私の語学力より翻訳ソフトの方が流暢──たぶん──になってしまい、評価できなくなってしまった。
もちろん、ことあるごとにネイティブの人に確認をお願いしていて、最終的には「申し分ない」という評価をいただいてはいたものの、
まあ、納入から半年は保守期間のお試し期間。バグがあっても違約金が発生することはない。ただ、あまりに沢山の手直しが発生したら、その分タダ働きが増えてしまう。それは私の能力が低かったせいで仕方がないと諦めるしかない──そう思っていた。
「政治家の言葉が分かりやすい!」
どうやらこの一言に尽きるらしい。建築公募の入札とかがとてもやり易くなったそうだ。──そっち関係の分野も私は
結局、その後の追加作業は一切発生しないこととなり、双方がWin-Winで私としてもとてもハッピー──な筈なんだけど、何か引っかかる。
変な話〝たかが〟翻訳ソフトじゃないか。今までこの世に無かった画期的な商品を提供できたわけじゃない。単に言い換えただけ──それだけだろ?
私はその夜、ふと思いたち、国会中継の翻訳版──制作した翻訳ソフトが訳したヤツではなく、アメリカ政府機関に属する専門の翻訳家が訳したヤツ──を
簡単な話だ。人間の翻訳家が日本語を英語に変換する。この段階で間違いはないだろう。彼らは翻訳のプロだ。むろん政治にも精通している。
次に、彼らが訳したその英語を、制作した翻訳ソフトで日本語に変換する。そして、その日本語を、元々の国会中継の日本語と比べるのだ。
完全に一字一句一致することはないにしても、ニュアンスを含め同じ意味であるならば良い。
──数十分後。
私は爆笑していた。分かりやすい。実に分かりやすい。今後の国会中継は、これでやるべきだ。そう思いながら腹を抱えて笑った。
だってそうだろう。
「善処します」→「やる気はありません」
「検討します」→「暇があればやります」
「今後このような不祥事が発生しないよう、十分注意いたします」
↓
「今後このような不祥事が漏洩しないよう、隠蔽に注力します」
になっているんだから……。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます