【補足】音声認識って凄いんですね
補足というか、蛇足になってしまうのだが、「完璧な音声認識が出来るのか」について個人的に興味がわいたので調べてみることとした。
参考としたのは以下の本。
働きたくないイタチと言葉がわかるロボット 人工知能から考える「人と言葉」(川添愛(著)・花松あゆみ(イラスト)/朝日出版社)
本のあらすじをざっくり説明すると、怠け者のイタチ達が「指示されたことを何でもやってくれるロボット」を作ろうと思いつくが、そもそも「指示を聞く」時点で大きな壁があった。面倒臭がりな彼らは周囲を巻き込んでなるべく楽に解決しようとするが……といった感じである。
イタチ達の奮戦を描く寓話部分と、そこで登場した技術に関する詳細をまとめた解説部分に分かれており、楽しみながら唸れる作品に仕上がっている。
その序盤で音声認識についての話が出てきて、「音声認識すげえ、それが出来る俺のPCすげえ」とものの見事に嘆息し、「こりゃあ、完璧な認識は難しいだろうな」と、ものの見事に嘆息してしまった。
・
まず音声認識以前の問題として、音声を聞き取る機能――つまり、受け取った言葉の音を正確な文字列に変換する必要がある。文章では表現しにくいが「ありがとう」という声を聞いたとしたら、それは無数にある音の組み合わせのうち「ありがとう」に該当する音であると判断できなければならない。
人間基準ならば簡単に思うだろう。経験や会話の流れから「ありがとう」と言われたことを認知出来るからだ。しかし、機械にとっては与えられた信号こそがすべてなので「ありがと
ややこしい事象はたくさんある。
逆に音が違うのに同じ文字として扱わなければならないケースもある。
日本語以外の言語になれば、音の扱い方が変わってしまう(英語の「r」と「l」の違いのようなもの)ので、言語ごとにデータを取る必要がある。
そんな苦労を重ねたうえで、今度は聞き取れた音を文脈に適した形に変換しなくてはならない。
「いしき」という言葉があったとして、人間なら「意識」と浮かぶだろうが、機械にとっては「いしき」という音を表すあらゆる文字列が変換候補となるのだ。「一色」「石木」「遺志期」「
その中から如何にして「意識」という回答を導き出すか。おそらくだが文字入力での変換処理と同じく最も用いられるだろうワードを先頭にしているのだろう。「いしきちょう」という文字列で受け取れば、地名の「一色町」として出すという具合に。
また、つまずくと思ったのが同音異義語の扱いである。本編でも「変換」を「返還」と誤変換していたが、よく考えてみれば当たり前の話である。機械にとっては単なる文字列なのだから「へんかん」とだけ発言されたものをどう訳すのが正解なのか分かるはずもない。
この場合でも、前後の文章の内容を把握出来れば――例えば「ことばをへんかんする」と一気に発言すれば「変換」と訳してくれるのだろうか。それでも「
長くなってしまったが、本編の内容を見る限り、聞き取りも変換も読めないくらいぼろぼろという訳ではなかった。膨大な組み合わせの中、一応作品として出せるように出力したうちのPCはそこそこ頑張った方だと言える。
・
余談の余談。
人間が如何にして言葉の音を区別し、文脈に合わせて用語を使い分けられるようになるかというメカニズムは今も「無意識の世界」に眠っているらしい。
プログラムは人間の想定した通りにしか動かない。人間が意識してやっていることは手順が分かっているので、膨大なデータと演習作業によっていずれかは真似できるようになるだろう。
しかし、無意識下で行われている(とされる)ことはどうだろうか。使い手自身すら把握していないことを、なぜ、機械が代行できようか。こればかりは計算速度だけでは解決しようがない。
機械が人間を超える時というのは、人間の謎がすべて解決した時なのだろう。
音声認識で小説を作ってみる 脳幹 まこと @ReviveSoul
★で称える
この小説が面白かったら★をつけてください。おすすめレビューも書けます。
カクヨムを、もっと楽しもう
カクヨムにユーザー登録すると、この小説を他の読者へ★やレビューでおすすめできます。気になる小説や作者の更新チェックに便利なフォロー機能もお試しください。
新規ユーザー登録(無料)簡単に登録できます
この小説のタグ
同じコレクションの次の小説
関連小説
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます