第4話 機械学習?人工知能?統計?

 テキストマイニングなんて聞き馴染みのない言葉かもしれませんが、機械学習やディープラーニングはどうでしょうか。


 人工知能はもちろん、統計という言葉はどこかで耳にしたことがあると思いますが、結局のところ、テキストマイニングとは何をしているのか? という疑問をお持ちの方もいらっしゃると思います。



 まず、基本的には単語の数を数えているだけです。


 日本語は文から単語を分けるのが難しいらしいですが、これをやってくれるソフトは無料で使えます。MeCab(めかぶ)だったり、ChaSen(ちゃせん)だったりと、名前が可愛らしいです。


 このソフトが文から単語を取り出してくれます。


 そうすると、私という言葉が何回使われて、君という言葉が何回でという集計ができます。

 エク○ルで、一行目に言葉(例えば、私とか君とか)が、一列目に作品名(まだらの紐とか、鼻とか)が書いてあるようなイメージです。(なお、作品名ではなく、句点で区切られた文や段落とすることの方が多いです)


 表ができれば、ある作品で、私という言葉が何回出てきたかというのが一目瞭然です。

 品詞毎にまとめて品詞構成なんかを円グラフにしたりすることもできます。


 これはいわゆる統計、記述統計です。


 作成した言葉の一覧表は、いわゆる行列ですので、あらゆる手法によって分析ができます。

 それが機械学習です。

 ディープラーニングとか決定木とか、ニューラルネットワークとか、主成分分析とか、手法がかなり沢山あります。


 単語を抽出して、集計して、分析するという一連の流れは難しそうですが、フリーソフトでできます。有名なのはKH Coderではないでしょうか。

 

 テキストマイニングは言葉を対象としているので他と区別するために名前がつけられている、ということで私は納得しています。画像を対象としたら画像処理みたいな感じです。

 


 ……人工知能。

 これは、宣伝文句として使われる便利な言葉だと私は思っています。ハワイでアロハと言っておけばなんとかなるというのと同じ用法です。

 私自身、流行っているのでとりあえず人工知能と謳っていたりもします(汗)


 テキストマイニングの場合は、文章生成を行うと本当の人工知能と呼べるかも知れませんが、私のように大半はハッタリ、だと思います。

  • Twitterで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る