第2話 なんか胡散臭い
あくまで例ですが、魔王と電車が同じ段落に出現する(魔王と電車の共起度が高い)作品は星の数が多い、という結果が得られたとしたら、それを盲目的に信じることができますか。
どこからともなく浮遊する胡散臭さを禁じ得ないのは私だけではないはずです。
テキストマイニングを始めた頃は、星が貰える法則を見つけ出そうと意気込んでおりました。
実際、教師あり学習で小説の分類を試みたこともあります。特徴量としては品詞のバイグラムを用いました。
カクヨムの作品を千編ほど集め、星の数によってランク分けし、学習させました。
もう既にお気付きかも知れませんが、その精度は恐ろしく低い結果でした。
品詞のバイグラムは名詞−格助詞などなど、品詞の組み合わせをいいます。
学習させた分類器に未投稿の作品をテストさせれば、どれだけ星が貰えるか予測できるはずですが、前述の通り、精度が低いので占いレベルにもならない眉唾な結果が得られます。
もしかしたら、この星占いも何かしらの役には立つかも知れないと思う時はありますが、特にアイデアはありません(汗)
著者推定において、品詞のバイグラムは非常に有効です。文豪の作品について学習させ、学習していない作品を分類させると、100%に近い精度で誰の作品か明らかになります。
品詞のバイグラムは、著者推定に有効だけど、カクヨムの星は推定できない。
まだ最適な特徴量が発見されていないだけで、著者推定のように、あらかじめ星を予測するような特徴がもしかしたら存在するかも知れない、といった感じでカクヨムで賞を頂いて作家デビューするくらいの寝言を呟いていたわけです。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます