カクヨム・コンテスト関連
タイトル・頻出ワード
27万タイトル分の形態素解析を行ってみた
ゴールデンウイーク真っ只中。今がチャンスとばかりに、以前から目論んでいた形態素解析を実行しました。
(使用したライブラリはMeCab.DotNetです。MeCab自体は古典的なツールですが、私の目的には必要十分な機能があります)
■形態素解析とはなんぞ?
自作品のタイトルで例示すると、次の通りです。要するに辞書を使いながら、品詞に分解してくれるんですね。
▼戦争と漆黒の海峡
戦争 名詞,サ変接続,*,*,*,*,戦争,センソウ,センソー
と 助詞,並立助詞,*,*,*,*,と,ト,ト
漆黒 名詞,一般,*,*,*,*,漆黒,シッコク,シッコク
の 助詞,連体化,*,*,*,*,の,ノ,ノ
海峡 名詞,一般,*,*,*,*,海峡,カイキョウ,カイキョー
この例のように一般的な言葉で構成されたタイトルは、バッチリ解析してくれますが……
▼ブラームスの推し活子守唄
ブラームス 名詞,固有名詞,人名,姓,*,*,ブラームス,ブラームス,ブラームス
の 助詞,連体化,*,*,*,*,の,ノ,ノ
推し 動詞,自立,*,*,五段・サ行,連用形,推す,オシ,オシ
活 名詞,一般,*,*,*,*,活,カツ,カツ
子守 名詞,サ変接続,*,*,*,*,子守,コモリ,コモリ
唄 名詞,接尾,一般,*,*,*,唄,ウタ,ウタ
「推し活」や「子守唄」のように辞書にない名詞は複数の要素に分解されてしまいます。この結果を受け入れられない場合は、辞書をメンテすれば良いのですが、まー、そこまで精密である必要はないので。
■解析対象とした作品数
〇作品数
272,486作品
データが27万以上あれば、充分遊べます!
〇単語数
2,035,794語
上記数量の作品タイトルを分解すると、200万語を超えました。ハードディスクをSSDに換装しておいて、ホントよかったよ……。
で。ジャンル別に集計してみたところ、面白い傾向が分かりました。
ジャンルごとに刺さる言葉が違うのです。トップ10だけ掲載しようかと思いましたが、違いが面白いのでトップ100を掲載してみます。
多くは想定内の単語かと思いますが、リストアップされた用語を意識すれば、より読者に刺さる内容へブラッシュアップできるのではないかと。
リストが長くなりますのでジャンル別にページを分けます。
■リストアップしてみての感想
リストの前に感想を書いてしまいますが、それぞれのジャンルで異なる世界観が広がっていることが分かります。それにしても「世界」はどのジャンルでも強いですね、しかし「KAC」の強さよ(笑)。
また、ラブコメなどにエロ釣りワードがでてくるかと予想してましたが、意外や意外、トップ100に入りませんでした。もっと低い順位にはいるのですが、複数ジャンルに分散したため、出現回数が低く抑えられたようです。
たまに記号やら「ぴ」やら、突拍子もないワードも抽出されて笑わせてくれますが、いわゆるノイズなので無視してください。
やるかどうか不明ですが、時間軸で見れば「流行」のワードも浮かび上がってきそうな予感。その場合は、タグから引っ張ってきた方が効率良いかもですね。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます