計量テキスト分析ってなによ?~調査方法と情報のまとめ方について~

このページの内容を読んでいただいた上で

先を読んでいただいた方が、内容の理解はしやすいのですが、

「面倒だから細かいことはどうでもいい」

という方は読み飛ばしてしまってください。


【使用ソフト】


カクヨムのレビューを計量テキスト分析にて調べるにあたり、

フリーソフトの「KH Coder」を使用しました。

(http://khcoder.net/)


KH Coderを用いることで、

・頻出語

・語と語の関連

を調べることができます。


まずKH Coderでは文章を、

「主人公」や「思う」などの単語に分解し、

それらの語が何回用いられていたのか集計してくれます。

全ての語において、何回用いられたのか調べるので、

「よく出てきた語ランキング」なんていうのも見ることが可能です。


さらに文章中でそれぞれの語がどのような関係を持っているのかも調べられます。

ざっくり言うと、

「ある単語Aの近くに登場する単語を、単語Aの関連語とみなす」

という仕組みです。

そして、それぞれの単語にどのような関係性があるかを可視化してくれます。


このような機能を用いて、

レビューにおいてよく出てくる単語や、

文章のパターンを調べてみよう、

というのがこの試みです。



【分析における客観性について】


今回の分析では、私の作為的な操作が多く含まれています。

そのためデータの客観性が保たれているとは言い難いと考えます。


そこで、

「私がどのような作為を持っていたのか」

それをこのページにて明記することにしました。


データの客観性を重視する方もいれば、

「自分の感想に役立つノウハウさえあれば、客観性はそんなに求めない」という方もいらっしゃると思います。


客観性を気にしない方はこのページを飛ばしていただいて問題ありません。

そしてデータが信頼できるものかどうか気になる方は、

このページを読んだ上で続きを読むかどうか判断していただければと思います。



【分析対象の選び方について】


なるべく手間をかけずに多くのサンプルを集めたかったため、

レビューが3つ以上ついている作品を主な対象として収集していました。


レビューが多く付いている作品を中心に採用したことは、

(分析開始時点のファイルでは)

109作品から1617レビューを取り出した、

という事実からもご理解いただけると思います。


またレビューが1つまたは2つしかない作品も、

長文レビューがあればサンプルとして採用しました。

(デスクトップ上で10行程度あれば長文と判断しています)


上記のような操作をした理由としては、

先に挙げた「手間をかけずに多くのサンプルを」というものに加えて、

短文のレビューも長文のレビューも分析の対象にしたいという思惑があったためです。



【追加の分析について】


また上記の分析とは別に、

カクヨム運営公式アカウント

https://kakuyomu.jp/users/kakuyomu_official

のレビューも分析いたしました。


公式レビューの文章になにか特徴が見つかれば、

それを真似することで、より他の読者さんの参考になるレビューが書けるようになるのではないか?

と考えたためです。



【分析方法&データの活用について】


まずはサンプルとして収集したレビューから、

KHコーダーを利用して語を抽出します。


そうして得られた抽出データから、

使用頻度の多い語を確認しました。


分析開始時のファイル(後に説明がありますが、ver.1.0と呼んでいます)

における頻出語、上位10語は、


1.読む

2.作品

3.思う

4.物語

5.主人公

6.世界

7.人

8.面白い

9.小説

10.自分


でした。


なお「読む」「思う」「面白い」については、

「読みたい」「読まない」といったように活用されていても「読む」としてカウントされています。

上記の3語に限らず、活用のある語は全て基本形に置き換えた上で集計されます。



そして公式レビュー(ver.1.0)の上位10語は、


1.世界

2.主人公

3.作品

4.人

5.本

6.小説

6.読む

6.物語

9.思う

9.自分


でした。


「本」という言葉は53回出現しているのですが、

そのうち51回は「本作」というものでした。

初期設定のままだと「本作」という一語として認識できなかったため、「本」と抽出されています。

残り2回のうち1回は「日本」を一語として認識できなかったケースです。

そしてもう1回は、純粋な「本」(book)でした。

(後に、「本作」として抽出するように設定を改めました)



ここでは上位10語までの紹介といたしましたが、

それぞれのデータで上位150語までをリストアップしました。



そして、

(ここまでも作為的な手順は多かったものの)

ここからの調査は、「どの語が感想を書くのに便利そうだろうか?」

という私の主観を多分に交えての作業となります。


たとえば最も登場していた「読む」という言葉。

読んで感想書いているんだから、そりゃあ出てくるだろう、

とも思いはするのですが、

この語が実際にどのように使われていたのか、確認をします。


すると、


「読みやすい」

「読み進めると~」

「読まないと損」

「一気読み」

「是非読んでほしい」


という表現が「読む」の中でもよく使われていることがわかりました。


このように「読む」という一語を取っても、

様々な表現や感想の述べ方があるともわかります。



さらに、語と語の関連も調査しました。

たとえば「主人公」という語の近くには「物語」という語が出現しやすいようです。

このように一つの語に対する関連を調べる他、

抽出された語全体のつながりを図示する機能を用いて、

レビューを書く時によく使われる表現や、話題の流れを考察しました。

  • Twitterで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る