計量テキスト分析を利用して文章を改造していくお話

近藤近道

第1話 計量テキスト分析ってなに?の話

計量テキスト分析ってなんなの?

ってお思いの方もいらっしゃることでしょう。



そんなあなたに!

一瞬でわかる計量テキスト分析~~!!



っていう感じで説明してさしあげたいんですけどね。

それが難しいのです。

しっくりくる説明を全然思いつかなくて、私自身ヤキモキしています。


できれば、説明せずに話を進めてしまいたい!

けど説明必要なのは明らかなのにスルーするのって、どうなのん!?

という葛藤がありまして、

第1回では計量テキスト分析の説明の仕方について考えることにしました。



一発で、一言でスッパリ説明!

っていうのはスッパリ諦めます。

短いのは無理だけど、長くはならないように頑張る。

そんな感じでいきましょう!



まず、計量テキスト分析の肝に触れましょう。



肝は、

「文章を数字のデータに変換できるところ」

なんですね。



文章は数字じゃないんで、

グラフにするとかそういうことができないわけです。



でも計量テキスト分析では、


「私」って単語が〇〇回出ているよ

「好き」って単語が××回出ているよ


ってな感じに、単語の登場回数を数えます。



これによって、出てきた回数っていう数値データに変換できるわけですね。


なので単語の登場回数を見れば、

「お前、逆説の接続詞なら『しかし』より『でも』を好んで使うよね」

なんてことが言えるわけです。



もちろん、それだけで終わりじゃないですよ!

計量テキスト分析では単語の登場回数を数えるために、まず文章を単語ごとに分解しています。



「俺はお前のことが好きなんだ」

っていう文章だったら、


「俺/は/お前/の/こと/が/好き/な/ん/だ」

というふうに分解されます。



ここで注目するのが、距離です!



たとえば「好き」って単語を基準に考えてみましょう!


「俺」は「好き」の6個横に存在しています。

そして「お前」は「好き」4個横です。


こういうふうに、単語同士の距離もまた数値データとして捉えられます。



これを活用することで、


「『好き』って単語の近くに『お前』がよく出てくる!」

「他にも『好き』の近くに出てくる単語はあるの?」


ってことを調べられるんですね。



こういうふうに、文章から数字のデータを生み出すことで、客観的・機械的な分析を可能とする!

それが計量テキスト分析なのです!



そしてこれを、色んな小説を比較するのに使ってみると、どうでしょう?


「Aさんの小説は『しかし』をよく使うけど、Bさんの小説だと『でも』がよく使われるよね!」

「星をいっぱいもらっている小説のタイトルって、こういう単語を使う傾向にあるみたい!」

「反対に、星をあんまりもらえない小説って、こんな傾向があるっぽい?」


なんてことが見えてきちゃいます。



つまり計量テキスト分析を利用することで、

自分の小説や、人気のある小説を、客観的に見て分析することが可能なのです!



結局、説明そこそこ長くなりましたが!

計量テキスト分析ってこんな感じです!



この計量テキスト分析、

なんとなんと、

無料で公開されているソフトウェアがありまぁす!

(http://khcoder.net/)



あと、私が以前に書いた、

「マニュアルを読まない人のためのマニュアル」もあります。

https://kakuyomu.jp/works/1177354054888396228



意外とハードルは低いので、

ぜひみなさん挑戦してみてください。



次回からは、

「マニュアルを読まない人のためのマニュアル」を書いている時点では思い付いていなかったノウハウや、私自身がやっている分析の報告などをしていく予定です!


よろしくぴょん!

  • Twitterで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る