分析に魅せられて地獄を見る話

ベストセラーコードをみんなで読もう

計量テキスト分析を極めるとどうなるのか?

それは「ベストセラーコード」という書籍を読むとわかります。


「ベストセラーコード」とは、

アメリカで行われている研究について書かれた本です。


要するに、

ベストセラーを大量に分析してみたよ、

っていう本です。


さらに売れた作品とそうでない作品を比較するために、

ベストセラーにならなかった小説もデータとして用いています。


使用した小説の数は、なんと5000冊弱だそうです。

とんでもない数ですよね。


しかもこの研究では、

より深く分析するために、人工知能を使っているんです。

羨ましい!



・5000冊弱のデータを扱う

・人工知能に学習させる


この2点で、個人の分析環境とははるかにレベルが違いますね。

ちゃんとした研究だからこそできることと言えそうです。



私も大量のデータを用いて分析を試みています。

でもノートパソコン1台の私の環境では、5000作品なんて無理な話です。


現在、私がKH Coderで分析した最大数は300作品です。


その300作品も、10万文字を目安にして文章を途中で切っています。

際限なく集めると、1作品で50万文字とかあったりして、データ量が跳ね上がってしまうので。


そうやってサイズを小さくした作品群を分析するだけでもかなりの時間を必要とします。

KH Coderで前処理をするだけで6時間ほどかかりました。


しかもこれは、成功した時にかかった時間が6時間という意味です。

途中でエラーが起きたりして何度もやり直す羽目になっています。


何時間も待ってエラーが出た時の精神的ダメージは凄いです。泣きます。


前処理さえできてしまえば、その後の処理にかかる時間なんて微々たるものではあるんですけども。

それでも通常の時よりかは動作が重いし時間もかかります。



そんなわけで、めちゃくちゃ本格的な分析って、個人には手が届かないんですよね。

でも、ベストセラーコードには分析の結果が紹介されています!


それなら読むっきゃないですよね!



ちなみに私は、

「ベストセラーコードのデータを前提にすることで、なにか分析ができないか?」

ということを考えています。


先述のとおり、ベストセラーコードで行われている分析は、個人に真似できるものではありません。


大量の作品を用意して、それを人工知能に学習させて、

それでもって売れる小説か否かを判定するなんて。

そんなこと、できないわけですよね。



でも、

ベストセラーコードで示された情報を参考に分析することなら、個人でも可能なんじゃない?

って思っています。


たとえばベストセラーコードでは、

『派手な動詞でむやみに飾り立てる必要はない。』

と書かれています。


この情報をとりあえず信頼してみて、

それで分析をすることは可能なはずです。

この場合は、

「派手な動詞をどのくらい使っているか?」

「逆に、派手じゃない動詞(=シンプルな動詞)はどれくらいか?」

をコーディングルールを活用して調べればいいわけですね。


コーディングルールでどのような語を使うかは悩みどころですが、

人工知能を用意するよりかは簡単でしょう。



自分で分析をするかどうかを別にしても、

計量テキスト分析という観点から様々な情報を示してくれているのが、

ベストセラーコードです。


コンピューターを用いた分析を信頼するよ、

っていう考えの方には是非とも読んでいただきたい本ですね。

  • Twitterで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る