• 創作論・評論
  • 現代ファンタジー

カクヨムが計量テキスト分析にめちゃくちゃ向いている小説投稿サイトだった

計量テキスト分析ができる無料ソフトウェアの「KH Coder」。
このソフトに分析してもらうには、それ用に文章データを整理しないといけません。

具体的には、エクセルファイルの形にするわけですね。

で、この作業が面倒に感じる人も多かろうと思いまして、
アドレスを入力したら、あとは文章を取得してエクセルファイル化してくれるプログラムを作ってみました。


そのプログラムを作る過程で、わかったことがあります。
それは、カクヨムのサイトの作りが、計量テキスト分析しやすいように出来ているってことです。


まぁ、正直な言い方をすると、
「小説の文章をツールで自動的に取得するのが、気楽かつ簡単にできる」
という意味なんですけどね。


カクヨムから小説の文章を持ってくるプログラムは、元々自分用としてそこそこ開発していたこともあって、一般公開版もすぐに完成しました。

で、カクヨムで文章取れるようになったからって、そこで終わりじゃないんですよ。
カクヨム用のプログラムが完成したら、こう思うわけです。

「カクヨム以外の小説投稿サイトからも文章引っ張ってきたいなあ……」


カクヨム用のプログラムのコードを流用して、それぞれのサイト用に細かい部分をいじれば、他の小説投稿サイトにも対応できます。
そういう理屈で、作業をしていました。

……のですが。
いくつかの小説投稿サイト用にプログラムを作って、動かしてみて、それでわかったんですけど。

カクヨムほど上手くいかねえ!!


というわけで、具体的にどのサイトで、どのように上手くいかなかったのか紹介します。



サイト1・小説家になろう

小説投稿サイトといったら、ここをイメージされる方は多いと思います。
そういう大手のサイトってことで、当然真っ先にここ用のプログラムを開発しました。
開発自体には成功しました。
Nコードを入力すれば、その小説の全文を持ってこれます。

でも致命的な問題が残りました。
それは、PV数が増えてしまう問題です。
カクヨムの場合、そのようなことは起こりません。

おそらくPV数が増えたところで、小説家になろうのランキングには影響しないと思います。
でもプログラムのことを知らない作者様に「なんかアクセス数が急激に伸びた!」とぬか喜びさせてしまう危険性はあります。

小説家になろうは非常にたくさんの人が利用されているサイトなので、
私のプログラムを一般公開すると、どこまで被害が広がるかわかりません。

これはちょっと可哀想だと思ったので、プログラムの一般公開はしない方針でいます。
私自身、使用は控えようと思っている所存です。



サイト2・アルファポリス

カクヨムの作品のあらすじを見ると、
「アルファポリスにも掲載しています」
って記述をしばしば見かけます。

投稿サイトで人気の出た小説や漫画を書籍化して大きくなった会社で、上場もしているんですね。
なのでここも大手という扱いをされるイメージがあります。

ここはサイトの作りがカクヨムとはかなり違っています。

小説のページ自体には、小説の文章は保存されていません。
別の場所に文章が保存してあります。
私たちが普通にブラウザを使って小説のページにアクセスすると、その保管場所から文章を読み込んでくる仕組みになっています。

こういう仕組みになっていると、ツールからでは文章を取得できないんですね。
やりようはあるんでしょうけど、素人の私でも書けるような簡単なプログラムでは難しいです。

ってなわけでアルファポリスの場合、そもそもの文章の取得に失敗した、ということです。


さらにアルファポリスは小説ページでは右クリックが禁止されていて、コピペができないように対策されているようです。
なので手作業でもコピペは難しく、個人の利用者が計量テキスト分析をするのには向かないサイトです。

さらにさらに、利用規約も厳しめで、私的利用だろうがなんだろうが、サイト上のデータを持っていくことを歓迎していません。

ですから計量テキスト分析的には、ここのサイトは利用できません。
非常に残念です。



サイト3・マグネット!

ここは新しめのサイトです。
投げ銭に似たシステムを持っていて、ポイントで遊びながら読書できるのが魅力的に感じています。

このサイトもアルファポリスと同様、サイトの作りの関係で文章が取得できません。




そういうわけで、
PV数が増えることもなく、文章のコピペもできるカクヨムは、私にはとてもありがたいサイトなのでした。

カクヨムには、レビューとか応援コメントとか、読者の感想を書く場所も充実していて、そこも分析対象にできる利点もあります。
なのでこれまでどおりカクヨムに軸足を置いて、小説の計量テキスト分析を広めていきたいなあと思いました。

今回開発したプログラムも、マニュアルを書いたり微調整したりが済んだら公開予定です。

コメント

コメントの投稿にはユーザー登録(無料)が必要です。もしくは、ログイン
投稿する