第3話 タイトルとあらすじと5000文字
5000文字前後に限定して収集したらどうか?
っていうことを試しています。
結論から言います!
ベリー良かったです!
大きなメリットは、
・文章データを収集する作業時間の削減
・KH Coderでの処理にかかる時間の削減
の2つです。
要するに、めちゃくちゃ時短になるってことですね!!
前は10万文字前後を目安に収集していました。
コンテストでは長編小説なら10万文字ぐらいというのが通常なので、
それに合わせたんですね。
でも、1作品につき10万文字程度、それを200作品とか300作品とか集めるとなると、作業にめちゃくちゃ時間かかります。
KH Coderが前処理の作業をする際には、8時間ほどパソコンを放置しなきゃいけなかったこともあります。
私のパソコンのスペックが低いせいってのもあるんでしょうけど、それでもデータ量が多くなれば自然と処理にかかる時間だって増えてしまうわけです。
日常的に行う分析で、データを新しく集める度に何時間も待たされるのでは、やる気も無くなります。
で・す・が!
5000文字前後を目安にして集めてみたら、
前処理が15分そこらで終わっちゃったんですよ。
これはやばいですよ!
この5000文字方式、
データ量が少なくなる分、取り回しやすいです。
・たくさんのデータをストックして、使い回す
・とにかく色んなデータを比較する
ってことが圧倒的にしやすいんですね。
最高でした!
5000文字で不安なら、1万文字に拡大してもよさそうですね。
200作品ぐらいなら前処理にかかる時間は1時間超えないと思います。
あとデータ量が少ないながらも、有益な情報が得られそうで目をつけているのが、
「タイトル」と「あらすじ」です。
特に、あらすじは面白いですねー。
そのジャンルで流行っているものは、ランキング上位の作品のあらすじを分析すれば大体把握できます。
で、タイトルとあらすじを見れば、
「たぶんこれが流行っているんだろうな」ってキーワードがぽろぽろ見つかります。
それらのキーワードを基にして物語のコンセプトを決めれば、
人の目につきやすくなるんじゃなかろうかと。
それと、まだこういう分析始めたばかりなので、
投稿サイトごとの文化の違いなんかも、あらすじ欄から見れて面白いですね。
カクヨムの他に、エブリスタの作品の文章データも集めてみたんですけどね、
エブリスタには「誤字を指摘するコメントは、直した後に消す」って文化があるっぽいんですね。
で、トラブルを避けるために、あらすじで「真摯に受け止めますが消します」って宣言しておくんです。
あとはカクヨムでも見られる、〇〇PV突破!みたいなのもあったりするんですけど、
「ご愛顧感謝」の表し方もそれぞれのサイトの特色があったりするのかもしれないですね。
まぁ、
そんな感じで文化や流行りがわかったところで、
私はどーにもならんのですけどもね!!
エブリスタなら私の得意な恋愛ものが強いという噂を耳にしたのですが、
調べてみれば、私の得意分野ではない、社会人の恋愛ものが強かったんですね。
私が一番得意のは学生の青臭いやつなので、
探せ!青臭い環境!!
ってな感じです。
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます