第2話 5000文字仮説を立てました

私が計量テキスト分析と出会ったのは、去年、2018年の10月でした。

そこから、腱鞘炎との戦いが始まったのです……!


腱鞘炎って、具体的に言うと、右手の人差し指ですね。

ここを何度か故障寸前までやられています。

故障寸前なので、ガチの腱鞘炎にはなってません。

一日安静にしていれば痛みは消える、って程度の被害で済んでいます。


それでもまあまあ痛いんですよね。


なんでそんなことになるかって言いますと、

マウスの使いすぎ(クリックのしすぎ)です。



計量テキスト分析するために、まず文章データを取得しなきゃいけません。

文章データって要するに小説ですよね。

あとはレビューとか応援コメントとかを集める時もあります。


それを延々コピーしてはペースト、コピーしてはペーストってやっているんですよ。

何時間もそんなことしてりゃあ、それは指もおかしくなりますわ!



腱鞘炎の対策もまた、計量テキスト分析の効率化には必要でした。


腱鞘炎サポーターを、手が痛くなる前から使って予防するとか。


左右の手どちらでも使えるマウスを使って、

「フッフッフ、右手がやられたか……。だがヤツは四肢の中でも最弱」

ってな感じで左手にチェンジするとか。



そんな様々な対策を経て、

今では自作ツールを活用することでクリック回数を激減させるところまで来ています。


それによって手への負担はかなり減りましたが、まだ問題があります。

そもそもの作業量が多いせいで、作業時間がかかりすぎることです。


最近では100作品とか200作品とかデータを集めて分析することもしています。

身近な例で言うと、カクヨムコン4の中間選考に残った長編は256作品もあるそうです。

ひえ~~~。



っちゅーわけで、

なんとか作業の効率化ができないだろうか?


と考えていたんですけども。

そこで思い付いたのがこちら!

じゃん!



1作品につき5000文字だけ集める~~!!



カクヨムでは大体、1話が3000文字前後の作品が多い印象です。


なので最初の2話ぐらいをコピペすれば、

4000~6000文字になるんじゃね?

って考えなんですね。


これによって作業量が大幅に減ります。



なんで5000文字なのかってところなんですけども、

5000という数字には根拠はありません。



でも発想としては、


・ウェブ小説は序盤が重要

・現状、感情分析ができない


ってところにあります。



ウェブ小説って、最初の方がつまらなかったら、最後まで読みませんよね?

いつでも読むのやめられるわけですよ。


読者がそういう読み方をしているって想定したら、

序盤の方がよりデータとして重要性があると考えられるんじゃないの?


ということを思ったんですね。

序盤に加えて、タイトルやあらすじ、キャッチコピー。


そこらへんがウェブ小説のカギを握っている。

と仮説を立てたために、最初の5000文字となるわけです。



もう1つが、感情分析ができないって点ですね。

文章がポジティブな内容なのか、ネガティブな内容なのかっていう分析です。


これを高精度で小説に対して行えればいいんですけどもねー。

現状、私の手元にはその環境がないです。

模索中って感じなんですねー。


ってなわけで、ストーリーを分析する必要もない(そもそもできない)ので、

最初の5000文字でオッケーと。



実際にそれで分析してみてどうなの?

ってことについては、

まだ実行できていないのでしばしお待ちを!

  • Twitterで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る