今年はデータをまとめるかどうか考え中

 去年、乗り掛かった舟とばかりにカクヨムコンデータをまとめました。

しかも毎日……。


 今年はどうしましょう。

 毎日でなければ、できそうですが……先週コロナで倒れたことを思うと不安しかない。


■8月にデータの洗いなおしをしてみた


 以前、近況ノートで報告しましたように、把握している全ユーザーの全作品のステータスチェックをしました。


 チェック前:

 作品数:約32万作品

 作者数:約8万2000人


 チェック後:

 作品数:約31万作品

 作者数:約7万5000人


 そう、いつの間にか7000のアカウントが退会していたのです。ここでユーザーではなくアカウントといっているのは、出たり入ったりを頻繁に繰り返している(ルール違反ではないけど、気ままな自由人ですな(^^;)方もいますので、アカウントと呼ぶべきかと。


■全数チェックは困難。ではどうするか


 毎回書いてますが、欲しい情報は12月1日12:00のデータです。この時刻ピッタリにデータを取得することは不可能ですから、直近のデータを取得して補間する必要があります。カクヨムのデータベースさえ読めれば、悩む必要はないのですけどムリなものはムリ。


 といって7万5000の作者と31万の作品を全数チェックすると、ザックリいって250時間かかるわけです。データ収集はパソコンを操作している時間に限って(トラブル対応のため)いますから、日数にするとやはり3週間程度は必要なのです。取得開始と終了までの時間が開くと無意味とまではいえませんが、データとしての価値は低下します。


 考えられる対処方法は、


・過去のカクヨムコンに参加した作者のデータを優先して取得

・直近(3か月とか?)に活動している作者のデータを優先して取得

・処理の分散化(複数のサーバーで深夜に実行。あまり乗り気ではない)


 あたりですかね。とにかく取得範囲を絞りに絞って、2日に1度程度の頻度で巡回できるようにするのが理想です。


■非公開作品のデータが取れない


 これも悩みのタネ。そんなの当たり前じゃんと言われそうですが、ここ1か月の間に公開→非公開となった作品が8000作ほどあるのです。普段の非公開作品数はこれほど多くありません。


 つまり、改稿を経てコンテストに応募してくる「見込み作品群」と想像することができますので、これらのデータも欲しいんですよねぇぇ。頭痛い(>_<)



 より良い方法がないか、もう少し頭をひねってみます。

  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る