ノート2.8 カクヨムに不正って存在するの?(★編)

(注意)本作のデータは全て2021年1月19日から20日にかけて取得されたものです。


 ――――――――――――――――


「ついに、カクコン06が閉幕するわね」


 俺――研究所主任研究員マッドサイエンティスト草薙くさなぎタケルが研究室に入っていくと、幼馴染みのとう景子けいこが珍しく真剣な面持ちで話しかけてきた。


「そうだな。本日、2021年1月31日をもって応募受付が終了になる。ただ、読者選考は2月7日まであるから、まだ戦いは終わっていない」

「タケル君は何か読みにいったの?」

「興味のある作品はいくつもある。が、分析に忙しく読みに行く暇が――」

「言い訳しない。読みなさい。そして評価しなさい。どぅーゆーあんだーすたんど?」

「はい……。評価と言えば、ケイコちゃんはどんな基準で入れる星の数を決めてるの?」

「私の基準は簡単よ。入れるときは★3。それ以外無いわ」

「ほぅ。その心は」

「だって、『書き手』の人は★1とか★2はあまり嬉しくないって聞いたことあるもの」

「そんなこと考えてたのか。確かにそう言う人もいるけど、大部分は星を入れてくれる行為自体を喜んでると思うけどなぁ」

「そうかしら」

「俺は結構★1とかでも入れちゃうね。もうちょっとこうすれば良くなるのになー、でも面白かったし★入れとこうとか、この『書き手』はもっと面白い作品を書けるはずだし応援の意味で★付けとこう、みたいな」

「いろんな考え方があるのね」

「1つだけ許せない行為があるとすれば、それは『ろくに中身を読んでないのに星を付ける行為』だろうな。これはもう『書き手』を冒涜してるに等しい」

「そんなことをする人がいるとは信じられないけど、あり得ない話じゃないもんね」

「ただ、この話は前回の研究ノートで決着がついている」

「え、そうだっけ」

「おすすめレビュー数――星を付ける人数に注目したとき、PV数が多い作品群ではカクヨム全体を揺るがす程の不正は起こっていないと『ベンフォードの法則』を使って明らかにしたぞ。つまり、仮にそんな人がいたとしても全体にはほとんど影響を及ぼしていないと言うことだ」

「えーっと、タケル君」

「なに?」

「ベンフォードの法則って何だっけ?」

「はぁ……しょうがないなぁ。まずはベンフォードの法則のおさらいだ。この法則は、『べき乗則』などの条件下で現れる数字の 1 桁目だけに注目したとき、その出現確率が下の表に従うというものだ」


 ――――――――――――――――

 ベンフォードの法則:1桁目の数字 d に対する存在確率分布

 ――――――――――――――――

 d = 1(1桁目が1)が出る確率:30.10%

 d = 2(1桁目が2)が出る確率:17.61%

 d = 3(1桁目が3)が出る確率:12.49%

 d = 4(1桁目が4)が出る確率:9.69%

 d = 5(1桁目が5)が出る確率:7.92%

 d = 6(1桁目が6)が出る確率:6.69%

 d = 7(1桁目が7)が出る確率:5.80%

 d = 8(1桁目が8)が出る確率:5.12%

 d = 9(1桁目が9)が出る確率:4.58%

 ――――――――――――――――


「この表はいつ見ても不思議なのよねー」

「直感に反する結果だからな。そう思うのも仕方がない。

 さて、復習を続けるぞ。前回の研究ノートでは、★0 を除いた130,197 作品を調べたときにベンフォードの法則に従ってということを明らかにした。その結果を再掲しておこう」


 ――――――――――――――――

 ★:数字 d に対する出現個数と割合

 対象:★0 を除いた 130,197 作品

 比較:実際の出現確率 vs 理論値

 ――――――――――――――――

 d = 1:32,193個 24.73% vs 30.10%(誤差:-5.38%)

 d = 2:19,863個 15.26% vs 17.61%(誤差:-2.35%)

 d = 3:31,664個 24.32% vs 12.49%(誤差:11.83%)

 d = 4:8,995個 6.91% vs 9.69%(誤差:-2.78%)

 d = 5:8,698個 6.68% vs 7.92%(誤差:-1.24%)

 d = 6:12,628個 9.70% vs 6.69%(誤差:3.00%)

 d = 7:4,911個 3.77% vs 5.80%(誤差:-2.03%)

 d = 8:4,880個 3.75% vs 5.12%(誤差:-1.37%)

 d = 9:6,365個 4.89% vs 4.58%(誤差:0.31%)

 ――――――――――――――――

 合計:130,197 作品 (100.00%)

 平均絶対偏差:0.03365 > 0.0060

 ――――――――――――――――


「平均絶対偏差って何だっけ」

「実際の値と理論値の絶対値を取って平均した値だ。この値が 0 なら完全にベンフォードの法則に従っているし、大きかったら理論値と離れていることを示している。

 この研究ノートでは、平均絶対偏差が 0.015 以上のときはベンフォードの法則に従っておらず、0.006 以上 0.015 未満のときはボーダーライン、0.006 未満のときはベンフォードの法則にちゃんと従っているという基準を用いているぞ」

「そうだった。なんとなく思い出してきた」

「一方で、おすすめレビュー数――星をつけた人数については、作品数をPV数によって絞っていった場合、PV数 328 のときに平均絶対偏差が 0.0060 となり、法則に従うということを明らかにした」


 ――――――――――――――――

 おすすめレビューをつけた人数:1 桁目の数字 d に対する出現個数と割合

 対象:PV数 328 以上の 44,972 作品

 比較:実際の出現確率 vs 理論値

 ――――――――――――――――

 d = 1:13,880個 30.86% vs 30.10%(誤差:0.76%)

 d = 2:8,400個 18.68% vs 17.61%(誤差:1.07%)

 d = 3:5,870個 13.05% vs 12.49%(誤差:0.56%)

 d = 4:4,472個 9.94% vs 9.69%(誤差:0.25%)

 d = 5:3,586個 7.97% vs 7.92%(誤差:0.06%)

 d = 6:2,796個 6.22% vs 6.69%(誤差:-0.48%)

 d = 7:2,332個 5.19% vs 5.80%(誤差:-0.61%)

 d = 8:1,998個 4.44% vs 5.12%(誤差:-0.67%)

 d = 9:1,638個 3.64% vs 4.58%(誤差:-0.93%)

 ――――――――――――――――

 合計:44,972 作品 (100.00%)

 平均絶対偏差:0.0060 ≒ 0.0060

 ――――――――――――――――


「これは、星を付ける人数に注目したときに、328 PV以上になると全体として自然な状態に落ち着くことを意味している」

「逆の言い方をすれば、327 PV以下のときは星を付ける人数に偏りが生じていると言うことよね?」

「まぁそうなんだけど、327 PV以下と言うことはそれだけ評価される機会も限られていると言うこと。それだけ分散が大きくなる――つまり、統計的に見て偏るのは仕方がないことだ。重要なのは、たくさん評価されている方に歪みがないと言うことじゃないかな」

「それもそうね」

「さて、ここからが本題だ。

 まずは、今日明らかにしたいことをハッキリさせておこう。テーマは『統計的に見て星は自然な評価になっているのか?』だ」

「うーん、何をしたいのか分かるような分からないような」

「簡単に言えば、PV数で作品数を絞っていったときに★1から★3の選択によるバイアスがずっと残り続けるのか? それとも綺麗に消えて無くなるのか? と言うことかな。

 ある特定の人達がある特定の作品群を不正に評価しまくればそこに分布の歪みが生じるはずで、ベンフォードの法則によってそれを検知できるんだ」

「うーん、いまいちピンとこない」

「データを見ていけば分かると思うよ。

 手始めに、おすすめレビュー数がベンフォードの法則に従う閾値しきいち――328 PV以上の作品に絞ったとき、星に対する 1 桁目の出現分布がどうなるのかを見てみよう」

「分かったわ」


 ――――――――――――――――

 ★:1 桁目の数字 d に対する出現個数と割合

 対象:PV数 328 以上の 44,972 作品

 比較:実際の出現確率 vs 理論値

 ――――――――――――――――

 d = 1:12,936個 28.76% vs 30.10%(誤差:-1.34%)

 d = 2:7,247個 16.11% vs 17.61%(誤差:-1.49%)

 d = 3:7,237個 16.09% vs 12.49%(誤差:3.60%)

 d = 4:3,587個 7.98% vs 9.69%(誤差:-1.71%)

 d = 5:3,158個 7.02% vs 7.92%(誤差:-0.90%)

 d = 6:4,017個 8.93% vs 6.69%(誤差:2.24%)

 d = 7:2,184個 4.86% vs 5.80%(誤差:-0.94%)

 d = 8:2,026個 4.51% vs 5.12%(誤差:-0.61%)

 d = 9:2,580個 5.74% vs 4.58%(誤差:1.16%)

 ――――――――――――――――

 合計:44,972 作品 (100.00%)

 平均絶対偏差:0.0155 > 0.0060

 ――――――――――――――――


「お? ★0を除いただけのときは平均絶対偏差が 0.03365 だったのに、およそ半分になったわ。それに、数字の 3 に対する誤差が滅茶苦茶減ったね」

「そうだね。

 ここで指摘しておきたいのは、おすすめレビューの人数で見ればこのPV数では自然な現象になりつつあるのに、星で見ればまだそうはなっていない、と言うこと。

 つまりこれらのデータから、公開直後やそもそもあまり読まれていない作品に対して『とりあえず★3を付けておこう』というケースが非常に多いと推測される。これがバイアスの効果だ」

「ふむ、なんとなく分かってきたわ。つまりそう言った評価のバイアスが、いっぱい読まれている作品にも起こっているのかを調べようってことね」

「やっと分かってくれたか。さて、次は早くも結論を示すデータになる」

「ごめんね、私の理解が遅くて……」

「PV数は大きく飛んで、今度は 1,968 PV以上のケースを見てみよう」

「本当にジャンプしたなっ!」


 ――――――――――――――――

 ★:1 桁目の数字 d に対する出現個数と割合

 対象:PV数 1,968 以上の 19,702 作品

 比較:実際の出現確率 vs 理論値

 ――――――――――――――――

 d = 1:5,749個 29.18% vs 30.10%(誤差:-0.92%)

 d = 2:3,456個 17.54% vs 17.61%(誤差:-0.07%)

 d = 3:2,784個 14.13% vs 12.49%(誤差:1.64%)

 d = 4:1,869個 9.49% vs 9.69%(誤差:-0.20%)

 d = 5:1,467個 7.45% vs 7.92%(誤差:-0.47%)

 d = 6:1,458個 7.40% vs 6.69%(誤差:0.71%)

 d = 7:1,056個 5.36% vs 5.80%(誤差:-0.44%)

 d = 8:892個 4.53% vs 5.12%(誤差:-0.59%)

 d = 9:971個 4.93% vs 4.58%(誤差:0.35%)

 ――――――――――――――――

 合計:19,702 作品 (100.00%)

 平均絶対偏差:0.0060 ≒ 0.0060

 ――――――――――――――――


「平均絶対偏差が基準の 0.006 になったわね! そっかー。★ですらPV数を増やすとベンフォードの法則に従うのね」

「その通りだ。今回の結論は、『PV数が結構増えれば星の選択バイアスは無くなり、自然な評価になる。カクヨム全体を揺るがすような不正は存在しない』となるな」

「おぉ、なんかすごく安心したわ」

「次のデータは蛇足なんだけど、PV数を1,000PV単位で増やしていったとき、どこで平均絶対偏差が最小になるかを調べてみたぞ」


 ――――――――――――――――

 ★:1 桁目の数字 d に対する出現個数と割合

 対象:PV数 25,000 以上の 5,020 作品

 比較:実際の出現確率 vs 理論値

 ――――――――――――――――

 d = 1:1,487個 29.62% vs 30.10%(誤差:-0.48%)

 d = 2:907個 18.07% vs 17.61%(誤差:0.46%)

 d = 3:643個 12.81% vs 12.49%(誤差:0.31%)

 d = 4:480個 9.56% vs 9.69%(誤差:-0.13%)

 d = 5:394個 7.85% vs 7.92%(誤差:-0.07%)

 d = 6:338個 6.73% vs 6.69%(誤差:0.04%)

 d = 7:286個 5.70% vs 5.80%(誤差:-0.10%)

 d = 8:255個 5.08% vs 5.12%(誤差:-0.04%)

 d = 9:230個 4.58% vs 4.58%(誤差:0.01%)

 ――――――――――――――――

 合計:5,020 作品 (100.00%)

 平均絶対偏差:0.0018 < 0.0060

 ――――――――――――――――


「PV数 25,000って結構な数よね。5,020作品ってことは全体の約 2 パーセントかー。少ないね」

「って思うだろ? 実は、この5,020作品だけでPV数の寡占率はなんと94.34%なんだ。つまり、これらの作品がカクヨムの『読み手』を支配していると言っても過言ではない」

「えぇっ、嘘でしょ! 嘘だと言って!?」

「これがカクヨムの真実だよ。受け入れなきゃ……」




「なんか驚愕の数字も飛び出したけど、とりあえずPV数にも★にも大きな歪みが存在しなくてホッとしたわ」

「安心したところに大変申し訳ないんだが――」

「ん? どうしたの?」

「このシリーズ、まだまだ続くよ」

「えぇ……。この手の話は神経すり減るからマジで勘弁して欲しいんだけど。そんなことより、早くカクコンの作品を読みに行きなさいっ」

「分かった、分かったよ」

「私のお薦めはまずこれね。ヒロインがすっごくカワイイの! 後、これも良かったわー。あっ、これは絶対に外せない。カクヨムはなんで★3しか入れられないのかしら? ★10万個はあげたい気分よ!」

「だ、誰か。ケイコちゃんの暴走を止めてくれ~!」



 ――――――――――――――――

 今日の研究ノートまとめ

 ――――――――――――――――

 ・★についてベンフォードの法則が成り立つかを調査

 ・1,968 PV以上のときにベンフォードの法則が成り立つ=★の選択バイアスが無くなることが分かった

 ・読まれる機会が多い作品の★に関しては、正当な評価になっていると言って良さそう

 ――――――――――――――――

  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る