前のエピソード――ノート2.8　カクヨムに不正って存在するの？（★編）

（注意）本作のデータは全て2021年1月19日から20日にかけて取得されたものです。

　――――――――――――――――

「ついに新型コロナウィルスのワクチンが国内で承認されたわね」

　俺――研究所主任研究員（マッドサイエンティスト）の草薙（くさなぎ）タケルがカクヨムユーザーのネットワークモデルを構築していると、幼馴染みで研究助手（アシスタント）の塔（とう）景子（けいこ）がスマホのニュースを見ながら呟いた。

「ケイコちゃんはワクチンを接種したいと思う？」

「私はあんまり受けたくないかも」

「まぁ、未知のものをを怖がるのは正常な反応だとは思う。とは言え、自分の安全だけでなく周りの安全にも関わることだし、俺は摂取した方がいいと思うけどな」

「うーん、考えておくわ……」

「海外では不正を働いてまでワクチンを受けたい人もいるらしいし、色んな人がいるもんだ」

「本当ね――その話で思い出した。カクヨムにおける不正の話が途中だったわ！」

「そうだね。前回までの研究ノートでは、PV数、おすすめレビューをつけた人数、星の数について、会計不正等の発見に応用される『ベンフォードの法則』を用いて検証してきた」

「タケルくーん……」

「分かってる分かってる。『ベンフォードの法則』についてさらっと復習だ。この法則は、『べき乗則』などの条件下で現れる数字の 1 桁目だけに注目したとき、その出現確率が下の表に従うというものだ」

　――――――――――――――――

　ベンフォードの法則：1桁目の数字 d に対する存在確率分布

　――――――――――――――――

　d = 1（1桁目が1）が出る確率：30.10%

　d = 2（1桁目が2）が出る確率：17.61%

　d = 3（1桁目が3）が出る確率：12.49%

　d = 4（1桁目が4）が出る確率：9.69%

　d = 5（1桁目が5）が出る確率：7.92%

　d = 6（1桁目が6）が出る確率：6.69%

　d = 7（1桁目が7）が出る確率：5.80%

　d = 8（1桁目が8）が出る確率：5.12%

　d = 9（1桁目が9）が出る確率：4.58%

　――――――――――――――――

「本当にこのパーセントに近づくのよね。摩訶不思議」

「もし、この法則に従っていれば統計的に見て不正は起こってない、従っていなければ何かしらの作為的行為が発生している可能性が高いと言えるぞ。

　さて、今日は応援（♡）数とコメント数に『ベンフォードの法則』を適用した結果を見てみよう」

「2ついっぺんにやるのね」

「ここで、『ベンフォードの法則』に従っているかどうかを判断する基準をおさらいしておく。

　本作では、平均絶対偏差というものを計算したときに、その値が 0.006 以下なら法則に従っているとみなしている。0.006 から 0.015 のときはボーダーライン、 0.015 を越えてしまったときは法則には従っていないとしている」

「平均絶対偏差が何かを忘れた方は、前の研究ノートを見直してねっ」

「それでは、応援（♡）数 0 を除いた作品を対象に『ベンフォードの法則』を適用した結果を示す。こうなったぞ――」

　――――――――――――――――

　♡：数字 d に対する出現個数と割合

　対象：♡ 0 を除いた 159,597 作品

　比較：実際の出現確率 vs 理論値

　――――――――――――――――

　d = 1： 56,476作品 → 35.39% vs 30.10%（誤差：5.28%）

　d = 2： 30,935作品 → 19.38% vs 17.61%（誤差：1.77%）

　d = 3： 20,002作品 → 12.53% vs 12.49%（誤差：0.04%）

　d = 4： 14,463作品 → 9.06% vs 9.69%（誤差：－0.63%）

　d = 5： 10,782作品 → 6.76% vs 7.92%（誤差：－1.16%）

　d = 6： 8,761作品 → 5.49% vs 6.69%（誤差：－1.21%）

　d = 7： 7,160作品 → 4.49% vs 5.80%（誤差：－1.31%）

　d = 8： 5,948作品 → 3.73% vs 5.12%（誤差：－1.39%）

　d = 9： 5,070作品 → 3.18% vs 4.58%（誤差：－1.40%）

　――――――――――――――――

　合計：159,597 作品 (100.00％)

　平均絶対偏差：0.0158 > 0.0060

　――――――――――――――――

　コメント数：数字 d に対する出現個数と割合

　対象：コメント数 0 を除いた 65,793 作品

　比較：実際の出現確率 vs 理論値

　――――――――――――――――

　d = 1： 31,330作品 → 47.62% vs 30.10%（誤差：17.52%）

　d = 2： 12,766作品 → 19.40% vs 17.61%（誤差：1.79%）

　d = 3： 7,029作品 → 10.68% vs 12.49%（誤差：－1.81%）

　d = 4： 4,519作品 → 6.87% vs 9.69%（誤差：－2.82%）

　d = 5： 3,085作品 → 4.69% vs 7.92%（誤差：－3.23%）

　d = 6： 2,384作品 → 3.62% vs 6.69%（誤差：－3.07%）

　d = 7： 1,875作品 → 2.85% vs 5.80%（誤差：－2.95%）

　d = 8： 1,563作品 → 2.38% vs 5.12%（誤差：－2.74%）

　d = 9： 1,242作品 → 1.89% vs 4.58%（誤差：－2.69%）

　――――――――――――――――

　合計：65,793作品 (100.00％)

　平均絶対偏差：0.0429 > 0.0060

　――――――――――――――――

「両方とも 0.015 を越えてるけど、♡の方はかなりボーダーに近いわね」

「そうだな。おすすめレビューをつけた人数のときは平均絶対偏差が 0.0330、星のときが 0.0337 だったことを考えると、両極端の結果となった」

「コメントの偏差が大きい理由は、何が考えられるかしら？」

「1 の数字がやたら大きいことを考えると、公開直後の作品だったり見られる機会が少ない作品にはコメントが付きにくい、コメントされたとしても高々 1 個や 2 個のことが多いということだろう」

「なるほど」

「次に、獲得PV数によって作品群を絞っていったときに平均絶対偏差がどのように変化するかを見てみよう。

　まずは応援（♡）数だ。すでにボーダーラインに近いので、法則に従う基準の 0.006 へ一気に飛ぶことにするぞ」

　――――――――――――――――

　♡：数字 d に対する出現個数と割合

　対象：PV数 12 以上の 134,565 作品

　比較：実際の出現確率 vs 理論値

　――――――――――――――――

　d = 1： 42,783作品 → 31.79% vs 30.10%（誤差：1.69%）

　d = 2： 24,293作品 → 18.05% vs 17.61%（誤差：0.44%）

　d = 3： 17,149作品 → 12.74% vs 12.49%（誤差：0.25%）

　d = 4： 13,256作品 → 9.85% vs 9.69%（誤差：0.16%）

　d = 5： 10,375作品 → 7.71% vs 7.92%（誤差：－0.21%）

　d = 6： 8,602作品 → 6.39% vs 6.69%（誤差：－0.30%）

　d = 7： 7,114作品 → 5.29% vs 5.80%（誤差：－0.51%）

　d = 8： 5,929作品 → 4.41% vs 5.12%（誤差：－0.71%）

　d = 9： 5,064作品 → 3.76% vs 4.58%（誤差：－0.81%）

　――――――――――――――――

　合計：134,565 作品 (100.00%)

　平均絶対偏差：0.0057 < 0.0060

　――――――――――――――――

「PV数 12！？　少なっ！」

「それに対するコメント数は、9,652 PVまで待たないといけない」

　――――――――――――――――

　コメント数：数字 d に対する出現個数と割合

　対象：PV数 9,652 以上の 7,286 作品

　比較：実際の出現確率 vs 理論値

　――――――――――――――――

　d = 1： 2,322作品 → 31.87% vs 30.10%（誤差：1.77%）

　d = 2： 1,328作品 → 18.23% vs 17.61%（誤差：0.62%）

　d = 3： 923作品 → 12.67% vs 12.49%（誤差：0.17%）

　d = 4： 716作品 → 9.83% vs 9.69%（誤差：0.14%）

　d = 5： 572作品 → 7.85% vs 7.92%（誤差：－0.07%）

　d = 6： 451作品 → 6.19% vs 6.69%（誤差：－0.50%）

　d = 7： 363作品 → 4.98% vs 5.80%（誤差：－0.82%）

　d = 8： 342作品 → 4.69% vs 5.12%（誤差：－0.42%）

　d = 9： 269作品 → 3.69% vs 4.58%（誤差：－0.88%）

　――――――――――――――――

　合計：7,286 作品 (100.00%)

　平均絶対偏差：0.0060 ≒ 0.0060

　――――――――――――――――

「それでも最後には『ベンフォードの法則』に従うのね」

「そうだな。結論としては、応援数とコメント数共に、全体を揺るがす程の不正が起こっている可能性は低いと言えそうだ」

「良かったー。安心したわ」

「さぁ、これで今日の研究ノートはおしまいね。気分良く寝られそう――」

「待ってくれ、ケイコちゃん。話はまだ終わっていない」

「え？」

「今日は、さらにPV数を増やしていったときの挙動について議論したい」

「どういうことかしら」

「ケイコちゃんは――そんなことは考えたくないけど――もしカクヨムに不正が起こってるとしたら、それはどんな作品だと思う？」

「いきなりの質問ね。うーん……やっぱり、コンテストで当落線上の作品かしら」

「そう！　つまり、一般的な作品よりはたくさん読まれてるけど、トップには届いていない――そんな作品に不正は起こりやすいと考えられる。

　そこで、作品数を絞る基準に使っているPV数をさらに上げて、よく読まれている作品だけに『ベンフォードの法則』を適用してみたぞ」

「なるほど。それは検証する必要がありそうね」

「まずは、PV数が 500,000 以上の 724 作品を対象にしたおすすめレビュー数、星、応援（♡）数、そしてコメント数の結果を見せよう」

「何かが起こりそうな予感。ちょっと緊張してきたわ……」

　――――――――――――――――

　おすすめレビューをつけた人数：1 桁目の数字 d に対する出現個数と割合

　対象：PV数 500,000 以上の 724 作品

　比較：実際の出現確率 vs 理論値

　――――――――――――――――

　d = 1：194個　26.80% vs 30.10%（誤差：－3.31%）

　d = 2：129個　17.82% vs 17.61%（誤差：0.21%）

　d = 3：94個　12.98% vs 12.49%（誤差：0.49%）

　d = 4：72個　9.94% vs 9.69%（誤差：0.25%）

　d = 5：72個　9.94% vs 7.92%（誤差：2.03%）

　d = 6：42個　5.80% vs 6.69%（誤差：－0.89%）

　d = 7：44個　6.08% vs 5.80%（誤差：0.28%）

　d = 8：38個　5.25% vs 5.12%（誤差：0.13%）

　d = 9：39個　5.39% vs 4.58%（誤差：0.81%）

　――――――――――――――――

　合計：724 作品 (100.00%)

　平均絶対偏差：0.0093 > 0.0060

　――――――――――――――――

　★：1 桁目の数字 d に対する出現個数と割合

　対象：PV数 500,000 以上の 724 作品

　比較：実際の出現確率 vs 理論値

　――――――――――――――――

　d = 1：234個　32.32% vs 30.10%（誤差：2.22%）

　d = 2：127個　17.54% vs 17.61%（誤差：－0.07%）

　d = 3：88個　12.15% vs 12.49%（誤差：－0.34%）

　d = 4：65個　8.98% vs 9.69%（誤差：－0.71%）

　d = 5：48個　6.63% vs 7.92%（誤差：－1.29%）

　d = 6：44個　6.08% vs 6.69%（誤差：－0.62%）

　d = 7：47個　6.49% vs 5.80%（誤差：0.69%）

　d = 8：36個　4.97% vs 5.12%（誤差：－0.14%）

　d = 9：35個　4.83% vs 4.58%（誤差：0.26%）

　――――――――――――――――

　合計：724 作品 (100.00%)

　平均絶対偏差：0.0070 > 0.0060

　――――――――――――――――

　♡：数字 d に対する出現個数と割合

　対象：PV数 500,000 以上の 724 作品

　比較：実際の出現確率 vs 理論値

　――――――――――――――――

　d = 1： 262作品 → 36.19% vs 30.10%（誤差：6.08%）

　d = 2： 135作品 → 18.65% vs 17.61%（誤差：1.04%）

　d = 3： 80作品 → 11.05% vs 12.49%（誤差：－1.44%）

　d = 4： 50作品 → 6.91% vs 9.69%（誤差：－2.78%）

　d = 5： 46作品 → 6.35% vs 7.92%（誤差：－1.56%）

　d = 6： 43作品 → 5.94% vs 6.69%（誤差：－0.76%）

　d = 7： 35作品 → 4.83% vs 5.80%（誤差：－0.96%）

　d = 8： 35作品 → 4.83% vs 5.12%（誤差：－0.28%）

　d = 9： 38作品 → 5.25% vs 4.58%（誤差：0.67%）

　――――――――――――――――

　合計：724 作品 (100.00%)

　平均絶対偏差：0.0173 > 0.0060

　――――――――――――――――

　コメント数：数字 d に対する出現個数と割合

　対象：PV数 500,000 以上の 698 作品

　比較：実際の出現確率 vs 理論値

　――――――――――――――――

　d = 1： 211作品 → 30.23% vs 30.10%（誤差：0.13%）

　d = 2： 112作品 → 16.05% vs 17.61%（誤差：－1.56%）

　d = 3： 96作品 → 13.75% vs 12.49%（誤差：1.26%）

　d = 4： 74作品 → 10.60% vs 9.69%（誤差：0.91%）

　d = 5： 58作品 → 8.31% vs 7.92%（誤差：0.39%）

　d = 6： 46作品 → 6.59% vs 6.69%（誤差：－0.10%）

　d = 7： 37作品 → 5.30% vs 5.80%（誤差：－0.50%）

　d = 8： 32作品 → 4.58% vs 5.12%（誤差：－0.53%）

　d = 9： 32作品 → 4.58% vs 4.58%（誤差：0.01%）

　――――――――――――――――

　合計：698 作品 (100.00%)

　平均絶対偏差：0.0060 ≒ 0.0060

　――――――――――――――――

「あ、♡だけがボーダーを超えて法則に従ってない……」

「そうなんだよ。応援（♡）数以外の平均絶対偏差はボーダーラインに収まっている一方、応援（♡）数は『ベンフォードの法則』に従っていないという結果になった」

「そう言えば、以前の研究ノートの結論では、どの指標も法則に従ってると結論づけてたよね。なんで結果に差が出ちゃってるの？」

「PV数を増やしていけば、分析に使用される作品数が減っていく。PV数が少ない内は『ベンフォードの法則』を乱している読まれていない作品が除外されていくため、平均絶対偏差は小さくなっていく。

　しかし、さらにPV数を上げていくと、当たり前の話だがさらに作品数が少なくなっていく。今度は何が起こるかと言うと、法則が成り立つことに寄与していた作品までもがどんどん除外されていくんだ。

　従って、統計的にバラツキが多くなって法則に従わなくなっていくのは自然の成り行きだ」

「もうちょっと簡単に説明して欲しい……」

「100人の平均身長と、10人の平均身長を統計的に比べたら、100人のデータの方が信憑性が高いってこと」

「あー、なんとなく分かった。それで、具体的に何が問題なの？」

「他の指標に比べて、ハート（♡）の平均絶対偏差だけが異なる推移をしているんだ。下の表を見てくれ」

　――――――――――――――――――――――――――――――

　　　　　　　　　♡　　　★　　おすすめレビュー数　コメント数

　――――――――――――――――――――――――――――――

　　10,000 PV：0.0037 < 0.0043　　　　0.0053　　　　0.0058

　　20,000 PV：0.0065 > 0.0031　　　　0.0024　　　　0.0041

　　30,000 PV：0.0055 > 0.0023　　　　0.0010　　　　0.0036

　　40,000 PV：0.0051 > 0.0040　　　　0.0031　　　　0.0036

　　50,000 PV：0.0045 < 0.0059　　　　0.0050　　　　0.0042

　　60,000 PV：0.0067 < 0.0073　　　　0.0064　　　　0.0041

　　70,000 PV：0.0095 > 0.0085　　　　0.0076　　　　0.0034

　　80,000 PV：0.0132 > 0.0076　　　　0.0068　　　　0.0031

　　90,000 PV：0.0155 > 0.0084　　　　0.0076　　　　0.0031

　　100,000 PV：0.0156 > 0.0092　　　　0.0085　　　　0.0038

　　200,000 PV：0.0175 > 0.0069　　　　0.0075　　　　0.0047

　　300,000 PV：0.0149 > 0.0080　　　　0.0101　　　　0.0076

　　400,000 PV：0.0143 > 0.0107　　　　0.0107　　　　0.0077

　　500,000 PV：0.0173 > 0.0070　　　　0.0093　　　　0.0060

　　600,000 PV：0.0200 > 0.0081　　　　0.0115　　　　0.0090

　　700,000 PV：0.0219 > 0.0102　　　　0.0133　　　　0.0101

　　800,000 PV：0.0261 > 0.0132　　　　0.0121　　　　0.0106

　　900,000 PV：0.0245 > 0.0138　　　　0.0134　　　　0.0093

　1,000,000 PV：0.0240 > 0.0161　　　　0.0153　　　　0.0101

　――――――――――――――――――――――――――――――

「この表の読み方が分からない」

「PV数は今まで通り作品数を絞る基準で、各列はそれぞれの平均絶対偏差を表している。例えば 1 列目は、10,000 PV以上の作品群におけるハート（♡）の平均絶対偏差が 0.0037 であることを表している」

「なるほど。なんか、♡の平均絶対偏差が他に比べてどんどん大きくなっているように見えるんだけど、気のせい？」

「いや、ケイコちゃんの言う通り。他の指標に比べて、ハート（♡）の平均絶対偏差だけが異なる推移をしているんだ。

　星やおすすめレビュー数なども平均絶対偏差は上昇してるけど、その増加率は緩やかだ。一方、ハート（♡）は早い段階からコンスタントに増加し続けている。これは、何かが含まれている兆候だと思われる」

「何か？　何かって何？」

「それは俺にも分からない。更に詳しい検証が必要だ」

「つまり、まだこの話は終わらないのかー……いい加減終わらせたいっ！」

　――――――――――――――――

　今日の研究ノートまとめ

　――――――――――――――――

　・♡とコメントについてベンフォードの法則が成り立つかを調査

　・♡は 12 PV以上で早々とベンフォードの法則が成り立つ一方、コメント数は 9,652 PV以上にならないと従わない＝コメントを書くコストの高さを反映しているようだ

　・しかし、PV数の多い作品数で ♡ だけ異常な値を示しているため、さらなる調査が必要

　――――――――――――――――

作者を応援しよう！

ハートをクリックで、簡単に応援の気持ちを伝えられます。（ログインが必要です）

応援したユーザー

新規登録で充実の読書を

マイページ: 読書の状況から作品を自動で分類して簡単に管理できる; 小説の未読話数がひと目でわかり前回の続きから読める; フォローしたユーザーの活動を追える
通知: 小説の更新や作者の新作の情報を受け取れる
閲覧履歴: 以前読んだ小説が一覧で見つけやすい

カクヨムで可能な読書体験をくわしく知る

次のエピソードノート2.10　イメージカラーで読まれやすさや評価は変わるの？

作者を応援しよう！

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

文字サイズ

背景色

フォント

組み方向

応援の気持ちを届けよう

フォロー機能を活用しよう

フォロー機能を活用しよう