ノート2.7 カクヨムに不正って存在するの?(おすすめレビュー数編)
(注意)本作のデータは全て2021年1月19日から20日にかけて取得されたものです。
――――――――――――――――
「タケル君、続きをはよっ!」
俺――
「ちょっと、落ち着けって!」
「これが落ち着いていられる? タケル君がカクヨムの不正を暴けるなんて言うから、私は夜もおちおち眠れず、昼間に思いっきり爆睡してしまったわ!」
「待て待て……って言うか、ちゃんと寝てるじゃないか。
後、俺は『暴ける』なんてことは一言も言ってないぞ。不正があるかもしれないことを統計的に調べられると言っただけだ。まるでカクヨムに不正があるかのような言い草はやめてくれ。
それに、PV数で不正は無いようだと突き止めたじゃないか」
「PV数だけよ」
「まぁ、確かに」
「次は当然★よね?」
「そのつもりだが、まずは今までのおさらいをしよう。ケイコちゃんはベンフォードの法則を覚えてる?」
「えーっと――忘れました」
「じゃぁ復習だ。この法則は、数字の1桁目を抜きだしてその出現数を数えていったとき、1~9の間の数字 d が出る確率が下の表に従うというものだった」
――――――――――――――――
ベンフォードの法則:1桁目の数字 d に対する存在確率分布
――――――――――――――――
d = 1 が出る確率:30.10%
d = 2 が出る確率:17.61%
d = 3 が出る確率:12.49%
d = 4 が出る確率:9.69%
d = 5 が出る確率:7.92%
d = 6 が出る確率:6.69%
d = 7 が出る確率:5.80%
d = 8 が出る確率:5.12%
d = 9 が出る確率:4.58%
――――――――――――――――
「あー、思い出してきた。サイコロの目のように等確率かと思ったら、1から3の数字だけでなんと50%以上になっちゃうという不思議な法則なのよね。
そうそう、タケル君は『身近な数字はベンフォードの法則に支配されている』って言ってたけど、ちょっと疑問があるの」
「何?」
「普通に考えると、平均身長とかテストの点数とかには当てはまらないんじゃない? だって、身長だとほとんど『1』ばっかり出るだろうし、逆にテストの点は『1』が出るのなんてなかなか無いじゃない?」
「いいところに気がついたね。実は、どんな数字の集合にもベンフォードの法則が適用できるわけじゃないんだ。
ここで、ベンフォードの法則が現れるものと現れないものとをハッキリさせておこう。まず、平均身長やテストの点数と言った『正規分布』に従う確率変数に使うことは出来ない」
「えーっと、確か山なりのグラフになるような奴だっけ」
「その通りだ。そして、ベンフォードの法則が現れるものの1つが『べき乗則』だ」
「なななんと……。もしかして、『カクヨム小説の基本』編で『べき乗則』をひたすら連呼してたのは、このための伏線だったの!?」
「まぁ、そう言うことになるね」
「マジでか……」
「ただし、気を付けなければならないことがある。それは、数字の集合に制約が加わると分布が歪められて、ベンフォードの法則が成り立たなくなる場合があるんだ」
「制約?」
「例えば、PV数に対してベンフォードの法則が成り立っているか調べるときに『20PV以上の作品だけ使おう』みたいに制約を加えてしまうのはNGだ。
例を見た方が早いだろう。前回紹介したベンフォードの法則が成り立っている例と、20PV以上に制限した場合の例を見比べて欲しい」
「どれどれ……?」
――――――――――――――――
PV数:ベンフォードの法則が成り立つ例
対象:0 PVを除いた全作品(212,134 作品)
比較:実際の出現確率 vs 理論値
――――――――――――――――
d = 1:64,274個 30.30% vs 30.10%(誤差:0.20%)
d = 2:37,796個 17.82% vs 17.61%(誤差:0.21%)
d = 3:26,567個 12.52% vs 12.49%(誤差:0.03%)
d = 4:20,535個 9.68% vs 9.69%(誤差:-0.01%)
d = 5:16,931個 7.98% vs 7.92%(誤差:0.06%)
d = 6:13,955個 6.58% vs 6.69%(誤差:-0.12%)
d = 7:12,096個 5.70% vs 5.80%(誤差:-0.10%)
d = 8:10,505個 4.95% vs 5.12%(誤差:-0.16%)
d = 9:9,475個 4.47% vs 4.58%(誤差:-0.11%)
――――――――――――――――
合計:212,134 作品 (100.00%)
――――――――――――――――
――――――――――――――――
PV数:ベンフォードの法則が成り立たない例
対象:20 PV以上(144,333 作品)
比較:実際の出現確率 vs 理論値
――――――――――――――――
d = 1:32,415個 22.46% vs 30.10%(誤差:-7.64%)
d = 2:32,459個 22.49% vs 17.61%(誤差:4.88%)
d = 3:21,483個 14.88% vs 12.49%(誤差:2.39%)
d = 4:15,620個 10.82% vs 9.69%(誤差:1.13%)
d = 5:12,166個 8.43% vs 7.92%(誤差:0.51%)
d = 6:9,549個 6.62% vs 6.69%(誤差:-0.08%)
d = 7:8,098個 5.61% vs 5.80%(誤差:-0.19%)
d = 8:6,782個 4.70% vs 5.12%(誤差:-0.42%)
d = 9:5,761個 3.99% vs 4.58%(誤差:-0.58%)
――――――――――――――――
合計:144,333 作品 (100.00%)
――――――――――――――――
「うわっ、思った以上にズレるのね」
「でしょ? だから、作品数を絞ってベンフォードの法則を適用するときには注意を払わないといけない。少なくとも、調べる対象の数字で制限しちゃダメだ」
「なるほど、分かったわ」
「さて、ここからは星のデータに対してベンフォードの法則が成り立つかどうかを見ていこう」
「いざその時となると緊張するわね」
「ノートがいっぱいっぱいなんで早速見せちゃうね」
「え、ちょっと、まだ心の準備が――」
――――――――――――――――
★:数字 d に対する出現個数と割合
対象:★ 0 を除いた 130,197 作品
比較:実際の出現確率 vs 理論値
――――――――――――――――
d = 1:32,193個 24.73% vs 30.10%(誤差:-5.38%)
d = 2:19,863個 15.26% vs 17.61%(誤差:-2.35%)
d = 3:31,664個 24.32% vs 12.49%(誤差:11.83%)
d = 4:8,995個 6.91% vs 9.69%(誤差:-2.78%)
d = 5:8,698個 6.68% vs 7.92%(誤差:-1.24%)
d = 6:12,628個 9.70% vs 6.69%(誤差:3.00%)
d = 7:4,911個 3.77% vs 5.80%(誤差:-2.03%)
d = 8:4,880個 3.75% vs 5.12%(誤差:-1.37%)
d = 9:6,365個 4.89% vs 4.58%(誤差:0.31%)
――――――――――――――――
合計:130,197 作品 (100.00%)
――――――――――――――――
「3の誤差が12%もある……。これは見た目からしてベンフォードの法則に従っていないのは明らかだわ……」
「まぁそうなんだけど、ベンフォードの法則に従っているかどうか統計的にちゃんと検証しよう」
「どうするの?」
「今回は最も簡単な方法である『平均絶対偏差』を使う」
「平気、絶対返済!」
「……ケイコちゃん、借金でもしてるのか?
それはともかく、平均
(|0.2473-0.3010| + |0.1526-0.1761| + …… + |0.489-0.458|) ÷ 9
= (0.0538 + 0.0235 + …… + 0.0031) ÷ 9 = 0.0337
「誤差の数字からプラスとマイナスを取っ払って、その平均値を求める感じ?」
「まさしくその通りだ。そして、得られた 0.0337 という数字の大小を見ることによってベンフォードの法則に従っているかどうかを判定するぞ。
ある論文(※)によると、概ね 0.006 以下だとちゃんと法則に従っているけど0.015 以上は法則に従っていないと判定することが多いようなので、ここではこの基準を採用しようと思う」
「この場合は 0.015以上だから、やっぱりベンフォードの法則には従ってないという結論になるわね」
「そう言うことになるな」
「これはどう解釈すればいいの? やっぱり不正はあるのかしら……」
「そんな泣きそうな声で言わないでよ。実は、もう1つ見て欲しいデータがあるんだ」
「え? ★以外に何が必要だって言うの――」
――――――――――――――――
おすすめレビューをつけた人数:1 桁目の数字 d に対する出現個数と割合
対象:レビュー 0(★ 0)の作品を除いた 130,197 作品
比較:実際の出現確率 vs 理論値
――――――――――――――――
d = 1:54,722個 42.03% vs 30.10%(誤差:11.93%)
d = 2:26,710個 20.52% vs 17.61%(誤差:2.91%)
d = 3:15,216個 11.69% vs 12.49%(誤差:-0.81%)
d = 4:10,187個 7.82% vs 9.69%(誤差:-1.87%)
d = 5:7,439個 5.71% vs 7.92%(誤差:-2.20%)
d = 6:5,453個 4.19% vs 6.69%(誤差:-2.51%)
d = 7:4,247個 3.26% vs 5.80%(誤差:-2.54%)
d = 8:3,462個 2.66% vs 5.12%(誤差:-2.46%)
d = 9:2,761個 2.12% vs 4.58%(誤差:-2.46%)
――――――――――――――――
合計:130,197 作品 (100.00%)
平均絶対偏差:0.0330 > 0.0060
――――――――――――――――
「おすすめレビューをつけた人数? どういうこと?」
「星を入れた人数のことだ。星は人によって 1 から 3 を選べるけど、入れられるのは 1 作品 1 回だけだからな」
「あー、なるほど! これを使えば★のバイアスがかからない状態を考えることが出来るのか! ……でも、これも法則には従ってないように見えるけど?」
「そうだな。表の通り、平均絶対偏差は 0.0330 だった」
「ダメじゃん」
「早合点するな。確かに、★ 0 を除いた作品全体で見たら分布が歪んでいる。問題は『どの作品群が分布を歪めているか?』だ」
「検討はついているの?」
「もちろんだ。ここからはPV数で作品数を絞っていくぞ。なお、今調べたいのはおすすめレビューを付けた人数なので、PV数で制限を加えることは問題ないと断っておく。
では、最初に作品を半分に分割するケースを見てみよう。つまり、PV数の中央値 47 以上の作品だけでベンフォードの法則が成り立っているかを確認する」
「どうなっちゃうのかしら……」
――――――――――――――――
おすすめレビューをつけた人数:1 桁目の数字 d に対する出現個数と割合
対象:PV数 47 以上の 89,936 作品
比較:実際の出現確率 vs 理論値
――――――――――――――――
d = 1:32,095個 35.69% vs 30.10%(誤差:5.58%)
d = 2:18,139個 20.17% vs 17.61%(誤差:2.56%)
d = 3:11,243個 12.50% vs 12.49%(誤差:0.01%)
d = 4:8,035個 8.93% vs 9.69%(誤差:-0.76%)
d = 5:6,138個 6.82% vs 7.92%(誤差:-1.09%)
d = 6:4,670個 5.19% vs 6.69%(誤差:-1.50%)
d = 7:3,815個 4.24% vs 5.80%(誤差:-1.56%)
d = 8:3,216個 3.58% vs 5.12%(誤差:-1.54%)
d = 9:2,585個 2.87% vs 4.58%(誤差:-1.70%)
――――――――――――――――
合計:89,936 作品 (100.00%)
平均絶対偏差:0.0181 > 0.0060
――――――――――――――――
「おぉ……? 平均絶対偏差が小さくなった……?」
「うん。まだ 0.015 よりは大きいけど、何も制限を加えていなかったときの 0.0330 と比較すれば大分小さくなったぞ」
「なんか段々分かってきたわ。PV数が少ないと――」
「おっと、結論は俺に言わせてくれよ。だがその前に、PV数 104 以上のケースをお目にかけたい」
――――――――――――――――
おすすめレビューをつけた人数:1 桁目の数字 d に対する出現個数と割合
対象:PV数 104 以上の 69,526 作品
比較:実際の出現確率 vs 理論値
――――――――――――――――
d = 1:23,506個 33.81% vs 30.10%(誤差:3.71%)
d = 2:14,034個 20.19% vs 17.61%(誤差:2.58%)
d = 3:8,995個 12.94% vs 12.49%(誤差:0.44%)
d = 4:6,433個 9.25% vs 9.69%(誤差:-0.44%)
d = 5:4,940個 7.11% vs 7.92%(誤差:-0.81%)
d = 6:3,789個 5.45% vs 6.69%(誤差:-1.24%)
d = 7:3,100個 4.46% vs 5.80%(誤差:-1.34%)
d = 8:2,615個 3.76% vs 5.12%(誤差:-1.35%)
d = 9:2,114個 3.04% vs 4.58%(誤差:-1.54%)
――――――――――――――――
合計:69,526 作品 (100.00%)
平均絶対偏差:0.0150 > 0.0060
――――――――――――――――
「やったわ! 平均絶対偏差が基準の 0.015 ピッタリになった!! 見た目にもいい感じに数字が理論値に近寄ってきたわね」
「さらにPV数を上げよう。328 PV以上ではこうなった」
――――――――――――――――
おすすめレビューをつけた人数:1 桁目の数字 d に対する出現個数と割合
対象:PV数 328 以上の 44,972 作品
比較:実際の出現確率 vs 理論値
――――――――――――――――
d = 1:13,880個 30.86% vs 30.10%(誤差:0.76%)
d = 2:8,400個 18.68% vs 17.61%(誤差:1.07%)
d = 3:5,870個 13.05% vs 12.49%(誤差:0.56%)
d = 4:4,472個 9.94% vs 9.69%(誤差:0.25%)
d = 5:3,586個 7.97% vs 7.92%(誤差:0.06%)
d = 6:2,796個 6.22% vs 6.69%(誤差:-0.48%)
d = 7:2,332個 5.19% vs 5.80%(誤差:-0.61%)
d = 8:1,998個 4.44% vs 5.12%(誤差:-0.67%)
d = 9:1,638個 3.64% vs 4.58%(誤差:-0.93%)
――――――――――――――――
合計:44,972 作品 (100.00%)
平均絶対偏差:0.0060 ≒ 0.0060
――――――――――――――――
「すごいすごいっ! 平均絶対偏差がついに 0.006 になったわ! これはベンフォードの法則に従っていると言っていいのよね? タケル君!」
「もちろんだよ。つまり、おすすめレビューにおいて人数の分布を歪めていたのは、主にPV数の少ない作品群だったんだ。
まず、人間の行動である小説を読みに行くという行為――すなわちPV数は、ベンフォードの法則に従っていた。一方、同じ人間の行為であるはずのおすすめレビューの人数は従っていない。これは、星を入れる人に作為的な意図があると言う統計的な状況証拠だ。あくまで、状況証拠だけどね。
ただし、そのような行為が行われているのは主にPV数が低い作品群――例えば公開直後の作品とか――であることが分かった。
従ってここでの結論は、『PV数が多い作品群にはおすすめレビューを付ける行為自体に大規模な不正は見られない』としたい」
「いやー、それを聞いたらなんか気が抜けちゃった……ちょっとフラフラする……」
「おい、大丈夫か!?」
「いきなり倒れないでくれよ。ビックリしたじゃないか」
「ごめんね」
「無事ならいいんだけどさ」
「……あれ?」
「ん、どうした」
「そう言えば、途中から★の話からおすすめレビューの人数に話がすり替わったわよね」
「……む、気がついたか」
「ちょっと、まだ全然終わってないじゃない!」
「と言うことで、まだまだ続くよ」
「えぇー、嘘ーっ!!」
――――――――――――――――
今日の研究ノートまとめ
――――――――――――――――
・★をつけた人数についてベンフォードの法則が成り立つかを調査
・統計的には 328 PV 以上のときにベンフォードの法則が成り立っていると言えそう
・328 PVまではいわば『★のハネムーン期間』、本当の勝負はそこからだ!
――――――――――――――――
(※)M. J. Nigrini and L. Mittermaier: The Use of Benford’s Law as an Aid in Analytical Procedures, Auditing-a Journal of Practice & Theory, Vol. 16, No. 2, pp.52-67, 1997.
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます