前のエピソード――5. 統計が示す以上のことを言う

B：この調査によると、高齢になるほど犬が好きな傾向がある。60代の犬好きの割合はほかの年齢に比べて最も高い。

　統計というのは数字の塊である。故に、切り分け方によって様々な結果を提示することができる。それらは、新しい知見を得るのに役立つときもあれば、ただの出鱈目に過ぎないときもある。

　例文は一見妥当そうに見える。だが、Bが基づくデータがこういう結果だったとしたらどうだろうか。

【犬好きの割合】

20代：30%

30代：25%

40代：23%

50代：31%

60代：43%

70代以上：24%

　これを果たして、「高齢になるほど犬好きの傾向がある」などと言うだろうか。割合としては、30代と40代で低下したものが50代で上昇し、60代でピークになってまた下がっている。ここから年齢と割合の関連を見出すのは難しい。

　だが、Bは60代が最大であるという部分だけを都合よく切り取り、ほかの年齢での割合の動きを無視して論じている。前の節で説明した、「統計が示す以上のことを言う」の1パターンである。

　このような都合のいいピックアップは、心理学研究の世界でも問題となっている。例えばこのような事例である。

B：年齢と猫が好きだという態度の間には相関がある。故に、年齢が上がると動物が好きになる可能性がある。

　これだけ見るとそれっぽい。年齢と動物好きとの関連も「可能性」とぼかしている。だが、このデータの裏を見てみよう。年齢とあらゆる動物への態度を調べ、年齢と関係があったのが猫だけだったとしたらどうだろうか。つまり、猿とか蛇とか、大量にいるほかの動物と年齢との関連が全くないなかで、猫とだけ関連があったのだ。

　これを普通、年齢と動物好きに関連があるとは言わない。むしろ、関連がないことの証拠と言える。

　でも、少なくとも猫と関連があったとは言えると思うかもしれない。だが、それも疑わしい。

　というのも、有意性の検定にはごくわずかだが、「有意差がないのに有意差があると判断してしまう」可能性があるからだ。なので、今回の例のように何度も有意性検定を行えばどこかで偶然、存在しないはずの有意差が「見つかる」ことがある。

　これを「有意差がある」と言うのは慎重にならなければならない。だが、学者は論文を書かなければいけないので、とりあえず有意差があるところに「なぜ有意差があるのか」というストーリーを捻り出して論文を書きがちである。少なくとも、昔はそうだった。

　重要なのは、データはいざ取ろうと思えばいくらでも取ることができるし、そのデータの分析方法は無数にあるので、どんなデータからでも自説に都合のいい結果を見つけ出すことは決して不可能ではないということだ。

　だが、そのようなデータの扱い方は適切ではない。弄り回しすぎたり変なところで切り取ったデータは現実の正確な反映にならないからである。