データ問題の基礎
「今日はデータ問題の基礎だけを教える。」
「なんで基礎だけなんですか。僕データ問題はできる時もあるから、それよりも苦手な確率とか…」
「基礎の理由だけ教える。理由がわかれば少しは覚える気になるだろ?」
今日の授業は短めです。
データの基礎。
データといってもそれは統計の基礎となることなので、もし将来データを分析する必要のある銀行員とか、開発者とか、研究者とか、そういった方になるのなら、必須です。
理由がわかれば少しは覚えやすいと思います。
「まずは平均から。」
「全部足した数値を人数で割ります。
全員が同じ数値をとっていたとしたら、だいたいどのくらいかを示します。」
「そうなんだ。テストでも平均点ってあるから、これはみんなよく知っているよな?
だけど、知ってるか?平均ほどデータを無意味にする数値もない。
それは例えばテストの平均点を見れば、全体の出来が良かったか悪かったかはわかるが、もしかしたらできる子とできない子の差が激しかったのかもしれないし、全員の出来が良かったのに一人が0点を取って足を引っ張っているのかもしれないし、実は全員の出来は悪かったが、一人100点満点のところを1000点取った天才がいるかもしれない。…まあ、それはないが。
テストだからないのであって、例えばこれが『年収』だったら?
日本みたいな一億総中流の国でも、
99%が食べるのにも困ってもちろん医療も教育も受けられないような貧困家庭だが、残り1%がお手伝いさんを何人も雇っているような豪邸に住んでいる大富豪だ、という国でも、
平均値は同じになる。」
「ええ。まあ、そうですね。でも、平均は悪いことじゃないですよ。全体としての量がだいたいはわかるじゃないですか。一人一人の年収グラフ見せられるよりわかりやすいし。」
「いや、もっとわかりやすい数値がある。
それが『中央値』
そしてもうちょっと計算する気があるのなら、『分散』と『標準偏差』だ。
今日はこの3つを解説するだけでおしまい。」
「いや。もうちょっと詳しく説明していただきたいんですが…。その先の方とか。それにさっきから何度も言っているんですが、僕は確率の方が…。」
「今日の予定は『中央値』『分散』『標準偏差』で終わりだ。相関係数もちらっと説明するから、あとはデータの問題を解いてくれ。
意義は説明するから、問題と詳しい解説を、じっと見て、わかるまで考えるんだ。できる人は、長い時間かけて分かるまで考えているぞ。」
「まずは『中央値』だな。
中央値とは?」
「真ん中の値です。
20人いたら、10番目と11番目の間。21人いたら11番目の人の数値です。
奇数人だと誰かの数値で、偶数人だと足して2で割る?」
「その通り。実に単純明快な答え。中央値も真ん中の順位の人の数値を探すだけ。実に単純なんだが、実はこれの方が平均値よりも信用できる。
例えばさっきのたとえで、極端に差のある集団がいたとして、大富豪と貧困家庭の富の偏在が激しかったとしても、中央値は貧困家庭の標準的な年収を指すだろう。一人が1000点のテスト結果、あるいは一人だけ0点のテスト結果でも同じだ。普通の点数のやつが真ん中に来て、ちょうど普通にとれるくらいの点数を教えてくれる。
真ん中の順位の人の値というのは、極端な数値にも強い。とても安定している。
重要だからこそテストでもよく聞かれるんだな。
箱ひげ図も同じ理由で聞かれるんだ。単純な分け方だが、強力な数値だからだ。
棒の並んだあのよく見かける『ヒストグラム』も、そういうわけで、とても情報量の多い大事なグラフなんだ。だからこそテストに出される。」
「次に『分散』と『標準偏差』だが…。
これの求め方は?」
「分散はV。
求め方は、『データの2乗の平均―平均の2乗』です。」
「その通り。よく勉強している。
本当は数式で書きたいところだが、数式の上バーがうまく書けないんだな。
まあ、これを読んでいる人は数式よりも言葉で言ってもらうほうがわかりよいだろう。
要は分散はその名の通り、散らばり具合を知りたいのだから、平均値から実際の数値との差を2乗しているんだ。
一言でいえば分散とは、『平均との差の2乗』だ。それを全部足して人数で割って、『散らばり具合の平均』をとったわけだ。
なんで2乗にするのかわかるか?」
「さあ。」
「2乗にしないと差がマイナスになるときもあるからだ。それをそのまま足したら、足し算しているのに引き算することになる。だから全部プラスになるように、2乗にしたんだ。
でもそのままだと散らばり具合の2乗の数値しか出てこないので、√をつけて2乗→普通にしたのが『標準偏差』だ。
つまり、
平均との差の2乗が分散、
平均との差の2乗を√つけて戻したのが標準偏差だな。
わかるか?」
「まあ。ここ、Σ出てくるところですよね。足し合わせるから。
その計算詳しく解説していただきたいんですが。前、驚くほどすっきりこの計算をしてのけた問題があってびっくりして…。」
「慣れろ。じっと見てればそのうちのみこめる。」
「いや。それ解説じゃないんですが…。」
「『数値-平均を2乗にする』というのは、数学ではよくある話なんだ。
例えば、2点間の距離を測りたいとき、どうする?
xy平面上で、(3,0)と(0,5)の距離を測りたいときは?」
「三角形の斜めの線、ですよね?
なら底辺の2乗+高さの2乗に√です。」
「そう。距離を測るのに(数値―基準の数値)2はとてもありふれた話なんだ。2個あれば2個を足し、3個あれば3個を足す。そしてまとめてルートをつければ平面だろうが立体だろうが距離が出る。
ここでは基準点は原点(0,0)にあるが、それがここでは平均値になる、というだけだ。
分散はそれを2乗のまま使い、標準偏差では√であるべき数値に戻した、というだけだ。
分散も標準偏差も散らばり度合いを表しているわけだから、
この2つが大きければ散らばりが大きく、小さければ散らばりは小さいということがみてすぐにわかるだろう?
どちらも便利数値なんだぞ。」
「最後に『相関係数r』について解説する。」
「相関係数rは、xの散らばり×yの散らばり これをxの標準偏差とyの標準偏差で割ったものです。」
「そうだな。どちらも平均をするから1/nをかけるんだが、分子分母で消えるから、それは気にせず、xの散らばり×yの散らばりを全部足したもの、それをxとyそれぞれの標準偏差に人数をかけたもの(平均でないから)で割ることだけを考えるんだ。
注意点は分母が2乗していないから、マイナスが出る時があるということで、その結果マイナスのrになったり、数値が単純な分散の時より小さくなったりすることだな。」
「はい。」
「とにかく1に近ければ相関関係が強い。マイナスになれば右下がり、プラスになれば右上がりのグラフになる。
これはつまりエクセルなんかの機械に相関関係を調べさせるときにやる手法の一つなんだが、そして相関関係を調べる方法には相関関係rのほかにも実にたくさんの方法がある。まさにこれこそ数学者の人気分野。なんてったって、こういうデータ処理を行えば、株価やら失敗の確率やら、いろんなことが数式でわかるのだからな。これを『統計』と呼ぶ。たくさんのデータがある現在、ちょっと何かを分析しようと思えば、統計は避けて通れない。
難しいから機械にやってもらうのが普通だが、やはり最初は手計算で苦労して感じをつかんでおくべきだから、やらせるんだろうと思うぞ。」
「…あれ、一個でも計算間違いすると、残り全部間違えるんですよね。データって。とくに平均間違えると、全部×がついて…。」
「そんなもったいないことはするなよ。慎重に素早くやれば、とれる問題なんだからな。それこそ確率なんぞより簡単だぞ。」
「最後にデータに変更を加えた場合について言っておくぞ。
xをzに変えるとする。
Z=ax-b
という変更を加えたとしたら?
aは「a倍する」のだから分散に関係してくる。
分散がa2になるが、標準偏差はルートをつけるから単純にa倍だ。
bは関係ない。
一律に引けば平均も平均の差も同じになるんだからな。
bは平均に関係してくる。
もちろん平均から―bだ。
bの分増えたり減ったりしてくるわけだ。
もう一つW=cy+dとなって、共分散の問題が出たら?
その時は共分散はac倍だ。bとdは無視して大丈夫。
aとcの符号が違えば相関係数rもマイナスがついて変わってくるぞ。
符号が同じなら特に変化はない。
じゃあ、今日の授業はここまで。またな。」
参考文献:
神永正博著「嘘を見破る統計学 退屈させない統計入門」講談社,2011,ブルーバックス
(読みやすく、数式も省かれて極力日本語で説明してあります。会話の掛け合い半分以上。
少しでも数学に強い方はぜひご覧になってみてください。)
名階一子の数学授業 白居ミク @shiroi_miku
★で称える
この小説が面白かったら★をつけてください。おすすめレビューも書けます。
カクヨムを、もっと楽しもう
カクヨムにユーザー登録すると、この小説を他の読者へ★やレビューでおすすめできます。気になる小説や作者の更新チェックに便利なフォロー機能もお試しください。
新規ユーザー登録(無料)簡単に登録できます
この小説のタグ
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます