χ2検定を分かりやすく(個人的な解釈だとこうなる)

最も簡単な独立性の検定の手法。2つのデータに相関があるか否かをみる。


例:ある自動車のボディカラーの選択と性別比(ボディカラーは2色とする)


この自動車を買った人の性別とボディカラーの選択が以下の通りだったとする。


男性でブルーを買った人——51人

男性でピンクを買った人——12人

女性でブルーを買った人——11人

女性でピンクを買った人——26人


ある自動車を買った人の性別(母数を100人とする)

男性:女性=63:37

ボディカラーの選択

ブルー:ピンク=62:38


この時、ボディカラーの選択と性別の間に関係が無かったと考えられる場合、期待される値は以下のようになる。なお、()内は計算式。


男性でブルーを買った人——39.06人(0.63×0.62)

男性でピンクを買った人——23.94人(0.63×0.38)

女性でブルーを買った人——22.94人(0.37×0.62)

女性でピンクを買った人——14.06人(0.37×0.38)


ではここで、この差が「相関があるから出た差」なのか「相関は無いけど偶然生じただけのズレ」なのかを考えます。


で、この時、

(観測度数-期待度数)²/期待度数 の和を計算する。


各カテゴリごとに計算していくと、以下の様になりますね。


男性でブルーを買った人——3.64986...

男性でピンクを買った人——5.95503...

女性でブルーを買った人——6.21463...

女性でピンクを買った人——10.13965...


これらを足し合わせると約25.95917。この数値がカイ二乗値(χ2値)というやつです。

あとは、これをχ2分布表を用いて検討します(ネットで「χ2分布表」と検索すれば出てくるはず)。今回は、有意水準0.05で考えてみる。


自由度3のχ2分布における有意水準0.05でχ2値は7.8147。

今回のデータから算出されたχ2値はこれを大幅に超えるから、「自動車のボディカラーの選択と性別の間に相関が無い」という帰無仮説は棄却される(=自動車のボディカラーの選択と性別の間には相関が無いとはいえない)。



何かミスなどございましたら、教えて頂けるとありがたいです! どんな些細な事でも構いませんので、コメントで教えて下さい! よろしくお願いします!

  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る