χ2検定を分かりやすく(個人的な解釈だとこうなる)
最も簡単な独立性の検定の手法。2つのデータに相関があるか否かをみる。
例:ある自動車のボディカラーの選択と性別比(ボディカラーは2色とする)
この自動車を買った人の性別とボディカラーの選択が以下の通りだったとする。
男性でブルーを買った人——51人
男性でピンクを買った人——12人
女性でブルーを買った人——11人
女性でピンクを買った人——26人
ある自動車を買った人の性別(母数を100人とする)
男性:女性=63:37
ボディカラーの選択
ブルー:ピンク=62:38
この時、ボディカラーの選択と性別の間に関係が無かったと考えられる場合、期待される値は以下のようになる。なお、()内は計算式。
男性でブルーを買った人——39.06人(0.63×0.62)
男性でピンクを買った人——23.94人(0.63×0.38)
女性でブルーを買った人——22.94人(0.37×0.62)
女性でピンクを買った人——14.06人(0.37×0.38)
ではここで、この差が「相関があるから出た差」なのか「相関は無いけど偶然生じただけのズレ」なのかを考えます。
で、この時、
(観測度数-期待度数)²/期待度数 の和を計算する。
各カテゴリごとに計算していくと、以下の様になりますね。
男性でブルーを買った人——3.64986...
男性でピンクを買った人——5.95503...
女性でブルーを買った人——6.21463...
女性でピンクを買った人——10.13965...
これらを足し合わせると約25.95917。この数値がカイ二乗値(χ2値)というやつです。
あとは、これをχ2分布表を用いて検討します(ネットで「χ2分布表」と検索すれば出てくるはず)。今回は、有意水準0.05で考えてみる。
自由度3のχ2分布における有意水準0.05でχ2値は7.8147。
今回のデータから算出されたχ2値はこれを大幅に超えるから、「自動車のボディカラーの選択と性別の間に相関が無い」という帰無仮説は棄却される(=自動車のボディカラーの選択と性別の間には相関が無いとはいえない)。
何かミスなどございましたら、教えて頂けるとありがたいです! どんな些細な事でも構いませんので、コメントで教えて下さい! よろしくお願いします!
新規登録で充実の読書を
- マイページ
- 読書の状況から作品を自動で分類して簡単に管理できる
- 小説の未読話数がひと目でわかり前回の続きから読める
- フォローしたユーザーの活動を追える
- 通知
- 小説の更新や作者の新作の情報を受け取れる
- 閲覧履歴
- 以前読んだ小説が一覧で見つけやすい
アカウントをお持ちの方はログイン
ビューワー設定
文字サイズ
背景色
フォント
組み方向
機能をオンにすると、画面の下部をタップする度に自動的にスクロールして読み進められます。
応援すると応援コメントも書けます