38日目「WMW検定とその気持ち」

二つのデータが次のように得られたとする。

標本X x(1) x(2) x(3) ...... x(m)

標本Y y(1) y(2) y(3) ...... y(n)


この二つの標本が違う分布に従っているということを統計的に示したいとき、ノンパラメトリックな方法(検定対象に分布を仮定しない方法)としてWMW検定というものが使える。


具体的な方法は次のとおりである。

1、U(X),U(Y)を計算する。U(X)はXの元x(k)より大きいYの元の個数をk=1→m で足し合わせることによって計算できる。U(Y)も同様の考え方で計算できる。

2、U(X),U(Y)のうち、小さい方をUとして統計検定量に設定する。

3、Uが臨界値より小さかった場合、帰無仮説を棄却する。


ex) 中学1年生の男子と中学1年生の女子の身長を計測した。それぞれの標本はX,Yで次のようになっていた。(単位はcm)

X=162 169 158 172 159 168

Y=153 157 163 149 151 150

この時U(X),U(Y)を計算する。計算の際はX∪Yを大きさの昇順に並べたものを使うとしやすい。

所属 Y Y Y Y Y X X X Y X X X

X∪Y=149 150 151 153 157 158 159 162 163 168 169 172

U(X)を計算してみる。所属だけ見れば問題なく計算できる。

所属 Y Y Y Y Y X X X Y X X X

一つ目のXより右側にあるYは1つ。3つ目のXまでそれは変わらない。4つ目から6つ目のXより右側のYは0個なので、U(X)=1+1+1+0+0=3

U(Y)も同様にすると、U(Y)=6+6+6+6+6+3=33

つまり、U=3。ここで、Xのサイズ(標本サイズは標本に含まれるデータの個数)が6、Yのサイズが6の時の両側5%の臨界値は5であるので、分布が同じという仮説は棄却される。


・WMW検定の気持ち

XとYが全く同じ分布に従っていたとしよう。すると、X∪Yを昇順に並べた時の所属の表は次のようになるはずだと予測できる。

X Y X X Y X Y X Y X Y Y X Y X Y Y X X Y

すなわち、XとYはよく混ざっているようになる。


XとYが全く違う分布に従っていたとしよう。特にXの分布がYの分布よりも左側にあった時を考えてみよう。すると、X∪Yを昇順に並べた時の所属の表は次のようになるはずだと予測できる。

XXXXXXXYXXXYYYYYYYYY

つまり、ほとんど混ざっていないのである。このことから、この2つの状態で大きく差ができるような量を指標として取れば良いことがわかる。


そこで現れたのが先ほど定義したようなUである。

実際この2つのデータでUを計算してみると、最初のデータはU(X)=10+9+9+8+7+6+4+3+1+1=58,U(Y)=9+7+6+5+4+4+3+2+2+0=42

より、U=42。2番目のデータは、

U(X)=10+10+10+10+10+10+10+9+9+9=97,U(Y)=3+0+0+0+0+0+0+0+0+0=3

より、U=3となる。


このように、分布に差があまりないと考えられる時、Uは大きくなり、差があると考えられる時にはUは小さくなる。


・Uの計算方法

さっきまでの方法でUは計算できるが、実際の場面ではもっと大きなサイズのデータを扱うことが多い。すなわち、先ほどまでの計算方法では効率よく計算できない。


ここで、次のような仮定をする。

標本X x(1) x(2) x(3) ...... x(m)

標本Y y(1) y(2) y(3) ...... y(n)

において、x(1)<x(2)<x(3)<......<x(m) y(1)<y(2)<y(3)<......<y(n)を満たし、X∩Y=Øとする。


X∩Y=Øの仮定の妥当性は、一般のデータでは確率的に全く同じ数字が出ることはほとんどあり得ないという事実(四捨五入などがあればより同じ値になる場合は増えるだろうが)により保証される。

しかし、データが被ってしまった時でも、同じ値同士でこれから説明する順位というものの平均をとってUの計算をすれば良いのであまり気にしないでも良い。


次に、データの順位を導入する。

データの順位とは、X∪Yを昇順に並べた時の番号付けのことである。


例えば、X=1 2 3 Y=4 5 6だった時、X∪Y=1 2 3 4 5 6であり、1は1番目、2は2番目であり、これが順位である。つまり、この場合の1の順位は1、6の順位は6である。


順位の割り当て関数をR:X∪Y→[1,m+n]とする。


WMW検定は先ほども説明したとおり、U(X)とU(Y)を計算するときに、x(k)∈Xよりも大きいYの元の個数を数える必要があった。これをR(x(k))を用いて表そう。

まず、x(k)よりも小さいYの元を数える。これはR(x(k))-kになる。

なぜなら、kというのはx(k)をXの中だけで見た順位であり、R(x(k))はX∪Yの中で見たx(k)の順位であるので、R(x(k))-kはXにはなかったYの元が入った時に生じたズレであると考えられるからだ。

そして、補集合の考え方を用いると、x(k)よりも大きいYの元の個数はn-{R(x(k))-k}=n+k-R(x(k))となる。k=1→mまでの和がU(X)より、

U(X)=Σ(k=1→m) n+k-R(x(k))=mn + m(m+1)/2 - Σ(k=1→m) R(x(k))

が成り立つ。U(Y)も同様である。


この計算方法を実践してみよう。WMW検定のUの計算方法の例をこの方法を用いてもう一回計算してみよう。

X=162 169 158 172 159 168

Y=153 157 163 149 151 150


X,Yを昇順に並べる。

X=158 159 162 168 169 172

Y=149 150 151 153 157 163


順位 1 2 3 4 5 6 7 8 9 10 11 12

所属 Y Y Y Y Y X X X Y X X X

X∪Y=149 150 151 153 157 158 159 162 163 168 169 172


U(X)=36+21-(6+7+8+10+11+12)=57-54=3

U(Y)=36+21-(1+2+3+4+5+9)=33

U=3


この結果は先ほどの定義通りの計算の値と一致している。










  • Xで共有
  • Facebookで共有
  • はてなブックマークでブックマーク

作者を応援しよう!

ハートをクリックで、簡単に応援の気持ちを伝えられます。(ログインが必要です)

応援したユーザー

応援すると応援コメントも書けます

新規登録で充実の読書を

マイページ
読書の状況から作品を自動で分類して簡単に管理できる
小説の未読話数がひと目でわかり前回の続きから読める
フォローしたユーザーの活動を追える
通知
小説の更新や作者の新作の情報を受け取れる
閲覧履歴
以前読んだ小説が一覧で見つけやすい
新規ユーザー登録無料

アカウントをお持ちの方はログイン

カクヨムで可能な読書体験をくわしく知る