分割表の独立性の検定について,「独立性というからには相関係数の話と関係あるのかな?」と思った人向けの文章です.
分割表の独立性の話と相関係数の話は関係があります.
このパートの式の部分は計算メモのようなものも含むので,もしかしたら冗長な書き方が多いかもしれない.そのように感じたら結論まで読み飛ばしてほしい.
適当な教科書を開いてもらうと,組のデータ $(x_i, y_i)$, ($i=1,\ldots n$) が得られたとき,ピアソン(Pearson)の積率相関係数 $r$ は次の式で定義されていることが多い.
$$
\begin{aligned}
r &= \frac{\sum_{i=1}^n (x_i - \bar x)(y_i - \bar y)}{\sqrt{\sum_{i=1}^n (x_i - \bar x)^2}\sqrt{\sum_{i=1}^n (y_i - \bar y)^2}}
\end{aligned}
$$
再び適当な教科書を開いてもらうと,次のような分割表が与えられたとき,
|
$y=0$ |
$y=1$ |
$x=0$ |
$a$ |
$b$ |
$x=1$ |
$c$ |
$d$ |
ファイ係数(連関係数と呼ばれることもある)$\phi$ は次の式で定義されていることが多いと思う.
$$
\phi = \frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}
$$
相関係数 $r$ の式を次のように少し変形して,各項について整理していく.
$$
r =\frac{n \sum_{i=1}^n x_iy_i - (\sum_{i=1}^n x_i)(\sum_{i=1}^n y_i)}{\sqrt{n\sum_{i=1}^n x_i^2 - (\sum_{i=1}^n x_i)^2}\sqrt{n\sum_{i=1}^n y_i^2 - (\sum_{i=1}^n y_i)^2}}
$$
2値(0または1の値をとる)変数 $x_i$, $y_i$ の積の合計 $\sum_{i=1}^n x_i y_i$ は分割表の $d$ の値であるから,分子は,
$$
\begin{aligned}
& n \sum_{i=1}^n x_iy_i - (\sum_{i=1}^n x_i)(\sum_{i=1}^n y_i)\\
&= nd - (b+d)(c+d)\\
&=(a+b+c+d)d-(bc+bd+cd+d^2)\\
&=ad-bc.
\end{aligned}
$$
$x_i$ は 0 か 1 なので $x_i^2$ の合計は $x_i$ の合計と等しいことに注意すると,分母の第一の因子のルートの中身は,
$$
\begin{aligned}
n\sum_{i=1}^n x_i^2 - \left(\sum_{i=1}^n x_i\right)^2 &= n(b+d) - (b+d)^2\\
&=(a+b+c+d - (b+d))(b+d)\\
&=(a+c)(b+d).
\end{aligned}
$$
同様に,分母の第二の因子のルートの中身は,
$$
\begin{aligned}
n\sum_{i=1}^n y_i^2 - \left(\sum_{i=1}^n y_i \right)^2 &= n(c+d) - (c+d)^2\\
&=(a+b+c+d - (c+d))(c+d)\\
&=(a+b)(c+d).
\end{aligned}
$$
結果,
$$
r=\phi = \frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}}
$$
となり,ファイ係数は2値(0または1)の値を取る変数に対するピアソンの積率相関係数だとわかった.
次に,分割表の独立性についてのカイ二乗検定の検定統計量 $T$ は,次の形で与えられることが多い.
$$
T = \sum_{i,j} {(\text{$(i,j)$ セルの観測度数}-\text{$(i,j)$ セルの理論度数})^{2} \over \text{$(i,j)$ セルの理論度数}}
$$
$T$ をカイ二乗値と呼ぶ.
独立性を仮定したときの分割表の理論度数は次の表の通りである.
|
$y=0$ |
$y=1$ |
合計 |
$x=0$ |
$n_1m_1/n$ |
$n_1m_2/n$ |
$n_1 = a+b$ |
$x=1$ |
$n_2m_1/n$ |
$n_2m_2/n$ |
$n_2 = c+d$ |
合計 |
$m_1=a+c$ |
$m_2=b+d$ |
$n$ |
$$
T_{ij} = {(\text{$(i,j)$ セルの観測度数}-\text{$(i,j)$ セルの理論度数})^{2} \over \text{$(i,j)$ セルの理論度数}}
$$
とおくと,検定統計量 $T$ は次のようになる.
$$
T = T_{11} + T_{12} + T_{21} + T_{22}.
$$
各項を展開して整理すると,以下のように書ける.
$$
\begin{aligned}
T_{11}&=\frac{(a-n_1m_1/n)^ 2}{n_1m_1/n} \\
&= \frac{(n a - n_1m_1)^ 2}{nn_1m_1} \\
&= \frac{( (n_1+n_2) a - n_1(a+c))^ 2}{nn_1m_1}\\
&= \frac{(n_2 a - n_1c)^ 2}{nn_1m_1}
\end{aligned}
$$
$$
\begin{aligned}
T_{12} &=\frac{(b-n_1m_2/n)^ 2}{n_1m_2/n}\\
&= \frac{(n b - n_1m_2)^ 2}{nn_1m_2}\\
&= \frac{((n_1+n_2) b - n_1(b+d))^ 2}{nn_1m_2}\\
&= \frac{(n_2 b - n_1d)^ 2}{nn_1m_2}\\
&= \frac{(n_2 (n_1-a) - n_1(n_2-c))^ 2}{nn_1m_2}\\
&= \frac{(n_2 a - n_1c)^ 2}{nn_1m_2}
\end{aligned}
$$
$$
\begin{aligned}
T_{21} &=\frac{(c-n_2m_1/n)^ 2}{n_2m_1/n}\\
&= \frac{(n c - n_2m_1)^ 2}{nn_2m_1}\\
&= \frac{( (n_1+n_2) c - n_2(a+c))^ 2}{nn_2m_1}\\
&= \frac{(n_2 a - n_1c)^ 2}{nn_1m_2},
\end{aligned}
$$
$$
\begin{aligned}
T_{22}&=\frac{(d-n_2m_2/n)^ 2}{n_2m_2/n} \\
&= \frac{(n d - n_2m_2)^ 2}{nn_2m_2}\\
&= \frac{(n(n_2-c) - n_2m_2)^ 2}{nn_2m_2} \\
&=\frac{( m_1n_2-nc)^ 2}{nn_2m_2}\\
&= \frac{((a+c)n_2-(n_1+n_2)c)^ 2}{nn_2m_2}\\
&=\frac{(n_2 a - n_1c)^ 2}{nn_2m_2},
\end{aligned}
$$
ここから,
$$
\begin{aligned}
T&=\frac{(n_2 a - n_1c)^ 2}{nn_1m_1}+\frac{(n_2 a - n_1c)^ 2}{nn_1m_2}+\frac{(n_2 a - n_1c)^ 2}{nn_2m_1}+\frac{(n_2 a - n_1c)^ 2}{nn_2m_2} \\
&= (n_2m_2+n_2m_1+n_1m_2+n_1m_1)\frac{(n_2 a - n_1c)^ 2}{nn_1m_1n_2m_2}\\
&= (n m_2+nm_1)\frac{(n_2 a - n_1b)^ 2}{nn_1m_1n_2m_2}\\
&= \frac{n(n_2a-n_1c)^ 2}{n_1 n_2 m_1 m_2}\\
&= \frac{n((c+d)a-(a+b)c)^ 2}{n_1 n_2 m_1 m_2}\\
&= \frac{n(ad-bc)^ 2}{(a+b) (c+d) (a+c) (b+d)}
\end{aligned}
$$
となる.ここから,ファイ係数に $\sqrt{n}$ をかけて2乗するとカイ二乗検定の検定統計量になることがわかった.すなわち,
$$
T = (\phi \sqrt{n})^2.
$$
カイ二乗検定はカイ二乗分布を利用するわけだが,自由度 $d$ のカイ二乗分布は,互いに独立に標準正規分布に従う確率変数 $Z_i$ の2乗の和が従う分布であった.すなわち,次の $\chi_d^2$ は自由度 $d$ のカイ二乗分布に従う.
$$
\begin{aligned}
&\chi_d^2 = \sum_{i=1}^d Z_i^2, \\
&\text{where}\quad Z_i \sim \mathcal{N}(0,1).
\end{aligned}
$$
上述の分割表のカイ二乗値がカイ二乗分布に従う理由は,2変量正規分布の密度関数に出てくる2次形式の部分の分布を考えるとわかりやすい.