Skip to content

Instantly share code, notes, and snippets.

@abikoushi
Created August 12, 2025 04:11
Show Gist options
  • Save abikoushi/422f26c1a28052678b3177ce6942c093 to your computer and use it in GitHub Desktop.
Save abikoushi/422f26c1a28052678b3177ce6942c093 to your computer and use it in GitHub Desktop.
分割表の独立性の検定と相関係数

このノートについて

分割表の独立性の検定について,「独立性というからには相関係数の話と関係あるのかな?」と思った人向けの文章です. 分割表の独立性の話と相関係数の話は関係があります.

地道手計算パート

このパートの式の部分は計算メモのようなものも含むので,もしかしたら冗長な書き方が多いかもしれない.そのように感じたら結論まで読み飛ばしてほしい.

適当な教科書を開いてもらうと,組のデータ $(x_i, y_i)$, ($i=1,\ldots n$) が得られたとき,ピアソン(Pearson)の積率相関係数 $r$ は次の式で定義されていることが多い.

$$ \begin{aligned} r &= \frac{\sum_{i=1}^n (x_i - \bar x)(y_i - \bar y)}{\sqrt{\sum_{i=1}^n (x_i - \bar x)^2}\sqrt{\sum_{i=1}^n (y_i - \bar y)^2}} \end{aligned} $$

再び適当な教科書を開いてもらうと,次のような分割表が与えられたとき,

$y=0$ $y=1$
$x=0$ $a$ $b$
$x=1$ $c$ $d$

ファイ係数(連関係数と呼ばれることもある)$\phi$ は次の式で定義されていることが多いと思う.

$$ \phi = \frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}} $$

相関係数 $r$ の式を次のように少し変形して,各項について整理していく.

$$ r =\frac{n \sum_{i=1}^n x_iy_i - (\sum_{i=1}^n x_i)(\sum_{i=1}^n y_i)}{\sqrt{n\sum_{i=1}^n x_i^2 - (\sum_{i=1}^n x_i)^2}\sqrt{n\sum_{i=1}^n y_i^2 - (\sum_{i=1}^n y_i)^2}} $$

2値(0または1の値をとる)変数 $x_i$, $y_i$ の積の合計 $\sum_{i=1}^n x_i y_i$ は分割表の $d$ の値であるから,分子は,

$$ \begin{aligned} & n \sum_{i=1}^n x_iy_i - (\sum_{i=1}^n x_i)(\sum_{i=1}^n y_i)\\ &= nd - (b+d)(c+d)\\ &=(a+b+c+d)d-(bc+bd+cd+d^2)\\ &=ad-bc. \end{aligned} $$

$x_i$ は 0 か 1 なので $x_i^2$ の合計は $x_i$ の合計と等しいことに注意すると,分母の第一の因子のルートの中身は,

$$ \begin{aligned} n\sum_{i=1}^n x_i^2 - \left(\sum_{i=1}^n x_i\right)^2 &= n(b+d) - (b+d)^2\\ &=(a+b+c+d - (b+d))(b+d)\\ &=(a+c)(b+d). \end{aligned} $$

同様に,分母の第二の因子のルートの中身は,

$$ \begin{aligned} n\sum_{i=1}^n y_i^2 - \left(\sum_{i=1}^n y_i \right)^2 &= n(c+d) - (c+d)^2\\ &=(a+b+c+d - (c+d))(c+d)\\ &=(a+b)(c+d). \end{aligned} $$

結果,

$$ r=\phi = \frac{ad-bc}{\sqrt{(a+b)(c+d)(a+c)(b+d)}} $$

となり,ファイ係数は2値(0または1)の値を取る変数に対するピアソンの積率相関係数だとわかった.

次に,分割表の独立性についてのカイ二乗検定の検定統計量 $T$ は,次の形で与えられることが多い.

$$ T = \sum_{i,j} {(\text{$(i,j)$ セルの観測度数}-\text{$(i,j)$ セルの理論度数})^{2} \over \text{$(i,j)$ セルの理論度数}} $$

$T$ をカイ二乗値と呼ぶ.

独立性を仮定したときの分割表の理論度数は次の表の通りである.

$y=0$ $y=1$ 合計
$x=0$ $n_1m_1/n$ $n_1m_2/n$ $n_1 = a+b$
$x=1$ $n_2m_1/n$ $n_2m_2/n$ $n_2 = c+d$
合計 $m_1=a+c$ $m_2=b+d$ $n$

$$ T_{ij} = {(\text{$(i,j)$ セルの観測度数}-\text{$(i,j)$ セルの理論度数})^{2} \over \text{$(i,j)$ セルの理論度数}} $$

とおくと,検定統計量 $T$ は次のようになる.

$$ T = T_{11} + T_{12} + T_{21} + T_{22}. $$

各項を展開して整理すると,以下のように書ける.

$$ \begin{aligned} T_{11}&=\frac{(a-n_1m_1/n)^ 2}{n_1m_1/n} \\ &= \frac{(n a - n_1m_1)^ 2}{nn_1m_1} \\ &= \frac{( (n_1+n_2) a - n_1(a+c))^ 2}{nn_1m_1}\\ &= \frac{(n_2 a - n_1c)^ 2}{nn_1m_1} \end{aligned} $$

$$ \begin{aligned} T_{12} &=\frac{(b-n_1m_2/n)^ 2}{n_1m_2/n}\\ &= \frac{(n b - n_1m_2)^ 2}{nn_1m_2}\\ &= \frac{((n_1+n_2) b - n_1(b+d))^ 2}{nn_1m_2}\\ &= \frac{(n_2 b - n_1d)^ 2}{nn_1m_2}\\ &= \frac{(n_2 (n_1-a) - n_1(n_2-c))^ 2}{nn_1m_2}\\ &= \frac{(n_2 a - n_1c)^ 2}{nn_1m_2} \end{aligned} $$

$$ \begin{aligned} T_{21} &=\frac{(c-n_2m_1/n)^ 2}{n_2m_1/n}\\ &= \frac{(n c - n_2m_1)^ 2}{nn_2m_1}\\ &= \frac{( (n_1+n_2) c - n_2(a+c))^ 2}{nn_2m_1}\\ &= \frac{(n_2 a - n_1c)^ 2}{nn_1m_2}, \end{aligned} $$

$$ \begin{aligned} T_{22}&=\frac{(d-n_2m_2/n)^ 2}{n_2m_2/n} \\ &= \frac{(n d - n_2m_2)^ 2}{nn_2m_2}\\ &= \frac{(n(n_2-c) - n_2m_2)^ 2}{nn_2m_2} \\ &=\frac{( m_1n_2-nc)^ 2}{nn_2m_2}\\ &= \frac{((a+c)n_2-(n_1+n_2)c)^ 2}{nn_2m_2}\\ &=\frac{(n_2 a - n_1c)^ 2}{nn_2m_2}, \end{aligned} $$

ここから,

$$ \begin{aligned} T&=\frac{(n_2 a - n_1c)^ 2}{nn_1m_1}+\frac{(n_2 a - n_1c)^ 2}{nn_1m_2}+\frac{(n_2 a - n_1c)^ 2}{nn_2m_1}+\frac{(n_2 a - n_1c)^ 2}{nn_2m_2} \\ &= (n_2m_2+n_2m_1+n_1m_2+n_1m_1)\frac{(n_2 a - n_1c)^ 2}{nn_1m_1n_2m_2}\\ &= (n m_2+nm_1)\frac{(n_2 a - n_1b)^ 2}{nn_1m_1n_2m_2}\\ &= \frac{n(n_2a-n_1c)^ 2}{n_1 n_2 m_1 m_2}\\ &= \frac{n((c+d)a-(a+b)c)^ 2}{n_1 n_2 m_1 m_2}\\ &= \frac{n(ad-bc)^ 2}{(a+b) (c+d) (a+c) (b+d)} \end{aligned} $$

となる.ここから,ファイ係数に $\sqrt{n}$ をかけて2乗するとカイ二乗検定の検定統計量になることがわかった.すなわち,

$$ T = (\phi \sqrt{n})^2. $$

少し理論的パート

カイ二乗検定はカイ二乗分布を利用するわけだが,自由度 $d$ のカイ二乗分布は,互いに独立に標準正規分布に従う確率変数 $Z_i$ の2乗の和が従う分布であった.すなわち,次の $\chi_d^2$ は自由度 $d$ のカイ二乗分布に従う.

$$ \begin{aligned} &\chi_d^2 = \sum_{i=1}^d Z_i^2, \\ &\text{where}\quad Z_i \sim \mathcal{N}(0,1). \end{aligned} $$

上述の分割表のカイ二乗値がカイ二乗分布に従う理由は,2変量正規分布の密度関数に出てくる2次形式の部分の分布を考えるとわかりやすい.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment