推敲して数値例も足したので以降はこっちを見てください→ 確率の対数を取る(あるいは情報エントロピー入門)
確率の話でよく一番基本的な例として出てくる「公平なコイン投げ」を考える.表が出る確率は $1/2$ である. $k$ 回のコイン投げで $k$ 回表が出る確率は $2^{-k}$ だ.
コイン投げの例がわかりやすいとしたら,逆に確率 $p$ をコイン投げでいうと何回表が出る程度の珍しさかで比べるという発想もありうる.
2 を $-k$ 乗したら $p$ になるような数 $k$ ( $2^{-k} = p$ となる $k$ )は,対数の定義から次のように表せる.
$$
k = -\log_2 p .
$$
右辺を情報量と呼ぶことにし,情報量の期待値をエントロピーと呼ぶ.
公平とは限らないコイン投げを考え,確率 $p$ で表, $1-p$ で裏が出るとすると,情報量の期待値 $H(p)$ は次の式で表せる.
$$
H(p) = - ( p\log_2 p + (1-p)\log_2 (1-p)) \tag{1}.
$$
期待値の定義を復習しておく.期待値は取りうる値の範囲全体にわたって,(確率)×(取りうる値)を足し合わせたものである.コイン投げの場合,取りうる値とその確率は次の表のように書き下せる.
|
裏 |
表 |
確率 |
$p$ |
$1-p$ |
情報量 |
$-\log_2 p$ |
$-\log_2 (1-p)$ |
取りうる値の範囲に対して確率がすべて書き下せるものを 確率分布 と呼ぶ.また,期待値が計算できるよう,確率分布と組で定義された変数を 確率変数 と呼ぶことにする.公平とは限らないコイン投げの場合のこの確率分布を2項分布と呼び,(1)の $H(p)$ は2項分布のエントロピーである.
取りうる値が裏・表の2通りでなくても,エントロピーは同様に考えることができる.公平とは限らない $m$ 面サイコロ,つまり状態 $i=1,\ldots,m$ がそれぞれ $p_i$ の確率で生起する分布を考える.この場合エントロピー $H(p)$ は次のようになる.
$$
H(p) = - \sum_{i=1}^{m} p_i \log_2 p_i \tag{2}.
$$
期待値を計算できるように確率分布をすべて書き下すと次の表のようになる.
|
1 |
2 |
$\ldots$ |
$m$ |
確率 |
$p_1$ |
$p_2$ |
$\ldots$ |
$p_m$ |
情報量 |
$-\log_2 p_1$ |
$-\log_2 p_2$ |
$\ldots$ |
$-\log_2 p_m$ |
この公平とは限らない $m$ 面サイコロの確率分布を多項分布と呼び,(2)の $H(p)$ は多項分布のエントロピーである.
対数の底は2にすることも多いが,ネイピア数 $e$ にすることも多い.底の変換は次のように定数倍で得られる.
$$
\log_2 p = \log_e p / \log_e 2
$$
相対的比較だけのためなら対数の底は割となんでもいいということである.割となんでもいいが 2 にしておくと人間が実感しやすい.物理量と対応させるには $e$ にしておくと都合がいいらしい.ちなみに $\log_e 2$ は 0.6931472 くらいである.以降では $\log_e p = \log p$ と省略して書く.
状態 $i=1,\ldots,m$ がそれぞれ $p_i$ の確率で生起する多項分布を $p$ と書くことにする.2つの多項分布 $p$ と $q$ の相対エントロピー $B(p, q)$ は,
$$
B(p, q)=- \sum_{i=1}^{m} p_i \log {\frac {p_i}{q_i}}
$$
と定義される.少しだけ式が長くなるが,次のように書いたほうがエントロピーとの対応がわかりやすいかもしれない.
$$
B(p, q)=- \sum_{i=1}^{m} q_i \frac{p_i}{q_i} \log {\frac {p_i}{q_i}}.
$$
$p_i/q_i$ という比を考えていることが「相対」っぽさである.
また,次のような形にも書き換えてみる.
$$
B(p, q)=\left( -\sum_{i=1}^{m} p_i \log {q_i} \right) - \left(-\sum_{i=1}^{m} p_i \log p_i\right) \tag{3}
$$
(3) の第2項は(2)の式で出てきた $p$ の分布のエントロピー $H(p)$ である. $p$ の分布のエントロピーをベースラインとして差っ引いて,そこからの離れ具合を考えていることが「相対」っぽさである.
最後に,重要なこととして相対エントロピーは真の分布が $p$ のとき,観測値がほぼ $q$ となる確率の対数と解釈できる.どういうことかを説明する.
多項分布に従って,確率変数を $n$ 回観測することを考えよう.状態 $i=1,\ldots,m$ が生起した回数をそれぞれ $n_1,\ldots,n_m$ とする. $n=\sum_{i=1}^{m}n_i$ である.
このとき, $p$ の分布を知らない人が,確率分布はおおよそ $q$ の分布ではないかと推測する場面を思い浮かべてほしい. 現実に自然や社会についてデータを取るとき,データの確率分布は不明でいろいろ実験とか調査をして推測するので,これは現実の問題と直接の関係を持つシチュエーションである.設定した $q$ の分布から $n_1, \ldots, n_m$ のような観測が得られる確率 $L(q)$ (これを尤度と呼ぶ)は,次の式で表せる.
$$
L(q)=\frac{n!}{n_1! \cdots n_m!}q^{n_1}_1 \cdots q^{n_m}_m.
$$
ここでスターリングの公式 $\log (n!) \approx n \log n -n$ を使って $\log L(q)$ を近似すると,
$$
\begin{aligned}
\log L(q) & \approx (n \log n) - \sum_{i=1}^{m}( n_i \log n_i -n_i) + \sum_{i=1}^{m} \log q_i \\
&= n \log n - \sum_{i=1}^m n_i (\log n_i - q_i) \\
&= - \sum_{i=1}^m n_i (\log n_i - q_i -\log n ) \\
&= - \sum_{i=1}^m n_i (\log \frac{n_i}{n} - q_i) \\
&= - n \sum_{i=1}^m \frac{n_i}{n} (\log \frac{n_i}{n} - q_i)
\end{aligned}
$$
と整理できる.大数の法則により, $n$ が大きいとき $n_i/n$ は $p_i$ に近づくはずだから,上の式で $n_i/n =p_i$ と置くと,
$$
\log L(q) \approx -n\sum_{i=1}^{m}p_i \log \frac{p_i}{q_i} = n B(p, q)
$$
という結果を得る.左辺はもともと経験分布がモデル $q$ のように振る舞う確率の対数であったが,右辺に相対エントロピーが得られた.
相対エントロピーの符号反転( $-1$ をかけたもの)はカルバック・ライブラ情報量とも呼ばれる.カルバック・ライブラ情報量は今日の統計学ではモデルの良さ(悪さ)を測る基本的な指標になっている.マイナスがついているのでカルバック・ライブラ情報量が大きいほど確率が小さい,すなわち $q$ が $p$ から遠いということを意味する.統計学の分野で「情報量規準」と呼ばれる AIC (An Information Criterion または Akaike Information Criterion) や WAIC (Widely Applicable Information Criterion または Watanabe-Akaike information criterion) は(3) の第1項をサンプルから近似するものである.
前半のエントロピーについては主に 都筑卓司『マックスウェルの悪魔』(講談社ブルーバックス) のを参考にした.しかしこの本の主題である物理の話はこのノートではまったく触れられなかった.似た解説は 田中章詞,富谷昭夫,橋本幸士『ディープラーニングと物理学』(講談社) の第1章にもある.
後半の相対エントロピーについては主に, 赤池弘次『エントロピーとモデルの尤度』(日本物理学会誌) を参考にした.似た解説は 島谷健一郎『ポアソン分布・ポアソン回帰・ポアソン過程』(近代科学社) の第4章にもある.
最後のほうで少しだけ触れたカルバック・ライブラ情報量と統計学の情報量規準については 渡辺澄夫『ベイズ統計の理論と方法』(コロナ社) に詳しい.
それぞれの文献で目指すところはちょっとずつ異なるが,どれも個性がある文献なので気になったものは読んでみてほしい.特に 赤池弘次『エントロピーとモデルの尤度』(日本物理学会誌) は無料で短いし比較的読みやすい.