KLダイバージェンスと最尤推定 - 球面倶楽部零八式 mark II

統数研の伊庭幸人先生の

「情報」に関する13章

では、情報源符号化の符号長の期待値最小化の観点から、確率 $p_i$ で登場する単語 $w_i$ に長さ $-\log p_i$ の符号を割り当てると平均符号長は最小となり、 $-p_i\log p_i$ になる。これがエントロピー。

しかし、単語 $w_i$ の登場確率を $q_i$ だと思い込んで長さ $-\log q_i$ の符号を割り当てると平均符号長は $-p_i\log q_i$ になってしまう。このとき、平均符号長は損をしてしまう。

その損失 $-p_i\log q_i-(-p_i\log p_i)=p_i\log\frac{p_i}{q_i}$ を KL divergence $D(P||Q)$ と呼ぶ。

と解説されている。非常に明快である。その後すぐに、

$p_i$ を知るためには $p_i$ に関する辞書を同時に送ることから、辞書も含めて最小化するというMDLの話に持っていくのは素晴しい。

だけど、KL divergence 最小化によって確率分布のパラメータを推定するときは、ちょっと別の解釈になるように思う。

渡辺彗さんの「認識とパタン」や甘利俊一先生の「情報理論」ではエントロピーをびっくり度で定義している。

確率 $p_i$ で起こる事象ほど起きたときのびっくり度は大きい。そして独立な事象が2つ起きたときは驚きが和になること(加法性)を考えると、びっくり度の尺度は、定数倍の不定性を除いて $ー\log p_i$ と決まる。

このとき、期待できるびっくり度は $-p_i\log p_i$ で計算できる。これを情報のエントロピーと呼ぶ、と言った具合だ。

一般に、未知の情報源から発生したデータについて考えよう。

つまり真の分布は $q_i$ であるが、 $q_i$ が未知であるという状況である。ただ、実際に観測することによって、観測されたデータの分布、つまり経験分布 $p_i$ は知っているものとする。一般に経験分布 $p_i$ は真の分布 $q_i$ からずれてしまう。

真の分布を知らないのだから、経験分布 $p_i$ を信じきってエントロピーを計算すると $-p_i\log p_i$ になる。これは計算可能な量である。

でも本当の分布は $q_i$ なのだから、経験分布 $p_i$ で期待値をとった分布 $q_i$ の思い込みエントロピー $-p_i\log q_i$ を考えていることになる。これは残念ながら計算することはできない。

ここで、思い込みエントロピーは、経験分布のエントロピーからずれることが一般的であるが、このずれ $-p_i\log q_i-(-p_i\log p_i)=p_i\log\frac{p_i}{q_i}$ を KL divergence $D(P||Q)$ で表そう。

という解釈になるように思う。

伊庭先生との違いは、真の分布と思い込み分布が逆になっていることである。まあ、拙稿は未熟者の戯言であるから、何かがおかしいのだろうが、良くわからない。

まぁ、次の問題を考えてみよう。

例えば正規分布に従う母集団からの標本から得られた経験分布があったとしよう。このとき、経験分布(真の分布からずれる)から真の分布を推定したいと考える。

このとき、経験分布が一番起き易くなる正規分布を求めたい、というのが最尤推定である。つまり、

一番起き易かったから、このような現実になった

という考え方である。つまり、思い込みが一番小さくなっている正規分布(経験分布を一番良く真似ている正規分布)を探したいので、KL divergence $D(P||Q)$ が一番小さくなるような正規分布 $Q$ を探せばよいということになる。

とまぁ、このように考えた訳で、伊庭先生とは解釈が違うなぁ、と思っていたのだが、よくよく考えてみると、最尤推定量は決して真の分布ではないので、「経験分布様」を正規分布と思い込んだときに一番損をしないような正規分布を求めるのが最尤推定、と考えれば同じことになる。