KLダイバージェンスと最尤推定

統数研の伊庭幸人先生の

「情報」に関する13章

https://www.ism.ac.jp/~iba/a19.pdf

では、情報源符号化の符号長の期待値最小化の観点から、確率p_iで登場する単語w_iに長さ-\log p_iの符号を割り当てると平均符号長は最小となり、-p_i\log p_iになる。これがエントロピー

 

しかし、単語w_iの登場確率をq_iだと思い込んで長さ-\log q_iの符号を割り当てると平均符号長は-p_i\log q_iになってしまう。このとき、平均符号長は損をしてしまう。

その損失-p_i\log q_i-(-p_i\log p_i)=p_i\log\frac{p_i}{q_i}を KL divergence D(P||Q)と呼ぶ。

と解説されている。非常に明快である。その後すぐに、

p_iを知るためにはp_iに関する辞書を同時に送ることから、辞書も含めて最小化するというMDLの話に持っていくのは素晴しい。

 

だけど、KL divergence 最小化によって確率分布のパラメータを推定するときは、ちょっと別の解釈になるように思う。

 

渡辺彗さんの「認識とパタン」や甘利俊一先生の「情報理論」ではエントロピーをびっくり度で定義している。

 

確率p_iで起こる事象ほど起きたときのびっくり度は大きい。そして独立な事象が2つ起きたときは驚きが和になること(加法性)を考えると、びっくり度の尺度は、定数倍の不定性を除いてー\log p_iと決まる。

 

このとき、期待できるびっくり度は-p_i\log p_iで計算できる。これを情報のエントロピーと呼ぶ、と言った具合だ。

 

一般に、未知の情報源から発生したデータについて考えよう。

つまり真の分布はq_iであるが、q_iが未知であるという状況である。ただ、実際に観測することによって、観測されたデータの分布、つまり経験分布p_iは知っているものとする。一般に経験分布p_iは真の分布q_iからずれてしまう。

 

真の分布を知らないのだから、経験分布p_iを信じきってエントロピーを計算すると-p_i\log p_iになる。これは計算可能な量である。

 

でも本当の分布はq_iなのだから、経験分布p_iで期待値をとった分布q_iの思い込みエントロピー-p_i\log q_iを考えていることになる。これは残念ながら計算することはできない。

 

ここで、思い込みエントロピーは、経験分布のエントロピーからずれることが一般的であるが、このずれ-p_i\log q_i-(-p_i\log p_i)=p_i\log\frac{p_i}{q_i}を KL divergence D(P||Q) で表そう。

 

という解釈になるように思う。

 

伊庭先生との違いは、真の分布と思い込み分布が逆になっていることである。まあ、拙稿は未熟者の戯言であるから、何かがおかしいのだろうが、良くわからない。

 

まぁ、次の問題を考えてみよう。

 

例えば正規分布に従う母集団からの標本から得られた経験分布があったとしよう。このとき、経験分布(真の分布からずれる)から真の分布を推定したいと考える。

 

このとき、経験分布が一番起き易くなる正規分布を求めたい、というのが最尤推定である。つまり、

 

一番起き易かったから、このような現実になった

 

という考え方である。つまり、思い込みが一番小さくなっている正規分布(経験分布を一番良く真似ている正規分布)を探したいので、KL divergence D(P||Q) が一番小さくなるような正規分布Qを探せばよいということになる。

 

 

とまぁ、このように考えた訳で、伊庭先生とは解釈が違うなぁ、と思っていたのだが、よくよく考えてみると、最尤推定量は決して真の分布ではないので、「経験分布様」を正規分布と思い込んだときに一番損をしないような正規分布を求めるのが最尤推定、と考えれば同じことになる。