統数研の伊庭幸人先生の
「情報」に関する13章
https://www.ism.ac.jp/~iba/a19.pdf
では、情報源符号化の符号長の期待値最小化の観点から、確率で登場する単語に長さの符号を割り当てると平均符号長は最小となり、になる。これがエントロピー。
しかし、単語の登場確率をだと思い込んで長さの符号を割り当てると平均符号長はになってしまう。このとき、平均符号長は損をしてしまう。
その損失を KL divergence と呼ぶ。
と解説されている。非常に明快である。その後すぐに、
を知るためにはに関する辞書を同時に送ることから、辞書も含めて最小化するというMDLの話に持っていくのは素晴しい。
だけど、KL divergence 最小化によって確率分布のパラメータを推定するときは、ちょっと別の解釈になるように思う。
渡辺彗さんの「認識とパタン」や甘利俊一先生の「情報理論」ではエントロピーをびっくり度で定義している。
確率で起こる事象ほど起きたときのびっくり度は大きい。そして独立な事象が2つ起きたときは驚きが和になること(加法性)を考えると、びっくり度の尺度は、定数倍の不定性を除いてと決まる。
このとき、期待できるびっくり度はで計算できる。これを情報のエントロピーと呼ぶ、と言った具合だ。
一般に、未知の情報源から発生したデータについて考えよう。
つまり真の分布はであるが、が未知であるという状況である。ただ、実際に観測することによって、観測されたデータの分布、つまり経験分布は知っているものとする。一般に経験分布は真の分布からずれてしまう。
真の分布を知らないのだから、経験分布を信じきってエントロピーを計算するとになる。これは計算可能な量である。
でも本当の分布はなのだから、経験分布で期待値をとった分布の思い込みエントロピーを考えていることになる。これは残念ながら計算することはできない。
ここで、思い込みエントロピーは、経験分布のエントロピーからずれることが一般的であるが、このずれを KL divergence で表そう。
という解釈になるように思う。
伊庭先生との違いは、真の分布と思い込み分布が逆になっていることである。まあ、拙稿は未熟者の戯言であるから、何かがおかしいのだろうが、良くわからない。
まぁ、次の問題を考えてみよう。
例えば正規分布に従う母集団からの標本から得られた経験分布があったとしよう。このとき、経験分布(真の分布からずれる)から真の分布を推定したいと考える。
このとき、経験分布が一番起き易くなる正規分布を求めたい、というのが最尤推定である。つまり、
一番起き易かったから、このような現実になった
という考え方である。つまり、思い込みが一番小さくなっている正規分布(経験分布を一番良く真似ている正規分布)を探したいので、KL divergence が一番小さくなるような正規分布を探せばよいということになる。
とまぁ、このように考えた訳で、伊庭先生とは解釈が違うなぁ、と思っていたのだが、よくよく考えてみると、最尤推定量は決して真の分布ではないので、「経験分布様」を正規分布と思い込んだときに一番損をしないような正規分布を求めるのが最尤推定、と考えれば同じことになる。