分散を表わす第3の表現

分散の定義は通常
v_x=\dfrac{1}{n}\displaystyle\sum_{i=1}^n (x_i-\overline{x})^2
で与えられる.そして分散公式として
v_x=\overline{x^2}-(\overline{x})^2
という第2の表現が与えられる.そう言えば,このことが書かれている本もなく,ブログ主も今回初めて書くのだが,そもそも分散は
\textbf{x}=(x_1,\ldots,x_n)\textbf{1}=(1,\ldots,1) のなす角度を \theta とすると
\cos\theta=\dfrac{\textbf{x}\bullet\textbf{1}}{||\textbf{x}||\cdot ||\textbf{1}||}=\dfrac{n\overline{x}}{\sqrt{n\overline{x^2}}\cdot\sqrt{n}}=\dfrac{\overline{x}}{\sqrt{\overline{x^2}}}
だから v_x=\overline{x^2}\sin^2\theta=\dfrac{1}{n}(||\textbf{x}||\sin\theta)^2 となるので,全てのデータが等しい状況からどれだけずれているかの指標の1つとなっている.

そしてラグランジュ恒等式,もしくは Cauchy-Binet(気分によって Binet-Cauchyとも書く)を用いることにより(もっと本質的な証明は
分散を表わす第3の表現(その2) - 球面倶楽部 零八式 mark II
参照)
v_x=\dfrac{1}{n^2}\displaystyle\sum_{1\leqq i\lt j\leqq n}(x_i-x_j)^2
と表すことができる.つまり
v_x=\dfrac{1}{n^2}\displaystyle\sum_{1\leqq i\lt j\leqq n}(x_i-x_j)^2=\dfrac{1}{n}\displaystyle\sum_{i=1}^n (x_i-\overline{x})^2
から
\displaystyle\sum_{1\leqq i\lt j\leqq n}(x_i-x_j)^2=n\displaystyle\sum_{i=1}^n (x_i-\overline{x})^2
が得られる.この関係式を
備忘録:スチュワートの定理 - 球面倶楽部 零八式 mark II
と同じように考えて3次元に拡張してトレースをとると(もしくは x,y,z 座標について考えた式を合計すると)
\displaystyle\sum_{1\leqq i\lt j\leqq n}||\textbf{x}_i-\textbf{x}_j||^2=n\displaystyle\sum_{i=1}^n ||\textbf{x}_i-\textbf{g}||^2
(ここで \textbf{g}=\dfrac{1}{n}\displaystyle\sum_{i=1}^n \textbf{x}_i
が成立する( 分散を表わす第3の表現(その2) - 球面倶楽部 零八式 mark II に書いた)ことがわかる(別に何次元の何点と考えても成立するが,n 次元の n+1 点の場合について考えたものが X の投稿).この分散を表す第3の表現については,今から8年ほど前に雑誌「大学への数学」で見掛けたし,いくつかの統計の本でも見掛けた.

まぁ,中線定理の一般化であるスチュワートの定理が分散と関係があるのだから当然と言えば当然.これを機に分散の第3の表現が世の中に知られるといいね.

これは最小二乗基準においては,全てのデータをなるべく離すようにしようとすることと,分散をなるべく大きくするようにすることが等価であることを示しており,ブログ主は判別分析を考える上で自力で分散の第3の表現に辿りついたのである.遠い目.

分散を表わす第3の表現に関しては
公式に代入しただけなのに - 球面倶楽部 零八式 mark II
にも書いてあった.お笑い投稿だけど.

2025.06.19追記
Xの人が「分散」に気がついたようです