連続2次元データの回帰直線

これは,曲線を一番近似する直線を最小2乗基準であてはめてみようというお話.

連続2次元データ (x,y)y=f(x)\alpha\leqq x\leqq\beta)に対して,yx への回帰直線 y=ax+bL(a,b):=\displaystyle\int_{\alpha}^{\beta} \{f(x)-(ax+b)\}^2\,dx\alpha\lt\beta)を最小にする ab として定義する.

ここで,関数 g(x)区間 [\alpha,\beta] における期待値 E[g(x)]区間 [\alpha,\beta] 上の一様分布の確率密度関数 U_{[\alpha,\beta]}(x)=\dfrac{1}{\beta-\alpha} に対し,
g(x) の期待値を E[g]:=\displaystyle\int_{\alpha}^{\beta} g(x)U_{[\alpha,\beta]}(x)\,dx=\dfrac{1}{\beta-\alpha}\displaystyle\int_{\alpha}^{\beta} g(x)\,dx によって定義し,
g(x) の分散を V[g]:=\dfrac{1}{\beta-\alpha}\displaystyle\int_{\alpha}^{\beta} (g(x)-E[g])^2\,dx で定義すると,
V[g]:=\dfrac{1}{\beta-\alpha}\displaystyle\int_{\alpha}^{\beta} \Bigl[\{g(x)\}^2-2E[g]g(x)+(E[g])^2\Bigr]\,dx
=E[g^2]-2(E[g])^2+(E[g])^2=E[g^2]-(E[g])^2
が成立する.また f(x)g(x) の共分散を
\mbox{Cov}[f,g]=E[fg]-E[f]E[g]
で定義する.

ここで \Delta:=\beta-\alpha とおくと,
\displaystyle\int_{\alpha}^{\beta} 1\,dx=\Delta\displaystyle\int_{\alpha}^{\beta} x\,dx=\Delta\cdot E[x]\displaystyle\int_{\alpha}^{\beta} x^2\,dx=\Delta\cdot E[x^2]
\displaystyle\int_{\alpha}^{\beta} f(x)\,dx=\Delta\cdot E[f]=\Delta\cdot E[y]\displaystyle\int_{\alpha}^{\beta} xf(x)\,dx=\Delta\cdot E[xf]=\Delta\cdot E[xy]\displaystyle\int_{\alpha}^{\beta} \{f(x)\}^2\,dx=\Delta \cdot E[f^2]=\Delta\cdot E[y^2]
であるから
L(a,b)=\{E[y^2]+a^2E[x^2]+b^2-2aE[xy]-2bE[y]+2abE[x]\}\cdot\Delta
が成立するので,離散データの場合と同様にして
a=\dfrac{\mbox{Cov}[x,y]}{V[x]}b=E[y]-aE[x]
のときに最小値 \dfrac{V[x]V[y]-\mbox{Cov}[x,y]^2}{V[x]}\cdot\Delta をとることがわかる.

1971年(昭和46年)東京大学-数学(理科)[3] - [別館]球面倶楽部零八式markIISR
1993年(平成5年)東京大学前期-数学(理科)[4] - [別館]球面倶楽部零八式markIISR
参照