1 はじめに

確率・統計では、2 次元データ $(x_k,y_k)$ で相関係数や 回帰直線などを計算するのに、次のような平均値を使用することがある。
\begin{displaymath}
\begin{array}{l}
\displaystyle \bar{x} = \frac{1}{n}\sum_{...
...yle \overline{xy} = \frac{1}{n}\sum_{k=1}^n x_ky_k
\end{array}\end{displaymath} (1)

分散 $s_x^2$, $s_y^2$、共分散 $s_{xy}$、相関係数 $r$、 回帰直線などは、元のデータの個々の値やデータの個数 $n$ を知らなくても、 上記 (1) の値だけでいずれも求めることができる。
$\displaystyle s_x^2$ $\textstyle =$ $\displaystyle \frac{1}{n}\sum_{k=1}^n (x_k-\bar{x})^2
= \overline{x^2}-(\bar{x})^2$ (2)
$\displaystyle s_y^2$ $\textstyle =$ $\displaystyle \frac{1}{n}\sum_{k=1}^n (y_k-\bar{y})^2
= \overline{y^2}-(\bar{y})^2$ (3)
$\displaystyle s_{xy}$ $\textstyle =$ $\displaystyle \frac{1}{n}\sum_{k=1}^n (x_k-\bar{x})(y_k-\bar{y})
= \overline{xy}-\bar{x} \bar{y}$ (4)
$\displaystyle r$ $\textstyle =$ $\displaystyle \frac{s_{xy}}{s_xs_y}
= \frac{\overline{xy}-\bar{x} \bar{y}}{%
\sqrt{\overline{x^2}-(\bar{x})^2}\sqrt{\overline{y^2}-(\bar{y})^2}}$ (5)

なお、(2) から (5) の式は、 いずれも最初の式が定義であり、 次の式がそれを展開して (1) の値で計算できる形に 変形したものである。

これにより、例えば、 「$\bar{x}=3$, $\bar{y}=4$, $\overline{x^2}=21$, $\overline{y^2}=19$, $\overline{xy}=16$ のとき、相関係数 $r$ を求めよ」 のような問題を作ることができる。

ただ、その場合例えば「$\bar{x}=3$, $\overline{x^2}=5$」のような値でも いいかというと、それはだめで、実際のデータではこのような組は起こりえない。

そこで本稿では、(1) の 5 種類の平均に対して 成り立つ関係を調べ、 どのような値であればそれらが実際のデータの平均になりうるか、 という条件を求めることを目標とする。 そういう条件が得られれば、それを満たすような平均は 心配せずに問題として出せることになる。

なお本稿は、学生にはあまり意味はなく、 試験問題、演習問題を作成する側に関係する内容だが、 私自身の備忘録もかねてまとめておくことにする。

竹野茂治@新潟工科大学
2014年11月18日