3 メジアンと平均の表現

本節では 2 節の設定の元、 平均値 $M_n$ とメジアン $M_e$ を式で表してみる。

各階級のデータの $y_j$ 個のデータの値は、 代表値 $x_j$ の値を持つと考えれば、 平均値 $M_n$ は以下の式で表される。

\begin{displaymath}
M_n = \sum_{j=0}^N x_jy_j\left/\sum_{j=0}^N y_j\right.\end{displaymath} (1)

分母はデータの総量を表している。

これを、2 節の最後に述べた、 連続的な $y=f(x)$ で表されるヒストグラムだと考えると、 和は $f(x)$ に対する積分で表現され、

$\displaystyle \sum_{j=0}^N y_j\Delta$ $\textstyle \approx$ $\displaystyle \int_a^b f(x) dx$ (2)
$\displaystyle \sum_{j=0}^N x_jy_j\Delta$ $\textstyle \approx$ $\displaystyle \int_a^b xf(x) dx$ (3)

と近似されることになる。 ここで、ヒストグラムの面積は、 度数に底辺の $\Delta$ をかけたものになるので、 左辺には $\Delta$ がつくことになる。 このように考えると、結局 $y=f(x)$ で考えた平均 $M_n$ は、
\begin{displaymath}
M_n = \int_a^b xf(x)dx\left/\int_a^b f(x)dx\right.\end{displaymath} (4)

となる。 この (4) は、良く知られているように、
$M_n$ は、 $y=f(x)$ の下の $a\leq x\leq b$ の範囲を板のように考えたときの 重心の $x$ 座標に等しい」
ということを意味している。

一方、メジアン $M_e$ は中央値なので、$Me=k$ とすると

\begin{displaymath}
\sum_{j=0}^{k-1} y_j \approx \sum_{j=k+1}^{N} y_j\end{displaymath} (5)

であることになる。より厳密に言えば、
\begin{displaymath}
\left\vert\sum_{j=0}^{k-1} y_j-\sum_{j=k+1}^{N} y_j\right\vert\leq y_k\end{displaymath} (6)

となる。

これも連続的な $y=f(x)$ で近似して考えると、 (2) より (6) は

\begin{displaymath}
\left\vert\int_{a}^{M_e}f(x) dx - \int_{M_e}^{b}f(x) dx\right\vert
\leq f(M_e)\Delta
\end{displaymath}

と書けるが、連続的な方では $\Delta\approx 0$ と見れるので、
\begin{displaymath}
\int_{a}^{M_e}f(x) dx = \int_{M_e}^{b}f(x) dx\end{displaymath} (7)

となるとみなすことができる。 この (7) は、 (5) に対応すると見ることもできるが、
$x=M_e$$y=f(x)$ の下の $a\leq x\leq b$ の範囲を左右に分けると、 面積が等分される」
ということを意味している。

竹野茂治@新潟工科大学
2011年3月18日