3.1 多次元確率分布

古典的確率論では、連続確率変数 $x$ の 値の集合 $\Omega$ は通常実数全体 Rで、 その確率は、 $\mbox{\boldmath R}$ の部分集合 $A\subset\mbox{\boldmath R}$ に対して、 $x$ の値が $A$ に含まれる確率 $\mathrm{Prob}\{x\in A\}$ を考え、 1 点の値に対する確率 $\mathrm{Prob}\{x=a\}$ は 0 とする。 $x$ の確率分布は、分布関数 $F(x)$、 またはその導関数である密度関数 $f(x)=F'(x)$ によって決定する。 分布関数 (累積分布関数) $F(x)$ は、
  $\displaystyle
F(t) = \mathrm{Prob}\{x\leq t\} = \mathrm{Prob}\{x\in(-\infty,t]\}$ (12)
と定義され、1 点の確率が 0 であれば非減少な連続関数となる。

(12) により $a\leq x\leq b$ となる確率は

  $\displaystyle
\mathrm{Prob}\{a\leq x\leq b\} = F(b)-F(a)$ (13)
と表される。また、密度関数 $f(x)=F'(x)$ は、(13) より、
  $\displaystyle
\mathrm{Prob}\{a\leq x\leq b\} = \int_a^b f(x)dx$ (14)
となり、さらに一般に $A\subset\mbox{\boldmath R}$ に対して
  $\displaystyle
\mathrm{Prob}\{x\in A\} = \int_{A}f(x)dx$ (15)
となる。

分布関数 $F(x)$ は、

  $\displaystyle
\left\{\begin{array}{l}
\mbox{$F(x)$\ は非減少で連続、}\\
\displaysty...
... \hspace{0.5zw}F(\infty)=\lim_{x\rightarrow \infty}{F}(x)=1
\end{array}\right.$ (16)
を満たす必要があり、密度関数 $f(x)$ は、
  $\displaystyle
f(x)\geq 0,\hspace{0.5zw}\int_{\mbox{\boldmath\scriptsize R}} f(x)dx = 1$ (17)
を満たす必要がある。

逆に、(16) を満たす $F(x)$ を取れば、 $f(x)=F'(x)$ により密度関数が定まり、 それにより (15) で $x$ の確率が求まるので、 これで一つの連続確率分布が決定する。

または、(17) を満たす $f(x)$ を取れば、 (15) から $x$ の確率が求まるので、 一つの連続確率分布が決定し、その分布関数 $F$

  $\displaystyle
F(t) = \mathrm{Prob}\{x\leq t\} = \int_{-\infty}^{t}f(x)dx$ (18)
により得られる。よって、連続分布を定めるには、分布関数 $F(x)$、 密度関数 $f(x)$ のいずれかを設定すればよいので、 とりあえず本稿では $(\mbox{\boldmath R}, f, x)$ の組を「連続確率分布」と呼ぶことにする。

$n$ 個の連続確率分布 $(\mbox{\boldmath R}, f_j, x_j)$ ( $j=1,2,\ldots,n$) において、 Rの部分集合 $A_j\subset\mbox{\boldmath R}$ ($1\leq j\leq n$) に対して、

  $\displaystyle
\mathrm{Prob}\{(x_1,x_2,\ldots,x_n)\in A_1\times\cdots\times A_n\}$ (19)
を考えることができるとき、$n$ 次元連続確率分布を構成できる。 なお、$x_j$ の分布関数を $F_j(x_j)$ とする。

$n$ 次元確率変数 $\vec{x}=(x_1,\ldots,x_n)$ の 分布関数 $F(\vec{x})$ を、

  $\displaystyle
F(\vec{t}) = F(t_1,\ldots,t_n)
=\mathrm{Prob}\{\vec{x}\in (-\infty,t_1]\times\cdots\times(-\infty,t_n]\}$ (20)
すなわち、$x_1\leq t_1$ かつ ...$x_n\leq t_n$ となる確率に よって定義する。

このとき、

\begin{eqnarray*}\lefteqn{\mathrm{Prob}\{\vec{x}\in (a_1,b_1]\times(-\infty,t_2]...
...1\int_{a_2}^{b_2}dt_2\int_{a_3}^{b_3}
F_{x_1x_2x_3}(\vec{t})dt_3\end{eqnarray*}
等となり、これを繰り返すと、
  $\displaystyle
\mathrm{Prob}\{\vec{x}\in (a_1,b_1]\times\cdots\times(a_n,b_n]\}
=\int_{a_1}^{b_1}dt_1\cdots\int_{a_n}^{b_n}
F_{x_1\ldots x_n}(\vec{t})dt_n$ (21)
が得られる。よって、$\vec{x}$ の密度関数 $f(\vec{x})$ を この分布関数の $n$ 階導関数
  $\displaystyle
f(\vec{x})
= F_{x_1\ldots x_n}(\vec{x})
= \frac{\partial^n}{\partial x_1\cdots\partial x_n}F(\vec{x})$ (22)
と定義すれば、
  $\displaystyle
\mathrm{Prob}\{\vec{x}\in (a_1,b_1]\times\cdots\times(a_n,b_n]\}
=\int_{a_1}^{b_1}dx_1\cdots\int_{a_n}^{b_n}
f(\vec{x})dx_n$ (23)
となり、より一般に $A\subset \mbox{\boldmath R}^n=\mbox{\boldmath R}\times\cdots\times\mbox{\boldmath R}$ に対して
  $\displaystyle
\mathrm{Prob}\{\vec{x}\in A\}
=\int_A f(\vec{x})d\vec{x}$ (24)
となる。

$n$ 次元分布関数 $F(\vec{x})$ は、

  $\displaystyle
\left\{\begin{array}{l}
\mbox{$F(\vec{x})$\ は各 $x_j$\ に対して非減少で連...
...w \infty}{}\cdots\lim_{x_n\rightarrow \infty}{F(\vec{x})}=1
\end{array}\right.$ (25)
を満たし、$n$ 次元密度関数 $f(\vec{x})$
  $\displaystyle
f(\vec{x})\geq 0,\hspace{0.5zw}\int_{\mbox{\boldmath\scriptsize R}^n} f(\vec{x})d\vec{x} = 1$ (26)
を満たす。

さらに周辺分布として、$F(\vec{x})$$j=1,\ldots,n$ に対して

  $\displaystyle
\lim_{t_1\rightarrow \infty}{}\cdots\lim_{t_{j-1}\rightarrow \in...
...lim_{t_n\rightarrow \infty}{F(\vec{t})}
=\mathrm{Prob}\{x_j\leq t_j\}=F_j(t_j)$ (27)
を満たし、$f(\vec{x})$$j=1,\ldots,n$ に対して
  $\displaystyle
\int_{\mbox{\boldmath\scriptsize R}}dx_1\cdots\int_{\mbox{\boldm...
...}}dx_{j+1}\cdots
\int_{\mbox{\boldmath\scriptsize R}}f(\vec{x})dx_n
=f_j(x_j)$ (28)
を満たす。この (28) は、 この左辺を $\bar{f}(x_j)$ とすると、(23) より
$\displaystyle \int_{-\infty}^{t}\bar{f}(x_j)dx_j
= \mathrm{Prob}\{x_j\leq t\} = F_j(t)
$
となるので、両辺を $t$ で微分すれば $\bar{f}(t) = f_j(t)$ となること から得られる。

逆に (25) を満たす $F(\vec{x})$ によって (22) と (24) から 一つの $n$ 次元連続確率分布が決定し、(27) に よって周辺分布が決定する。

そしてそれらは $F$ の代わりに (26) を 満たす $f(\vec{x})$ によっても決定する。 この $n$ 次元連続確率分布を $(\mbox{\boldmath R}^n,f,\vec{x})$ と書くことにする。

竹野茂治@新潟工科大学
2022-07-28