講義中に配布したプリントを、 画像ファイルと PDF ファイルにして置きます。 手書きなので多少 (かなり ?) 見にくいですが配布しているものと同じものです。
講義中にも紹介しましたが、 ある確率分布に従う独立同分布なたくさんの確率変数の平均は、 正規分布に近くなる、というものをシミュレーションしてみました。 ここではそれについて紹介しておきます。
ある確率分布に従う確率変数を生成するには、[0,1) を一様分布する 乱数を使います。 [0,1) を一様分布する乱数は、それ自身、次のような関数を密度関数とする 確率変数 (y) と見ることができます。
これを使って、任意の確率分布に従う確率変数を作ることができます。 それには、 "Numerical Recipes in C"(W.H.Press 他、丹慶勝市他訳、技術評論社) p215-216 にあるように、その確率分布の分布関数の逆関数を使って![]()
とすればいいだけです。![]()
後は、それに従って、y の値をたくさん生成させて x の値の分布を 取ればいいだけなので、簡単にコンピュータでシミュレーションできます。
これは次のような平均、分散を持ちます。![]()
なお、実験では a=5.0, b=6.0 としています。![]()
実線が元の密度関数のグラフです。だいたい一様乱数による度数分布は 密度関数と似た感じに分布しているように見えます。![]()
の密度関数のグラフです。中心極限定理は、元の分布が何であっても、 N が大きくなるとこの正規分布に近づいて行くという主張です。![]()
講義中にも紹介しましたが、 銀行窓口などの客と客との時間間隔のようなアクセス時間間隔は、 ある自然な仮定の元で指数分布になり、 一定時間内のアクセス回数はポアソン分布になります。
そこで、例えば WWW サーバへのアクセスやメールサーバへのアクセスも そのようになっているか、 うちの研究室のサーバのログを元に調べてみました。 これらのサーバにはアクセスログという履歴ファイルが残りますが、 そこからアクセス間の時間間隔を計測し、 適当な時間幅に対するヒストグラムを書いてみます。
メールサーバの方は 03/22 ~ 05/23 までのもの (3333 件)、 WWW サーバの方は 02/19 ~ 05/23 までのもの (441610 件) を使用しました。 メールサーバの方はデータが多くないので、 あまり滑らかなグラフにはなりません。 しかも、変化の様子を細かくみるために度数分布の階級幅を短くすると、 ノイズの影響をまともに受けるので、階級幅をあまり短くもできません。 以下は、階級幅を 25 秒毎としたものと 50 秒毎としたもののヒストグラムを、 階級値をそのまま高さとしたものと、その対数を取って高さとしたグラフを 重ねて描いたものです。
次は WWW サーバですが、こちらはデータが多いので階級幅が小さくても かなり滑らかなグラフになります。 以下は、階級幅を 5 秒毎としたものと 10 秒毎としたもののグラフです。
時間間隔が指数分布でない、ということは一定時間のアクセス数も ポアソン分布ではない、ということを意味していますので、 例えば負荷分散などの調査目的でインターネットのサーバアクセスの シミュレーションをアクセス回数がポアソン分布に従うとして行なう、 といったことを聞くことがありますが、 それは負荷が非常に高い状況ではあまり実際の状況を反映しない、 という風にも考えられるのではないでしょうか。
(06/13 2003)連続分布の場合、確率変数 x と y が独立であるということと、 (x,y) の密度関数が、x の密度関数と y の密度関数の積であること、 および (x,y) の分布関数が、x の分布関数と y の分布関数の積であること、 はいずれも同値になりますが、その証明はとばしましたのでここに載せます。
下のいずれかをどうぞ。
PDF ファイルを追加し、HTML 版にそれへのリンクを追加しました。
(01/13 2009)
超幾何分布の平均と分散、およびその極限が二項分布になることの計算は 面倒なので講義ではとばしました。ここに載せておきます。
下のいずれかをどうぞ。
PDF ファイルを追加し、HTML 版にそれへのリンクを追加しました。
(01/13 2009)
一般の連続分布に対する中心極限定理の証明は、かなり準備が必要で 難しいのですが、二項分布に関する中心極限定理 (ド・モアブル = ラプラスの定理) は、スターリングの定理を使えば ある程度の計算で証明できますのでそれをここに載せます。
下のいずれかをどうぞ。
PDF ファイルを追加し、HTML 版にそれへのリンクを追加しました。
(01/13 2009)
この講義の最初の年に、 相関係数と回帰直線に関するある疑問を感じて少し計算したのですが、 それをまとめましたので、ここに置きます。
HTML 版に PDF ファイルへのリンクを追加しました。
(01/13 2009)