大学院講義


目次


講義中の配布プリント

講義中に配布したプリントを、 画像ファイルと PDF ファイルにして置きます。 手書きなので多少 (かなり ?) 見にくいですが配布しているものと同じものです。

目次に戻る

余談、グラフなど


中心極限定理のシミュレーション

講義中にも紹介しましたが、 ある確率分布に従う独立同分布なたくさんの確率変数の平均は、 正規分布に近くなる、というものをシミュレーションしてみました。 ここではそれについて紹介しておきます。

ある確率分布に従う確率変数を生成するには、[0,1) を一様分布する 乱数を使います。 [0,1) を一様分布する乱数は、それ自身、次のような関数を密度関数とする 確率変数 (y) と見ることができます。

一様乱数の密度関数
これを使って、任意の確率分布に従う確率変数を作ることができます。 それには、 "Numerical Recipes in C"(W.H.Press 他、丹慶勝市他訳、技術評論社) p215-216 にあるように、その確率分布の分布関数の逆関数を使って
x = (F の逆関数)(y)
とすればいいだけです。

後は、それに従って、y の値をたくさん生成させて x の値の分布を 取ればいいだけなので、簡単にコンピュータでシミュレーションできます。

元になる確率分布は、以下の確率密度関数を持つものを使いました。
シミュレーションで使用した密度関数
これは次のような平均、分散を持ちます。
その平均と分散
なお、実験では a=5.0, b=6.0 としています。

  1. この密度関数による確率分布に従った変数の値を 10 万個生成させて、 それを 1/1000 刻のヒストグラムにして縦軸のスケールが密度関数と 同じになるようにスケール変換したのが以下のグラフです。
    密度関数と 10 万個の変数値の分布
    実線が元の密度関数のグラフです。だいたい一様乱数による度数分布は 密度関数と似た感じに分布しているように見えます。
  2. このような N 個の変数の平均を新たな確率変数としたときの ヒストグラムを以下に示します。なお、実線は正規分布
    極限となる正規分布
    の密度関数のグラフです。中心極限定理は、元の分布が何であっても、 N が大きくなるとこの正規分布に近づいて行くという主張です。 段々正規分布に近くなる様子が見えると思います。 なお、この正規分布は N が大きくなると分散が小さくなるので、 平均の方にまとまってきます。それもグラフからわかります。

(06/22 2001)
目次に戻る

アクセス時間間隔と指数分布

講義中にも紹介しましたが、 銀行窓口などの客と客との時間間隔のようなアクセス時間間隔は、 ある自然な仮定の元で指数分布になり、 一定時間内のアクセス回数はポアソン分布になります。

そこで、例えば WWW サーバへのアクセスやメールサーバへのアクセスも そのようになっているか、 うちの研究室のサーバのログを元に調べてみました。 これらのサーバにはアクセスログという履歴ファイルが残りますが、 そこからアクセス間の時間間隔を計測し、 適当な時間幅に対するヒストグラムを書いてみます。

メールサーバの方は 03/22 ~ 05/23 までのもの (3333 件)、 WWW サーバの方は 02/19 ~ 05/23 までのもの (441610 件) を使用しました。 メールサーバの方はデータが多くないので、 あまり滑らかなグラフにはなりません。 しかも、変化の様子を細かくみるために度数分布の階級幅を短くすると、 ノイズの影響をまともに受けるので、階級幅をあまり短くもできません。 以下は、階級幅を 25 秒毎としたものと 50 秒毎としたもののヒストグラムを、 階級値をそのまま高さとしたものと、その対数を取って高さとしたグラフを 重ねて描いたものです。

時間間隔が指数分布に従うとすれば、 log(階級値) のグラフは直線になるはずですが、 ほぼ良さそうですがグラフを見てわかる通り、 一番小さい階級に対する階級値がいずれもやや突出しています。 つまり、メールサーバへのアクセスは、 アクセスが混んでいないところはほぼ指数分布に従い、 一方で指数分布には従わない形でアクセスが非常に混んでいる部分がある、 という状況だということがわかります。

次は WWW サーバですが、こちらはデータが多いので階級幅が小さくても かなり滑らかなグラフになります。 以下は、階級幅を 5 秒毎としたものと 10 秒毎としたもののグラフです。

これも log(階級値) のグラフは、時間間隔が大きい方では直線のようですが、 時間間隔が短いところでは指数分布を越えた形で分布している様子が見て取れます。 WWW サーバへのアクセスは、一度アクセスがあると HTML ファイルの取得以外に そのページ内の画像ファイルの取得などがあって、 同時に複数のアクセスが発生することがあります。 また、一度アクセスに来てそのまま帰るのではなく、 リンクをたどって再び同じサーバ内の別のページへアクセスする、 ということもよくあります。 多分そういった事情で時間間隔の短いアクセスが、指数分布を越えた形で 発生しているのだろうと思われます。

時間間隔が指数分布でない、ということは一定時間のアクセス数も ポアソン分布ではない、ということを意味していますので、 例えば負荷分散などの調査目的でインターネットのサーバアクセスの シミュレーションをアクセス回数がポアソン分布に従うとして行なう、 といったことを聞くことがありますが、 それは負荷が非常に高い状況ではあまり実際の状況を反映しない、 という風にも考えられるのではないでしょうか。

(06/13 2003)
目次に戻る

証明補遺 (講義中とばした証明など)


連続分布の確率変数の独立性条件

連続分布の場合、確率変数 x と y が独立であるということと、 (x,y) の密度関数が、x の密度関数と y の密度関数の積であること、 および (x,y) の分布関数が、x の分布関数と y の分布関数の積であること、 はいずれも同値になりますが、その証明はとばしましたのでここに載せます。

下のいずれかをどうぞ。


(06/08 2001)

PDF ファイルを追加し、HTML 版にそれへのリンクを追加しました。
(01/13 2009)

目次に戻る

超幾何分布の平均、分散、極限

超幾何分布の平均と分散、およびその極限が二項分布になることの計算は 面倒なので講義ではとばしました。ここに載せておきます。

下のいずれかをどうぞ。


(06/08 2001)

PDF ファイルを追加し、HTML 版にそれへのリンクを追加しました。
(01/13 2009)

目次に戻る

中心極限定理

一般の連続分布に対する中心極限定理の証明は、かなり準備が必要で 難しいのですが、二項分布に関する中心極限定理 (ド・モアブル = ラプラスの定理) は、スターリングの定理を使えば ある程度の計算で証明できますのでそれをここに載せます。

下のいずれかをどうぞ。


(06/22 2001)

PDF ファイルを追加し、HTML 版にそれへのリンクを追加しました。
(01/13 2009)

目次に戻る

相関係数に関する一考察

この講義の最初の年に、 相関係数と回帰直線に関するある疑問を感じて少し計算したのですが、 それをまとめましたので、ここに置きます。


(10/18 2004)

HTML 版に PDF ファイルへのリンクを追加しました。
(01/13 2009)

目次に戻る

標本分散、不偏分散が一致推定量であること

「確率・統計」の講義の点推定のところで、 教科書などには不偏分散と標本分散は どちらも母分散の一致推定量である、と書いてあったのですが、 証明は省略されていたのが気になり、自分で計算してみました。 ここにそれをまとめておきます。


(07/04 2013)

目次に戻る
作成日: 07/04 2013
竹野茂治@新潟工科大学 (shige@iee.niit.ac.jp)