二項分布からχ2分布まで
―乱数で探る二項分布、正規分布、χ2分布とχ二乗検定―
T:このサイトの目標は、χ二乗検定まで理解を進めてゆくことです。
S:どうやって「理解を進める」のですか?
T:統計は確率の現象を扱うから、全て乱数で考えれば事象がよくわかるはず。
S:つまり乱数を使ってどうなるのかやってみようというわけですね。
S:実験と同じですね。
1、問いによって現れるもの
「サイコロを振った時、1の目が何回出るのか?」
という問いは1の目の出る確率(1/6)の問題となるが、この問題を
「サイコロを60回振ったときに1の目が何回出るのか?」
と変えると、より広い世界が広がってくる。
S:確率からは10回が一番多そうだけど、11回や3回もあるよね。
S:1の目2の目3の目…がちょうど10ずつになることも珍しいような気がするな。
S:たぶん10回を中心として散らばり、そこから外れるほど少なくなる。
T:そういう考え方を統計的な思考というんだ。
その思考を進めて・・・その分布はどうなっているのだろうか?
S:ふと思ったけど、こういう問いを持たなければ、統計の考え方も出てこないわけだよね。
S:つまり、この問いによって、新しい数学のアイディア(χ2検定)が現れたということか。
S:問うということでそれまで見えなかった處に光が当たるんだね。
2、二項分布から正規分布へ
S:この分布は山型になるんじゃない。たしかめてみよう。
T:この分布を考えるために、確率を計算しよう。
例えば、サイコロを続けて60回投げてr回が出る場合の確率を考えてみよう。
r回出るということは1/6がr回で、5/6が(60−r)回。
しかもそれぞれの組み合わせがあるからその場合 60Cr をかける。
つまり、1がr回出る確率=60Cr・(1/6)n・(5/6)60-n
S:この計算はパソコンに任そう。
T:このようにいちいち計算するのが大変だから、いろいろな場合にあてはめれるように作ったアプレットのグラフがある。
コインを続けて投げる。1回投げて表が出る確率をpとする(裏の出る確率は1−p)。
n回投げた時の表の出た回数をSnとすれば、Snのとる確率は二項分布Pn(k)となる。
横軸は表の出た回数で縦軸がその確率を表している。
この初期値は60回サイコロを投げた時の1の目の出る確率の分布をあらわしている。
S:回数nを1回にすると・・・
1が1回出る確率は、0.166で、0回は0.834だ。今度は2回にしてみよう・・・
確率を0.5にしてみたらどうなるのかな・・・
このヒストグラムの面積は確率の合計だから1になるよね。
S:面白い。600回だとどうなるの?・・あれ?どこかへ行ってしまった・・グラフをずらして(つまんで動かす)・・
山がだんだん低くなる。
S:でも全体の面積は変わらないよ。どうしてだろう?
S:凸凹していたのが、だんだんなめらかになるね。どういう曲線になるんだろう?
S:でも、これは理論値でしょう。実際にはどうなの?
T:そうだよね。そこで乱数を使ってシュミレートしてみよう。
実際に玉を取り出してみて、それぞれ何個ずつになるのか試してみましょう。
S:なるほど回数を多くしていくと、理論値のグラフに近づいていきますね。
S:こうやって乱数を使ってシュミレートするとどんな分布になるのかすぐに確かめることができるんですね。
T:ジオジェブラにはいろいろな乱数や統計のコマンドがあるよ。これを使っていろいろ確かめてみよう。
T:このような確率の分布を二項分布(出る出ないの二項だから)という。
そして、この確率分布は回数を多くしてゆくと正規分布に近づいてゆく。
この乱数は、的(2,2)を狙って射撃をした時の痕。
この点を区間(0.05)を決めて集計すると、下のヒストグラムになる。
さらに階級の数を増やして巾を小さくすると・・・(やってみましょう)
S:正規分布ってどういうときにできる分布なんですか?
T:中心(平均)にかたまって集まる分布です。
例えば測定の誤差のデータはほぼ正規分布になります。
そして、この分布は平均と標準偏差で決まります。⇒
【正規分布の標準偏差】
【正規分布のグラフ】
S:こういう分布って多いのかな?
S:この分布の式ってどうやって出したの?
3、確率密度関数
T:正規分布の乱数を見ると、中心に多くあることがわかるね。
しかし階級巾をだんだん小さくしていくと、点も少なくなり0になる。
S:つまり、確率が0になるからこの分布のグラフの意味が解らなくなりますね。
T:そこで確率密度関数を考えます。
P(2)=0だけど、P(2≦x≦3)の範囲なら確率がわかります。
その確率を積分で定義するのです。
S:この範囲にくる確率を求めるのがこの分布の意味ということですね。
4、サイコロの問題
T:サイコロはとても調べやすいので、これを例にとって次の問題を考えてみよう。
このサイコロがいかさまサイコロかどうか確かめたい。
調べてみると60回投げたうち
1の目が14回、2の目が5回、3…6、4…13、5…6、6…16だった。
このサイコロはインチキサイコロだろうか?
T:こういう問題をどう解いたらいいのだろうか?
S:現象を実際に出してみるのだから、まず正しいサイコロで、こういう出方があるのかどうか実際に調べる。
T:これは正しいサイコロを60回投げた時のχ二乗の乱数による分布。
標本のχ二乗(=11.8)がこの分布のどこに位置するのか?
S:上の標本からどうやってχ二乗の値を出せばいいのですか? ⇒【このサイコロはいかさまか?】
5、χ2分布
T:分布が正規分布になると仮定して、その時のばらつき測度をグラフにすると、χ二乗分布になります。
ここではそれを乱数によって作ります。
正規分布になるデータが、平均(期待値)からどれくらい散らばっているのかを調べるには、標準偏差と同じように二乗する。
正規分布乱数を使って、平均との距離の二乗を求め、それを並べたもの。
0に近い値が多くなることは予想できる。
この分布をχ二乗分布という。
このジオジェブラブックでは、難しい式や理論ではなく、乱数を使ってシュミレーションをしながら、どうなるのか調べていきます。
この続きは、ジオジェブラブック≪統計…二項分布からχ2検定まで≫へ
目次へもどる