母集団推定とは
統計解析で、母集団という概念はとても重要です。そのくせ誤解されていることが多い概念でもあるので、ゆっくり考えましょう。 

私たちが「ばらつき」がある現象や状況を調べるとき、複数のデータをとって、その現象や状況は「全体的に見てどのようなものか」を表す指標を見つけようとします。1個1個のデータを正確に予測することはできませんが、「全体を平均すれば、このくらい」、「だけど、平均からこのくらいばらつくことが多い」とか、あるいは「全体の割合としては、このくらい。だから、もう1度調べたとしても、たぶんこれくらいの確率でこうなる」などです。このようにデータという変数(データをとるたびに異なる値をとるもの=変化するもの)から、なんとかして定数(そのデータを表す決まった値)を見つけ出そうという試みが統計解析の1つです。

母集団には、「選挙のときの有権者全員」のように総データ数が有限な有限母集団と、無限個のデータがあると想定して考えられる無限母集団があります。そして、統計解析では一般的に、無限母集団のことを母集団と呼びます。無限母集団には、データが無限の数あります。そのため、その変数(データをまとめたもの:例えば身長、勝ち負け、温度などの名称が変数であり、ここの数値がデータ)がとりうる全ての値に関する確率を正確に決定づけることができます。一方、現実に私たちがとるデータは、けっして無限大にはなりません。そのため、私たちは、無限母集団では定数となっている確率の値を、手持ちの限られたデータから推定しなければなりません。これが母集団推定です。

母集団推定のために私たちが頼りにできるのは、普通はデータだけです。そのため、私たちは「母集団は、いま手元にあるデータが最も出やすい無限母集団だろう」という前提を置いて母集団を推定します。この考え方を最尤推定といいます。最尤推定のもっと詳しい説明はあとでおこないます。

確率分布
ある変数のデータでヒストグラムを描くと、そのヒストグラムはXY平面上に描かれた「山」のように見えます。きっと本物の母集団も、全体としては「山」のような形をしているのでしょう。母集団推定とは、無限母集団によって描かれる「山の形(X軸上のどのあたりに「峰」があり、峰はいくつあって、そして裾野はどのように広がっているか)」を推定する作業です。

でも、無限母集団によって描かれる山の形は誰も知りません。そこで、先人たちは数学を駆使して様々な「仮想の山」を描く関数を考え出しています。現在の母集団推定の基本は、自分のデータを、既存の(つまり先人が考え出した)無限母集団の「山」に当てはめたうえで、データにはそんな山がいくつあるのか(峰の数として見えるはず)とか、その山の頂点はX軸の数値として、どのあたりにあって(例えば平均はいくつで)、山の裾野はどのくらい広いのか(どのくらい中心からばらついているのか)などを推定するのです。

ここで既存の無限母集団の「山」と呼んだものが確率分布と呼ばれているものです。また、その確率分布という山の形を決めている関数が確率関数、あるいは確率密度関数と呼ばれているものです。実際のデータ解析でも、ヒストグラムでデータの「山」を把握することが大事です。その理由は、データにあてはめる確率分布を根本的に間違えることが統計解析で一番大きな (けれどもよく見かける) 間違いだからです。

母集団推定の方法:最尤推定
データから母集団を推定するとき、私たちは「母集団は、いま手元にあるデータが最も出やすい無限母集団だと考えよう」という前提を置いて、母集団を推定します。ここで「最も出やすい」とは、「最も高い確率で生じる」と言い換えることもできます。

例えば、1枚のコインを20回投げて裏か表を記録します。その結果、12回表が出て、8回裏だったとしましょう。あなたは、このコインで表が出る確率はどのくらいだと推定すればよいでしょうか。50%だと考えますか。それでは、次の例を考えてから、もう一度この例に戻りましょう。今度は別のコインを投げてみます。20回中19回表が出て、裏は1回しか出ませんでした。さて、今度のコインを無限に投げたとき、表が出る確率は50%でしょうか。50%だと考える人は、だいぶ減ったと思います。コインになにか偏りがあって、このコインは表が高い確率で出るコインなのだ、と考える人が増えたことでしょう。このような考え方をさらに突き進めて、「いま手元にあるデータが得られる確率が一番高くなる(つまり最大値となる)無限母集団を推定しよう」という発想が最尤推定の基本です。

最尤推定法は、とにかくデータを信じる方法です。最尤推定法は、データが得られる確率が最も高い無限母集団を推定します。無限母集団は確率分布なので、その確率分布の形や位置を決める母数をデータから推定することになります。今回のコインの例は、じつは二項分布を想定すべき状況です。二項分布については、次回、詳しく説明しますが、いまは結論だけ述べます。最尤推定法では、20回中19回表が出たコインの無限母集団は、20回中19回表が出る確率が最も高い二項分布、つまり95%表が出る (母比率0.95の) 二項分布だと推定します。そして同様に、最初のコインを無限に投げた母集団は、20回中12回、つまり60%の確率で表が出る (母比率0.6の) 二項分布だと推定します。

このように、とにかくデータが得られる確率が最も高くなる確率分布の母数を推定するのが、最尤推定法による母集団推定です。母集団について信頼できる情報はデータだけなのだから、データを全面的に信頼して母集団を推定する、それが最尤推定法の極意です。

確率分布間の関係

마지막 수정됨: 월요일, 17 5월 2021, 11:48 AM