記述統計
記述統計とは
記述統計とは、データを整理し、そのデータの特徴を調べ、傾向をつかみ、ひと目で分かりやすいように図・表・代表値にまとめることを意味します。「データのまとめ」というと、「それなら、記述統計はいつも使ってるよ。平均を計算したり、データを図示したりすることだよね」と考えた人は、きっとたくさんいると思います。正解です。ただし、なにも考えずにまとめると、まとめかたが適切な場合と不適切な場合が出てきます。
それでは、手元にある自分のデータをどのようにまとめれば良いのでしょうか。答えを一言でいえば、目的に合わせてまとめるということになります。データを1つあるいは複数の数値にまとめるときは、その数値が本当にデータの代表値として適切かどうか、つまり目的に合っているかどうかを考える必要があります。
例えば選挙について考えてみましょう。選挙結果でどちらの候補が勝ったのかを知りたい人は、各候補の票数だけをまとめれば十分でしょう。このとき、まとめの数値は総得票数ですね。一方、選挙をすると投票率もよく話題にのぼりますね。投票率をもとに何かを論じたいならば、少なくとも投票率が何%だったかを記述する必要があります。さらに、その場合は有権者数や投票者数も記述したほうがよさそうです。なぜなら、有権者が30人しかいない村での投票率90%と、有権者が30万人の都市での投票率90%は、同列に論じることはできないからです。ひょっとすると前者の場合、いつも選挙に行かない人の個人名も、行かない理由までもが特定できていて、その人たちを除けば投票率が100%になるのかもしれません。後者の場合、投票に行かなかった人の理由は推察するしかありません。このように考えると、投票率について何かを論じるときには、その投票率を算出した有権者数という情報も、投票率と同じように重要であるように思えます。
「率」を提示するときには、その分母の数も示すべきであることは、野球の打率を考えても分かります。例えば生涯打率が5割だという人がいたとします。でも、その人は生涯2打数1安打だったから打率が5割だったのです。そういう人と、10000打席3000安打で生涯打率3割の人と、どちらが「上」かは何とも言えませんよね。「率」に対する評価は「分母」の数をふまえて行うべきなのです。
また別の例として、感染症の感染者数についても考えてみましょう。ある都市の感染率を知りたいのであれば、「ランダムに選ばれた人たち」を対象として、感染しているかどうかを調べなければなりません。また、ランダムに選ばれた人の人数も大事です。例えば「2人調べて1人感染していた」というデータと、「2万人調べて1万人感染していた」というデータは、感染率の信頼性に大きな違いがあります。また、もし「感染率が高そうな人」を最初から対象としていたのであれば、その調査で得られる感染率は実際の感染率よりも高い可能性があります。どの程度高くなるのかが予め分かっていない限り、この場合は感染率を算出しても無意味です。当然のことながら、新たに判明した感染者数という数字にも、統計解析的には意味がありません。実際の感染率とは関係なく、検査した人数が多ければ感染者だと分かった人数は増えますし、検査しなければ0です。「感染率が高そうな人」に的を絞った調査は、おそらく統計解析を目的としているわけではありません。誰を隔離すべきかを明らかにして、判明している範囲内での感染者の増加を防ぐことを目的としています。感染率のためのデータではないのです。このように、データをまとめる前に、このデータがどのような方法で得られたのか、どのようなことを知りたい・伝えたいデータなのかをよく考えなければなりませんね。
「平均像」は、必ずしも平均では分からない
数値のデータを目の前にすると、平均を計算したくなる人や、計算しなければならないと考える人もいると思います。たしかに平均は、多くの場合、データの重要な代表値です。でも、データの平均を計算することが不要な場合もあります。さらに、平均を記すことによって誤解を生む場合もあります。そのような場合は、平均(だけ)を提示べきではありません。例えば、1, 2, 1, 0, 1, 0, 0, 0, 10, 0という10個のデータがあるとしましょう。このデータの平均は15/10 = 1.5ですが、10というデータがなければ5/9 = 0.556です。1つだけ10という外れた数値があるせいで、単純に計算された平均は、全体像をうまく表していないことになるのです。30代男性の平均年収なども、すごく年収が高いごく少数の人達が平均値を高くしているため、過半数の30代男性よりも平均年収のほうが高くなります。「平均的な」年収の指標は、平均よりも中央値のほうが良いかもしれませんね。
繰り返しになりますが、データを何かの数値にまとめるときは、その数値が本当にデータの代表値として適切かどうかを考える必要があるということです。
図示の重要性
データを1つの数値にまとめるよりも先にやっておきたい記述が、図示です。図に示すことによって、私たちはデータの全体像を視覚的なイメージとして捉えることができるようになります。図示は、データの統計解析の第一歩であり、また、最終的な統計解析の結果を表現する代表的な方法でもあります。統計解析は図示に始まり、図示に終わるのです。
さて、図示はもちろんのこと、統計解析全般を実際におこなっていくうえで便利な道具があります。それは、Rというフリーソフト (プログラミング言語)
です。近年では、私の専門分野(生態学)でも他の分野でも、Rを使って統計解析した論文がすごく増えました。Rは無料で、macでもwindowsでも使えます。Rを使えば高度なデータ解析が格段に簡単になります。もちろん代表値の算出や図示も簡単なので、統計解析の勉強にも大いに役立ちます。