データの種類について説明します。データの種類分けする理由は、その種類によって統計解析の方法が違うからです。

データの種類
 データは以下のように、量的データと質的データに大別できます。そして、それぞれ、さらに連続変数、不連続変数と、順位変数、名義変数に分けることができます。

<量的データ:足し算、引き算ができる>
 ・連続変数:実数データ (例:身長、時間)。ある数と別の数の間に無限の数がある。
 ・不連続変数:整数データ (例:個数、回数)。ある数と次の数の間隔は1で一定。
<質的データ:足し算、引き算ができない>
 ・順位変数:順位関係があるデータ (例:濃淡、上達段階 (入門-中級-上級))。
       順位をつけることはできるが、間隔が一定とはいえない。
 ・名義変数 (カテゴリー変数):順位関係がないデータ (例:有/無、函館/札幌/千歳)。

 上に挙げた各種類に付けられている名前は、じつは統計学の入門書でもばらつきがあります。これは「名前はどうでもいい。中身が大事だ」ということを意味しています。例えば、一次関数の説明で、Y = a X + bと書こうが、Y = s X + tと書こうが、別にどっちでもいいですね。aやsのことを「傾き」と呼んでも「定数」と呼んでも、あるいは「係数」などと名付けられていても大差ありません。一次関数のことが分かっている人にとっては、「まあ、その名前はなんでもいいけど、しいて言えば、傾きと呼んだほうが分かりやすいかな」くらいのものでしょう。これと同じです。名前はなんでもよいけど、中身が大事です。

データの種類分け
 実際のデータが、これらのうちのどの種類に類別されるのか。そのことで大きな見誤りがなければ良いのですが、これは意外と難しいところがあります。以下の例題で考えてみましょう。

問題)以下の項目はどの種類のデータとして扱うのが妥当か、検討して下さい。
 a) バイトをしているかしていないか
 b) 1日で釣れた魚の個体数
 c) 服の色
 d) 睡眠時間(時間単位;6時間、8時間など)
 e) 試験の点数(100点満点、記述式)
 f) サイコロの目(1〜6)

a)、b) については、あまり異論がないと思います。a) は名義変数、b) は不連続変数ですね。
 c)については、「暗い色から明るい色までのグラデーションがある」などと考えると、順位変数としてもよいと思いますし、「赤、白、黄色」みたいに名義変数として類別してもよいでしょう。d) については、時間は、本来、連続変数ですから、これを秒単位で記録しても、分単位、時間単位で記録しても、連続変数であることには違いありません。長さを測定するときだって、本当は無限に小数点を続けることができるような長さに対して、私たちは16cmなどと単位を決めて測定しています。d) は連続変数です。
 問題は、e) とf) です。まず、試験の点数。「これは整数だから、不連続変数だ!」と考えた人は、もう少しじっくり考えてみてください。試験では、たいてい、これは2点の問題、そっちは3点の問題みたいに、配点が異なる問題がありますが、それでは、2点の問題を1.5倍すると3点の問題となるのでしょうか。なりませんね。配点は、例えばその科目のなかでの難易度(と教員が考えているもの)や、合計を100点満点にしなければならないという制約や、全体の平均点が60点くらいになるような問題にしたいなどという出題者の都合などによって決まっています。ここでの1点の差は等間隔とはいえません。ということは、不連続変数だとは言えませんね。「受験では、合計点を出している」という人もいると思いますが、それは受験という制度で「合計点順に合否を決定する」などと決めているからです。英語の点数と数学の点数などは推し量っているものも異なるので、数学的、というか統計学としては足し算できるデータではないと思います。
 つぎに、サイコロの眼です。これも整数のように見えていますが、実際は、立方体に数字(絵)が描かれているだけです。つまり、サイコロの眼は名義変数です。

データの種類分けの間違い(生物学版)
ここまでの例と似ている生物学の例を出しましょう。
 ・発達度合いを数字で表現 → 整数のようだが本当は順位変数
 ・行動の違いを数字で表現 → 整数のようだが本当は名義変数
間違いかた:整数として平均値などを算出したり、量的データのように記述、仮説検定を実施している

 過去の論文の中には、このような類別の仕方を間違えて、とっても謎な解析をしている論文が意外とたくさんあります。皆さんには、これから専門教育を受けていく上で、過去の論文から様々なことを学んでいってほしいのですが、過去の論文で行われている統計解析の方法については、しっかり立ち止まって考える習慣を身につけてほしいです。なぜなら、間違っていることが多いからです。統計解析の方法で間違っている論文は、実験結果や調査結果の記述や解釈も間違っていることになります。ということは、それらから導き出される結論も間違っている可能性が高いです。たとえ有名な雑誌に載っていても、間違いは間違いです。

 配布資料の「ダメな統計学」も読んでおきましょう (最初のほうだけでもよいです)。

Última modificación: martes, 6 de abril de 2021, 18:15