統計解析入門 with R: ｔ分布

ｔ分布
ｔ分布はｔ検定を始めとする仮説検定をおこなうための確率分布です。正規分布から派生した分布であり、ｔ分布のY軸は確率密度を示しています。
確率分布の呪文は、頭文字１字で「Rがすべき作業内容」を表し、２文字目から確率分布の略称となっていることが多いです。
ｔ分布の英名はt distributionなので「t」が正規分布の略称です。
頭文字1字には、d、p、rの３通りがあります。ｔ分布ではrを滅多に使わないので、省略します。
dt: 想定したｔ分布におけるX軸の値ごとの「確率密度」を求める。densityのd
pt: 想定したｔ分布において、X軸が、ある値以下となる(orより大きな値となる)「確率」を求める。probabilityのp

ｔ分布の確率密度関数
X1, X2, ... Xnを平均μ、分散σ²の正規分布に従う独立なデータ（確率変数）だとします。このデータの平均と分散 (不偏分散) は
\( \vec{X} = \frac{ \sum{X_i} }{n} \)
\( S^2 = \frac{1}{n - 1} \sum{(X_i - \vec{X})^2 } \)
ですね。
これをふまえて、ｔを以下の変数だとすると
\( t = \frac{ \vec{X} - \mu }{ \frac{S}{ \sqrt[]{n} } } \)
ｔ分布の確率密度関数は
\( f(t) = \frac{ \Gamma(( \nu + 1)/2) }{ \sqrt[]{ \nu \pi } \Gamma( \nu/2) } (1+t^2/ \nu)^{-( \nu+1)/2} \)
と表されます。ただし、\( \Gamma \)はガンマ関数というものです。\( \nu \)は自由度であり、\( \nu = n-1 \)です。ｔ分布は\( \nu \)によって決まり、もとの正規分布の母分散\( \sigma^2 \)（母標準偏差\( \sigma \)）の影響を受けません。ということは、仮説検定をする際に帰無仮説とする正規分布の母平均とデータ数を設定するだけで、母分散を設定しなくてもｔ分布は決まることになります。母分散\( \sigma^2 \)の影響を受けないというｔ分布の性質は重要です。

ｔ分布の確率密度をRで求める
あるｔ分布における各値の確率密度をRで求めたい場合はdtを用います。
自由度が１のｔ分布で、ｔ値が0の確率密度を求めましょう。
dt(0, df=1)
ｔ分布の中心はｔ値が０のときなので、この値がｔ分布の最大値です。
dt(-1, df=1)
dt(1, df=1)
ｔ値が−１のときと１のときの確率密度は同じ値ですね。
ｔ分布は０を中心とした左右対称の分布なのです。
dt(1, df=100)
自由度dfが違えば確率密度が違うことも分かりますね。

ｔ分布の全体像をR で描く
ｔ分布は自由度dfによって形が決まるので、dfの値を変えて比べてみましょう。
x <- seq(-5, 5, 0.01)
plot(x, dt(x, df=1), type="l", ylim=c(0, 0.5))
type="l"の「l」はイチではなくエルの小文字です。
lines(x, dt(x, df=10), col="red")
lines(x, dt(x, df=100), col="blue")
自由度が大きくなるほど、ｔ分布は標準正規分布に近づきます。
lines(x, dnorm(x, mean=0, sd=1), lwd=3, col="darkgreen")

あるｔ値以上、以下の確率をRで求める
ｔ値がー２以下になる確率を求めてみましょう。
pt(-2, df=1) #デフォルトがlower.tail=TRUEなので、ｔ値が-2以下となる確率Pを求めています。
pt(-2, df=10)
pt(-2, df=100)
このように、ｔ値が同じでも自由度が異なるときはP値も異なります。
ｔ検定などではｔ値とP値だけを記す人が多いですが、自由度dfの値も記しておくべきです。

마지막 수정됨: 월요일, 15 2월 2021, 6:32 PM