t分布
t分布はt検定を始めとする仮説検定をおこなうための確率分布です。正規分布から派生した分布であり、t分布のY軸は確率密度を示しています。
確率分布の呪文は、頭文字1字で「Rがすべき作業内容」を表し、2文字目から確率分布の略称となっていることが多いです。
t分布の英名はt distributionなので「t」が正規分布の略称です。
頭文字1字には、d、p、rの3通りがあります。t分布ではrを滅多に使わないので、省略します。
dt: 想定したt分布におけるX軸の値ごとの「確率密度」を求める。densityのd
pt: 想定したt分布において、X軸が、ある値以下となる(orより大きな値となる)「確率」を求める。probabilityのp

t分布の確率密度関数
X1, X2, ... Xnを平均μ、分散σ2の正規分布に従う独立なデータ(確率変数)だとします。このデータの平均と分散 (不偏分散) は
\( \vec{X} = \frac{ \sum{X_i} }{n} \)
\( S^2 = \frac{1}{n - 1} \sum{(X_i - \vec{X})^2 } \)
ですね。
これをふまえて、tを以下の変数だとすると
\( t = \frac{ \vec{X} - \mu }{ \frac{S}{ \sqrt[]{n} } } \)
t分布の確率密度関数は
\( f(t) = \frac{ \Gamma(( \nu + 1)/2) }{ \sqrt[]{ \nu \pi } \Gamma( \nu/2) } (1+t^2/ \nu)^{-( \nu+1)/2} \)
と表されます。ただし、\( \Gamma \)はガンマ関数というものです。\( \nu \)は自由度であり、\( \nu = n-1 \)です。t分布は\( \nu \)によって決まり、もとの正規分布の母分散\( \sigma^2 \)(母標準偏差\( \sigma \))の影響を受けません。ということは、仮説検定をする際に帰無仮説とする正規分布の母平均とデータ数を設定するだけで、母分散を設定しなくてもt分布は決まることになります。母分散\( \sigma^2 \)の影響を受けないというt分布の性質は重要です。

t分布の確率密度をRで求める
あるt分布における各値の確率密度をRで求めたい場合はdtを用います。
自由度が1のt分布で、t値が0の確率密度を求めましょう。
dt(0, df=1)
t分布の中心はt値が0のときなので、この値がt分布の最大値です。
dt(-1, df=1) 
dt(1, df=1) 
t値が−1のときと1のときの確率密度は同じ値ですね。
t分布は0を中心とした左右対称の分布なのです。
dt(1, df=100)
自由度dfが違えば確率密度が違うことも分かりますね。

t分布の全体像をR で描く
t分布は自由度dfによって形が決まるので、dfの値を変えて比べてみましょう。
x <- seq(-5, 5, 0.01)
plot(x, dt(x, df=1), type="l", ylim=c(0, 0.5)) 
type="l"の「l」はイチではなくエルの小文字です。
lines(x, dt(x, df=10), col="red")
lines(x, dt(x, df=100), col="blue")
自由度が大きくなるほど、t分布は標準正規分布に近づきます。
lines(x, dnorm(x, mean=0, sd=1), lwd=3, col="darkgreen")

あるt値以上、以下の確率をRで求める
t値がー2以下になる確率を求めてみましょう。
pt(-2, df=1)  #デフォルトがlower.tail=TRUEなので、t値が-2以下となる確率Pを求めています。
pt(-2, df=10)
pt(-2, df=100) 
このように、t値が同じでも自由度が異なるときはP値も異なります。
t検定などではt値とP値だけを記す人が多いですが、自由度dfの値も記しておくべきです。

마지막 수정됨: 월요일, 15 2월 2021, 6:32 PM