データの全体的な視覚的特徴を知りたい:変数間の関係
data(iris)
複数種類のデータ間の関係を視覚的に見たいときはplotを使います。
plot(iris)
もし図が出てこない場合は、「ウィンドウ」から「Quartz」を選んでみてください。画面に小さな四角が出てきたら、それを大きくしてみてください。
 このように、データセットを読み込んだときは、最初にplotと唱えて、そのデータ全体をざっと見てみる習慣をつけましょう。データ全体を図示することができて、以下のことが分かります。
(1)このデータにはどのような変数があるのか(今回の場合、Sepal.LengthやSpeciesなどが変数です)。
(2)個々の変数はどのくらいの数値なのか(自分でとったデータの場合、入力ミスなどによる「外れ値」にも気がつくことができます)、
(3)2つの変数間にどのような関係があるのか。

歯の成長でもやってみましょう。
data(ToothGrowth)
plot(ToothGrowth)
このデータはlenが連続変数、suppがカテゴリー変数です。doseは連続変数ですが、実験条件なので3段階に統一されています。そのため、irisに比べると「並んだ散布図」になっていますね。

データの全体的な特徴を知りたい:代表値
データの代表値一式を知りたいときはsummaryという呪文を唱えましょう。
summary(iris)
summary(ToothGrowth)
サイズのような量的変数の場合は、最小値、四分位数、中央値、平均値、最大値が表示されます。種小名のような質的変数の場合は、各名義のデータ数が表示されます。

データの変数名が知りたい
変数名だけが知りたいときはnamesを唱えます。
names(iris)
names(ToothGrowth)
すると、変数の名称一覧が出力されます。

データの頭出しをしたい。
変数名だけではなく、具体的な数値などを少しだけ見てみたいときは、データの頭出しをしましょう。headという呪文で、6行目までのデータを頭出しできます。
head(iris)
head(ToothGrowth)
6行目ではなく、10行目にしたいとか、3行目まででいいときは
head(iris, n=10)
head(ToothGrowth, n=3)
このように、n= で行数を指定できます。

Last modified: Tuesday, 16 February 2021, 12:40 PM