Rで散布図 ー相関関係の確認, plotー

Rでデータ解析と可視化

Rで散布図の可視化と考察を、Rに入っているデータセットairqualifyを使用して行います。

散布図とは横軸と縦軸に2つの項目の量や大きさ等を対応させて、プロットしたものです。

プロットが右上がりに分布する傾向であれば正の相関があり、右下がりに分布する傾向であれば負の相関があると言えます。

散布図を作成した結果読み取れることと、その考察をプレゼンテーションにしました。


◆データセットについて

今回、Rのdatasetのairqualityを使用します。

既に投稿済みのRでヒストグラムの可視化と考察 ーデータセットirisを使用ーの記事でdatasetについて

head(iris) #irisデータの冒頭部分を確認

class(iris) #データ形式

help(iris) #irisデータの情報

これらのコードでiris の情報を確認しました。

str(airquality) #airqualityの概略
'data.frame':	153 obs. of  6 variables:
 $ Ozone  : int  41 36 12 18 NA 28 23 19 8 NA ...
 $ Solar.R: int  190 118 149 313 NA NA 299 99 19 194 ...
 $ Wind   : num  7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ...
 $ Temp   : int  67 72 74 62 56 66 65 59 61 69 ...
 $ Month  : int  5 5 5 5 5 5 5 5 5 5 ...
 $ Day    : int  1 2 3 4 5 6 7 8 9 10 ...
help(airquality) #airqualityデータの情報
head(airquality)
  Ozone Solar.R Wind Temp Month Day
1    41     190  7.4   67     5   1
2    36     118  8.0   72     5   2
3    12     149 12.6   74     5   3
4    18     313 11.5   62     5   4
5    NA      NA 14.3   56     5   5
6    28      NA 14.9   66     5   6

str() でも、上記のようなデータの概略を確認することができます。

help()にて、datasetの情報がRStudioの右下の区画に表示されます。

airqualityは1973年5月から9月までのニューヨークの大気環境の測定結果です。

各項目は以下の通りで、各日における測定データを記録しています。

Ozone:オゾン(ppb)
Solar.R:日射量(lang)
Wind:風速(mph)
Temp:気温(degrees F(°華氏))
Month:月 (1-12)
Day:日 (1-31)

head()でデータの冒頭を確認すると、1列目は、5月1日のOzone 41 ppb, Solar.R 190 lang, Wind 7.4 mph, Temp 67 °F という測定結果であったということです。

 

◆散布図の作成

plot(airquality$Ozone, airquality$Wind) #横軸Ozone,縦軸Windの散布図

散布図作成のコマンドとしてplot()を用います。plot(横軸, 縦軸)としてプロットされます。

横軸にOzone、縦軸にWindをプロットし、相関関係を見ることにしました。

airqualityのデータのOzoneの列を指定する場合、airquality$Ozoneと表記します。

上記のコードで表示された図がこちらです。

横軸が大きくなるほど、縦軸は小さくなっており、右肩下がりの傾向があることがわかりました。

では、少しデータを修正してみます。

plot(airquality$Ozone, airquality$Wind,xlab="Ozone", ylab="Wind", pch=5)

xlab=”x軸ラベル”, ylab=”y軸ラベル”を指定しました。

pch= で、プロットの形を◇に変更しました。

以下のプロットの形表を参考に、pch=で番号を指定すると、指定した形でプロットできます。

また、全項目における散布図を全て表示したい場合は、以下のコードで一括表示されます。

plot(airquality) #全てのデータを用いて、それぞれの項目の散布図

この図にて、各項目同士の相関関係を一度に見ることがきますので、まずこちらを見てから、フォーカスする項目同士を決めてもよいかもしれません。

 

◆プレゼンテーション資料

*これら3つのデータ(Temp, Ozone, Wind)の関係を議論する上で、実際には疑似相関の存在を考慮する必要があるように思われます。


参考書籍

コメント

タイトルとURLをコピーしました