Rで散布図の可視化と考察を、Rに入っているデータセットairqualifyを使用して行います。
散布図とは横軸と縦軸に2つの項目の量や大きさ等を対応させて、プロットしたものです。
プロットが右上がりに分布する傾向であれば正の相関があり、右下がりに分布する傾向であれば負の相関があると言えます。
散布図を作成した結果読み取れることと、その考察をプレゼンテーションにしました。
◆データセットについて
今回、Rのdatasetのairqualityを使用します。
既に投稿済みのRでヒストグラムの可視化と考察 ーデータセットirisを使用ーの記事でdatasetについて
head(iris) #irisデータの冒頭部分を確認
class(iris) #データ形式
help(iris) #irisデータの情報
これらのコードでiris の情報を確認しました。
str(airquality) #airqualityの概略
'data.frame': 153 obs. of 6 variables:
$ Ozone : int 41 36 12 18 NA 28 23 19 8 NA ...
$ Solar.R: int 190 118 149 313 NA NA 299 99 19 194 ...
$ Wind : num 7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ...
$ Temp : int 67 72 74 62 56 66 65 59 61 69 ...
$ Month : int 5 5 5 5 5 5 5 5 5 5 ...
$ Day : int 1 2 3 4 5 6 7 8 9 10 ...
help(airquality) #airqualityデータの情報
head(airquality)
Ozone Solar.R Wind Temp Month Day
1 41 190 7.4 67 5 1
2 36 118 8.0 72 5 2
3 12 149 12.6 74 5 3
4 18 313 11.5 62 5 4
5 NA NA 14.3 56 5 5
6 28 NA 14.9 66 5 6
str() でも、上記のようなデータの概略を確認することができます。
help()にて、datasetの情報がRStudioの右下の区画に表示されます。
airqualityは1973年5月から9月までのニューヨークの大気環境の測定結果です。
各項目は以下の通りで、各日における測定データを記録しています。
Ozone:オゾン(ppb)
Solar.R:日射量(lang)
Wind:風速(mph)
Temp:気温(degrees F(°F華氏))
Month:月 (1-12)
Day:日 (1-31)
head()でデータの冒頭を確認すると、1列目は、5月1日のOzone 41 ppb, Solar.R 190 lang, Wind 7.4 mph, Temp 67 °F という測定結果であったということです。
◆散布図の作成
plot(airquality$Ozone, airquality$Wind) #横軸Ozone,縦軸Windの散布図
散布図作成のコマンドとしてplot()を用います。plot(横軸, 縦軸)としてプロットされます。
横軸にOzone、縦軸にWindをプロットし、相関関係を見ることにしました。
airqualityのデータのOzoneの列を指定する場合、airquality$Ozoneと表記します。
上記のコードで表示された図がこちらです。
横軸が大きくなるほど、縦軸は小さくなっており、右肩下がりの傾向があることがわかりました。
では、少しデータを修正してみます。
plot(airquality$Ozone, airquality$Wind,xlab="Ozone", ylab="Wind", pch=5)
xlab=”x軸ラベル”, ylab=”y軸ラベル”を指定しました。
pch= で、プロットの形を◇に変更しました。
以下のプロットの形表を参考に、pch=で番号を指定すると、指定した形でプロットできます。
また、全項目における散布図を全て表示したい場合は、以下のコードで一括表示されます。
plot(airquality) #全てのデータを用いて、それぞれの項目の散布図
この図にて、各項目同士の相関関係を一度に見ることがきますので、まずこちらを見てから、フォーカスする項目同士を決めてもよいかもしれません。
◆プレゼンテーション資料
*これら3つのデータ(Temp, Ozone, Wind)の関係を議論する上で、実際には疑似相関の存在を考慮する必要があるように思われます。
参考書籍
コメント