前回の記事で説明したCSVファイルと、同じようにRStudioの作業で使いやすいTSVファイルについて説明させて頂きます。
CSVとTSVファイルは、いわゆるテキストファイルであり、データそのもの以外の情報はありません。
一方、ExcelやGoogle スプレッドシートなどで利用される .xlsx(Excelファイル)は、計算機能などが併せて保存され、一般的なテキストエディタ(メモ帳など)では開けません。
CSVとTSVファイルは、メモ帳などで開くことができ、どのOSで作ってもデータが崩れない(互換性がよい)ため、どんな作業環境で作ったファイルでも、同じようにRStudioでの作業がスムーズです。
著者は、WindowsやLinuxなど異なるOSで作業をすることがありますが、どちらで保存したCSVやTSVデータでも気にすることなく作業出来ています。
◆CSVファイル
CVSファイルは、Comma Separated Valuesの略であり、カンマで区切られたデータです。
ファイル名.csv というファイルです。
メモ帳で開くと、このように、列ごとにカンマ(,)で区切られています。
Rでは以下のコードで読み込みができます。
>nougyoshotoku<-read.csv("nougyosyotoku.csv")
>head(nougyoshotoku)
Year Rice Wheat Millet Beans Potatoes
1 1993 28,359 1,103 51 770 2,467
2 1994 38,249 1,027 60 674 2,453
3 1995 31,861 843 61 711 2,431
4 1996 30,540 963 59 763 2,418
5 1997 27,792 1,046 60 722 2,208
6 1998 25,148 959 50 732 2,727
◆TSVファイル
TSVファイルは、Tab Separated Valuesの略であり、タブで区切られたデータです。
ファイル名.tsv というファイルです。
このファイルをメモ帳で開くと、下記のようになり、列ごとにタブ(空白)で区切られています。
tsvを読み込むときは、read.delim(“ファイル名”)を使ってください。
>nougyosyotoku_t<-read.delim("nougyosyotoku.tsv")
>head(nougyosyotoku_t)
Year Rice Wheat Millet Beans Potatoes
1 1993 28,359 1,103 51 770 2,467
2 1994 38,249 1,027 60 674 2,453
3 1995 31,861 843 61 711 2,431
4 1996 30,540 963 59 763 2,418
5 1997 27,792 1,046 60 722 2,208
6 1998 25,148 959 50 732 2,727
他にも方法はありますが、こちらで読み込みが可能です。
どうしても .xlsx(エクセルファイル)を読込みたい場合
・パッケージ readxl を使いましょう。
◆Excelファイル
Excelファイルは、CSVとTSVのようにそのまま読み込むことができないので、CSVやTSVに保存しなおして上記のように読み込むという方法があります。
しかし、手間がかかるので、もう少し簡単に、そのままExcelファイルを読み込ませる方法について説明します。
readxlパッケージを使用するのが簡単かと思います。
readxlは instal.packages(“readxl”) を入力して、実行。これでインスト―ルができます。
※readxlはtidyverseなどを既にインストールされている場合は、インストール不要です。
では、実際excelを取り込む前には、「このパッケージ使います!」というコマンドの 「 library(readxl) 」 の入力をして作業に入ります。
> library(readxl)
> nougyosyotoku_e<-read_excel("nougyosyotoku.xlsx")
> nougyosyotoku_e
# A tibble: 27 x 6
Year Rice Wheat Millet Beans Potatoes
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1993 28359 1103 51 770 2467
2 1994 38249 1027 60 674 2453
3 1995 31861 843 61 711 2431
4 1996 30540 963 59 763 2418
5 1997 27792 1046 60 722 2208
6 1998 25148 959 50 732 2727
7 1999 23761 1128 65 922 2567
8 2000 23210 1306 72 1013 2298
9 2001 22284 1293 59 964 1978
10 2002 21720 1513 69 991 1928
# ... with 17 more rows
read_excelはパッケージで取り込んでいますので、有用な情報も少し載せる機能があります。
A tibble: 27×6 これは、行27 列6 ですというデータフレームの情報を先頭一行に入れて、
全データ表示にせず、確認しやすいよう上の方の情報までの表示とする機能もあります。
今回は、CSVやTSVファイルの読み込む方法と、
どうしてもExcelファイルを読み込みたいという場合には、readxlのパッケージを使ってみましょう というお話でした。
参考書籍
コメント