Rにデータ取り込み ーCSV(read.csv), TSV(read.delim), Excel(readxlパッケージ, read_excel)ー

Rでデータ解析と可視化

前回の記事で説明したCSVファイルと、同じようにRStudioの作業で使いやすいTSVファイルについて説明させて頂きます。

Rでのデータ取り込みとデータ作成 ーCSVファイル(read.csv)ー
前回の記事で、Rの作業環境として、RStudioの基本的な使い方を説明しました。 今回は、RStudio上で、実際にRを動かします。 まずは、自前のデータをRに取り込みます。 といっても、どんなデータを使うの??と...

CSVとTSVファイルは、いわゆるテキストファイルであり、データそのもの以外の情報はありません。

一方、ExcelやGoogle スプレッドシートなどで利用される .xlsx(Excelファイル)は、計算機能などが併せて保存され、一般的なテキストエディタ(メモ帳など)では開けません。

CSVとTSVファイルは、メモ帳などで開くことができ、どのOSで作ってもデータが崩れない(互換性がよい)ため、どんな作業環境で作ったファイルでも、同じようにRStudioでの作業がスムーズです。

著者は、WindowsやLinuxなど異なるOSで作業をすることがありますが、どちらで保存したCSVやTSVデータでも気にすることなく作業出来ています。


◆CSVファイル

CVSファイルは、Comma Separated Valuesの略であり、カンマで区切られたデータです。

ファイル名.csv というファイルです。

メモ帳で開くと、このように、列ごとにカンマ(,)で区切られています。

Rでは以下のコードで読み込みができます。

>nougyoshotoku<-read.csv("nougyosyotoku.csv")
>head(nougyoshotoku)
 Year Rice Wheat Millet Beans Potatoes
1 1993 28,359 1,103 51 770 2,467
2 1994 38,249 1,027 60 674 2,453
3 1995 31,861 843 61 711 2,431
4 1996 30,540 963 59 763 2,418
5 1997 27,792 1,046 60 722 2,208
6 1998 25,148 959 50 732 2,727

 

◆TSVファイル

TSVファイルは、Tab Separated Valuesの略であり、タブで区切られたデータです。

ファイル名.tsv というファイルです。

このファイルをメモ帳で開くと、下記のようになり、列ごとにタブ(空白)で区切られています。

tsvを読み込むときは、read.delim(“ファイル名”)を使ってください。

>nougyosyotoku_t<-read.delim("nougyosyotoku.tsv")
>head(nougyosyotoku_t)
  Year   Rice Wheat Millet Beans Potatoes
1 1993 28,359 1,103     51   770    2,467
2 1994 38,249 1,027     60   674    2,453
3 1995 31,861   843     61   711    2,431
4 1996 30,540   963     59   763    2,418
5 1997 27,792 1,046     60   722    2,208
6 1998 25,148   959     50   732    2,727

他にも方法はありますが、こちらで読み込みが可能です。

 


どうしても .xlsx(エクセルファイル)を読込みたい場合

・パッケージ readxl を使いましょう。

◆Excelファイル

Excelファイルは、CSVとTSVのようにそのまま読み込むことができないので、CSVやTSVに保存しなおして上記のように読み込むという方法があります。

しかし、手間がかかるので、もう少し簡単に、そのままExcelファイルを読み込ませる方法について説明します。

readxlパッケージを使用するのが簡単かと思います。

readxlは instal.packages(“readxl”) を入力して、実行。これでインスト―ルができます。

※readxlはtidyverseなどを既にインストールされている場合は、インストール不要です。

では、実際excelを取り込む前には、「このパッケージ使います!」というコマンドの  「 library(readxl) 」  の入力をして作業に入ります。

> library(readxl)
> nougyosyotoku_e<-read_excel("nougyosyotoku.xlsx")
> nougyosyotoku_e
# A tibble: 27 x 6
    Year  Rice Wheat Millet Beans Potatoes
   <dbl> <dbl> <dbl>  <dbl> <dbl>    <dbl>
 1  1993 28359  1103     51   770     2467
 2  1994 38249  1027     60   674     2453
 3  1995 31861   843     61   711     2431
 4  1996 30540   963     59   763     2418
 5  1997 27792  1046     60   722     2208
 6  1998 25148   959     50   732     2727
 7  1999 23761  1128     65   922     2567
 8  2000 23210  1306     72  1013     2298
 9  2001 22284  1293     59   964     1978
10  2002 21720  1513     69   991     1928
# ... with 17 more rows

read_excelはパッケージで取り込んでいますので、有用な情報も少し載せる機能があります。

A tibble:  27×6 これは、行27 列6 ですというデータフレームの情報を先頭一行に入れて、

全データ表示にせず、確認しやすいよう上の方の情報までの表示とする機能もあります。

 

今回は、CSVやTSVファイルの読み込む方法と、

どうしてもExcelファイルを読み込みたいという場合には、readxlのパッケージを使ってみましょう というお話でした。

 

参考書籍

コメント

タイトルとURLをコピーしました