Rでデータ解析と可視化

Rでのデータ解析や可視化の作業について主に解説しています。

1.Rの基本操作と準備

①はじめに・準備
はじめに -Rでプレゼンテーション
無料で使える統計解析ソフトウェア Rの魅力
RとRStudioのインストール方法

②データの取り込み・保存
RStudioの基本的な使い方 ー作業場所とデータの管理・保存についてー
Rでのデータ取り込みとデータ作成 ーCSVファイル(read.csv)ー
Rにデータ取り込み ーCSV(read.csv), TSV(read.delim), Excel(readxlパッケージ, read_excel)ー
Google Colaboratory上でのRの作業方法+Google Driveのデータの保存・読み込み方法
Web上でR Studioを使おう!ーPosit Cloud, データの取り込みと出力ー
Rで作図を高解像度に保存する方法について -png(), ggsave() など-

③データの基本的な操作
Rでデータの選択 ーsubset関数, filter関数などー
Rでデータの結合① ー行の結合, rbind関数, bind_rows関数ー
Rでデータの結合② ー列の結合, cbind関数, merge関数ー

④データのクリーニング
Rで欠損処理① ーna.omit, is.na, na.rm, 欠損値含むダミーデータ作成、リストワイズ除去法、平均値代入法ー
Rで欠損処理② ーLittleのMCAR検定(mcar_test)、単一代入法(確定的回帰代入法, 確率的回帰代入法, mice)ー

2. 基礎的なデータ分析

⑤データの可視化と関係性の解析
Rでヒストグラム(度数分布)ーhistー
Rで散布図 ー相関関係の確認ー
Rで相関行列 ーPearsonの相関係数, corrplotの使い方ー
Rで相関係数のヒートマップによる可視化:新型コロナ陽性者数の都道府県別動向
Rで変数ごとに表示をカスタマイズできるヒートマップ ー革新的な可視化, funkyheatmapー
Rでベン図 ーggVennDiagram, venn, 最大7サンプル表示可能にー
Rでアップセット図(UpSet図) ーUpSetR, 集合の関係性を示す, サンプル数が多い場合におススメー

3. 統計学的検定

⑥2群の検定・比較
対応のある2群のt検定 ー箱ひげ図, ggpairedの使い方ー
Rで対応のない2群検定:Student t 検定, Welch’s t検定, 箱ひげ図, バイオリンプロット,ビースウォームプロット
Rで対応のない2群検定:Mann-Whitney U検定、Wilcoxon Rank-Sum 検定、箱ひげ図、バイオリンプロット

⑦3群以上の検定・比較
Rで3群以上の検定(パラメトリック検定)①ー分散分析(ANOVA)、多重比較(Tukey)、有意差表示付き箱ひげ図ー
Rで3群以上の検定(パラメトリック検定)② ーANOVA+Dunnett法, Welch ANOVA+Games-Howell法ー
Rで3群以上の検定(ノンパラメトリック検定)ーKruskal-Wallis検定, Dunn検定, Bonfferoni, Holmー
Rで3群以上の比較 ー二元配置分散分析(two-way ANOVA), 主効果,交互作用ー

⑧質的データの比較
Rでカイ二乗検定(適合度検定、独立性の検定、モザイクプロット)

⑨折れ線グラフ・時系列データ
Rで時系列データの折れ線グラフ ーggplot2による熊本の気温変化の分析ー
Rで両側2軸を異なるスケールに設定した折れ線グラフ ーgeom_line, scaleパッケージの使用ー
Rでggplotによる時系列データの可視化:新型コロナ陽性者数の県別動向

4. 高度なデータ分析

⑩主成分分析
Rで主成分分析(PCA) ーggbiplot, ellipse, 色分けー

Rでデータ解析と可視化

Web上でR Studioを使おう!ーPosit Cloud, データの取り込みと出力ー

R Studioの使用環境「Posit Cloud」のご紹介です。 いつものパソコン以外でR Studio使いたいけど、クラウド上でやれないかな。。 いろいろなツールで統計解析をやってるけど、この部分...
Rでデータ解析と可視化

Rでメタアナリシス② ー出版バイアスの評価:ファンネルプロット, Egger’sテスト, Begg’sテストー

メタアナリシスは、論文などでの同じテーマの研究報告を複数統合する統計学的手法です。 複数の研究での議論を行うため、エビデンスレベルも高いとされており、医学研究において重要な役割を担っており、多くのメタアナリシスの研究論文が報告されています...
2025.01.17
Rでデータ解析と可視化

Rで重回帰モデルの変数選択 ーAIC, BIC, ステップワイズ法ー

目的変数と複数の説明変数があった場合、目的変数の予測に用いることができるのが重回帰分析です。 重回帰分析を行う際、そのモデルに使用する変数を適切に選択することはとても重要です。 今回使用するデータセットのBostonは、Housin...
Rでデータ解析と可視化

Rで欠損処理② ーLittleのMCAR検定(mcar_test)、単一代入法(確定的回帰代入法, 確率的回帰代入法, mice)ー

アンケート調査や臨床試験、観察研究などで、欠損値があるデータはよく見られます。 データを解析する前に、欠損値の適切な処理を行うことはとても重要です。 そのために、データの欠損メカニズムを理解し、適した処理方法を選択していく必要があります...
2024.11.06
Rでデータ解析と可視化

Rでサンプルサイズの計算 ②仮説検定

研究や調査を行う前に、適切なサンプルサイズを計算しておくことは、研究や調査の信頼性を確保し、効率よく実施するためにとても重要です。 本記事では、サンプルサイズの計算のうち、仮説検定でのサンプルサイズ決定についてRのコード例と共に紹介し...
2024.10.29
Rでデータ解析と可視化

Rでサンプルサイズの計算 ①区間推定

実験や調査の計画段階で「どのくらいのサンプル数が必要か?」を悩んだことはありませんか? サンプルサイズを適切に設定することは、結果の信頼性を左右する重要なポイントです。 この記事では、Rを使って簡単にサンプルサイズを計算する方法を紹...
2024.10.29
Rでデータ解析と可視化

Rで生存時間解析②複数因子でも予測できる ーコックス比例ハザードモデル, coxph関数ー

今回は、生存時間解析として広く使用されるコックス比例ハザードモデルについて解説します。 以前、生存時間解析として、カプラン・マイヤー曲線やログランク検定などの手法を紹介しました。 ■目次 1. コックス比例ハザードモデルとは(...
2024.11.13
Rでデータ解析と可視化

Reactive stat(ブラウザだけで使えるR)でカイ二乗検定をやってみました。

医療関連の研究において統計解析は重要です。 医療だけでもいろいろな統計解析の手法が使われており、こちらのWebサイトでもRでの統計解析手法について紹介してきました。 最近は、解析用のコードなどがあらかじめ準備されていて、デー...
Rでデータ解析と可視化

Rでカイ二乗検定(適合度検定、独立性の検定、モザイクプロット)

カイ二乗検定とは、観察データが期待データとどの程度一致するかを評価する統計手法です。 主に”カテゴリデータ(質的データ)”の分析に用いられます。 ■目次 1. カイ二乗検定とは(適合度検定と独立性の検定) 2. Rでの適合度検定の手...
2024.07.22
Rでデータ解析と可視化

Rで3群以上の比較 ー二元配置分散分析(two-way ANOVA), 主効果,交互作用ー

2つの独立した変数をもつ場合の3群以上の比較では、二元配置分散分析を用います。 同時に、その2つの独立変数における交互作用も評価します。 3群以上の比較で、分散分析の一元配置分散分析(one-way ANOVA)を紹介しました。 ...
2024.11.01
タイトルとURLをコピーしました