前回の記事では、データサイエンスを始めたい方へ、はじめにーRでプレゼンテーションー を書かせていただきました。
こちらでは、無料で使える統計解析ソフトウェア Rの魅力ということで、Rについて少し触れます。
Rは統計とグラフィックス(可視化)のための言語・環境です。
※Rについて(https://www.r-project.org/)
たくさんの統計的手法やデータの可視化のパッケージが提供されていて、とても拡張性が高い言語です。
例えば、数学的な記号や公式を使うことや、とてもきれいなデータの可視化をすることも出来ます。
例
図1 RのDatasetのairqualityのピアソンの相関係数
図2 RのDatasetのirisのヒストグラム
Rは、フリーソフトウェア財団のGNU一般公衆利用許諾契約書の条項に基づき、ソースコードの形で無料のソフトウェアとして提供されています。
商用、研究用問わず、誰にでも開かれた技術ということです。しかも、LinuxやWindows、MacOS上で編集や作業ができます。
簡単に色々な分析が出来て、誰でも使えるんですよ!!
人気プログラミング言語では、Pythonが1位で、C++やJAVAが続き、、Rは7位ではありますが、参考site(The 2018 Top Programming Languages)。
それでも、データサイエンスは一からだという方には、まずRをおすすめしたいです。
Rは、
・統計解析用のソフトであるため、統計に関わる沢山のパッケージが揃っている。
・扱えるデータ量がエクセルより多いため、ビッグデータ解析に向いている。
・複雑なデータの可視化でなければ、コードも単純。
など、魅力がたくさん。
とはいえ、Pythonは、Rでできることは大体できますし、しいていうなら、もっともっといろいろできるのかもしれません。
複雑な機械学習、深層学習は、Pythonが良いかもしれません。
しかし、データの可視化はRが得意です。コードも短いし、いろいろとシンプルです。
統計解析とその結果からの考察や活用をやると決めたのであれば、Rが良いかと思います。
また、ネット上にも情報がたくさんありますので、きっと力になってくれると思います。
Rで、どういったデータからどういった解析を行えるのか?そこから何が言えるプレゼンテーションになるのか?までを投稿してきます。
次は、RとRstudioの環境を作ります。
コメント
エミュイン合同会社では、信頼性の高い R で統計解析し、その結果を AI が解説する ブラウザだけで使える無料統計ソフト Reactive stat を無料で提供しております。
https://www.emuyn.net/stats/index
ぜひブログでご紹介いただけますと幸いです。
よろしくお願いします。
貴ブログの発展をお祈りしております。
コメントをいただき、誠にありがとうございます。
御社のReactive statは、多くの方にとって大変わかりやすく、使いやすいものであるように感じました。
是非、紹介記事を作成させていただけたらと思います。
よろしくお願いいたします。