hiratomoko

Pythonでインフォマティクス

ChemBERTaのファインチューニングによる溶解度予測(DeBERTaベースのモデルやGCNも試してみました)

このカテゴリーの記事では、「Pythonを使った機械学習やケモ・バイオインフォマティクスの実装や論文」を紹介しています。 本記事では、前回紹介したSMILESを事前学習したモデル「ChemBERTa」を使用して、ファインチューニングによる溶...
Pythonでインフォマティクス

ChemBERTa(分子の言語モデル)の紹介

このカテゴリーの記事では、「Pythonを使った機械学習やケモ・バイオインフォマティクスの実装や論文」を紹介しています。今回の記事では、自然言語処理モデルBERTを分子へと応用した、ChemBERTaを紹介したいと思います。はじめにこれまで...
Rでデータ解析と可視化

Rでクラスター分析① ー階層クラスター分析, hclust, dist, シルエット分析, silhouetteー

多くの製品があって、どの製品とどの製品が似ているのか、似ていないのか?などを調べるにはどうすればよいでしょう?似ているもの同士を集めたり、似ていないものと区別するには、クラスター分析が大変役に立ちます。例えば、ワインの成分情報から、クラスタ...
Rでデータ解析と可視化

Rで生存時間解析①単変数で予測 ーカプラン・マイヤー曲線,survfit関数、ログランク検定,survdiff関数ー

臨床現場で白血病患者の治療をしない群(コントロール群)と治療群の生存時間のデータを取得している。取得データから、各群の白血病患者の生存時間を予測したい。また、コントロール群と治療群の2群のデータがあり、それらの2群の比較も合わせて行いたい。...
Rでデータ解析と可視化

Rでコレスポンデンス分析ー対応分析, CA, fviz_ca_biplot, repelー

各家庭における家事は、それぞれどんな分担傾向があるのか???夫のみ、妻のみ、夫婦一緒に、夫婦どちらかが、行う家事はどういった傾向がみられるのか?実施頻度の情報が、目で見て分かり易い図を作ってみます。この度は、コレスポンデンス分析(対応分析...
Rでデータ解析と可視化

Rで回帰分析②ー重回帰分析, lm関数, 価格予測ー

AをB、C、Dなどの複数の要因で予測したいという場合に、重回帰分析が用いられます。例えば、住宅の価格(目的変数)を、町ごとの一人当たり犯罪率、1940年以前に建てられた持ち家の割合、ボストンの5つの雇用中心地までの距離の加重平均のデータ(説...
Pythonでインフォマティクス

EquiBind (深層学習によるタンパク質-リガンドドッキング予測)のインストール•使い方

このカテゴリーの記事では、「Pythonを使った機械学習やケモ・バイオインフォマティクスの実装や論文」を紹介しています。Python は3系(3.7)、anacondaを中心にして環境構築しています。● CPU Intel® Core™ i...
Pythonでインフォマティクス

GNINA 1.0 (AutoDock Vinaのスコア関数を深層学習で改良した!)のインストール•使い方

このカテゴリーの記事では、「Pythonを使った機械学習やケモ・バイオインフォマティクスの実装や論文」を紹介しています。Python は3系(3.7)、anacondaを中心にして環境構築しています。● CPU Intel® Core™ i...
Rでデータ解析と可視化

Rで回帰分析① ー単回帰分析, lm関数, 残差プロット, Q-Qプロットー

車の運転速度が速いほど、ブレーキを踏んでから停止するまでに必要な距離は長くなる💡これは日常の運転でも実感できる事象かと思います。このような関係性をデータから数式で表現し、予測に活用できる手法である単回帰分析です。この記事では、車の運転速度を...
Rでデータ解析と可視化

Rで対応のない2群検定:Mann-Whitney U検定、Wilcoxon Rank-Sum 検定、箱ひげ図、バイオリンプロット

例えば、数学のテストでXクラスとYクラスで平均点に差があるのか?ないのか?を調べたいとします。このクラスの点数は、他のクラスと比べて差があるのか???これは、XクラスとYクラスが異なる学生からなり、それぞれが受けた数学のテストの点数を比較し...