Kaggle / Titanic - Machine Learning from Disaster / 独学 / とりあえず自分でやってみる Day3
環境
Jupyter Lab / Local
今日やったこと
Day2で変数間の相関係数を調べたので、'Survived'に相関する変数'Sex', 'TitleId', 'Pclass', 'Fare'の4つについてRandom Forestでモデリングしてみてsubmitして結果を見てみた。
結果、'Sex'と'Pclass'の2変数で0.77511と最高得点を更新。
所感
モデルのaccuracyスコア.score(x, t)では高得点が出てもテストデータではそうならないケースがあることに気づく。これは学習データに最適化されすぎているいわゆる過学習というやつですね。多分。
航海は続きます。