戦コンからDSへの転身なるか?

Dev, DS的な勉強と実践の継続の記録

Kaggle / Titanic - Machine Learning from Disaster / 独学 / とりあえず自分でやってみる Day3

環境

Jupyter Lab / Local

今日やったこと

Day2で変数間の相関係数を調べたので、'Survived'に相関する変数'Sex', 'TitleId', 'Pclass', 'Fare'の4つについてRandom Forestでモデリングしてみてsubmitして結果を見てみた。

結果、'Sex'と'Pclass'の2変数で0.77511と最高得点を更新。

所感

モデルのaccuracyスコア.score(x, t)では高得点が出てもテストデータではそうならないケースがあることに気づく。これは学習データに最適化されすぎているいわゆる過学習というやつですね。多分。

航海は続きます。