戦コンからDSへの転身なるか?

Dev, DS的な勉強と実践の継続の記録

Kaggle / Titanic - Machine Learning from Disaster / 独学 / とりあえず自分でやってみる Day1

環境

Jupyter Lab / Local

写経の次に始めたこと

守破離じゃないですが、金メダリストの先生の写経から離れて、独自に精度を上げにいきます。そのために'train.csv'や'test.csv'をexcel先生で可視化して分析することなど、pythonに拘らずにやってみようと思っています(このくらいのレコード数ならSPSSの出番すらないですからね…)。

いきなりexcel先生の力を借りずにnull値の処理や、実は金メダリスト先生の写経ではやっていなかった外れ値の判定、処理などについてはpython上でやってしまおうかと思っています。

今日やったこと

データを可視化して、

'Sex', 'Embarked', 'Name'をint型のカテゴリに変換し、

null値が多い連続数値型の'Age'について'Pclass', 'Sex'と相関関係がありそうと判定し、

明日は'Pclass'と'Sex'の属性に基づいて平均値もしくは中央値で.fillna()補完するつもりです。

所感

もちろん独学で始めたとは言え、結局は金メダリスト先生のコードを見に行ったり、過去YouTube等で学習したコードを見たりはしています。

一方で先生を参照するまでは自分で考えてますので、試行錯誤、稚拙なコードを書いてエラーを出しながらやっているので、身についている感はあります。

さらに、こうして日記にしていくことで振り返り、抽象化・一般化して身体に落としていく感覚があります。

一歩一歩ですね。