Kaggle / Titanic - Machine Learning from Disaster / 独学 / とりあえず自分でやってみる Day1
環境
Jupyter Lab / Local
写経の次に始めたこと
守破離じゃないですが、金メダリストの先生の写経から離れて、独自に精度を上げにいきます。そのために'train.csv'や'test.csv'をexcel先生で可視化して分析することなど、pythonに拘らずにやってみようと思っています(このくらいのレコード数ならSPSSの出番すらないですからね…)。
いきなりexcel先生の力を借りずにnull値の処理や、実は金メダリスト先生の写経ではやっていなかった外れ値の判定、処理などについてはpython上でやってしまおうかと思っています。
今日やったこと
データを可視化して、
'Sex', 'Embarked', 'Name'をint型のカテゴリに変換し、
null値が多い連続数値型の'Age'について'Pclass', 'Sex'と相関関係がありそうと判定し、
明日は'Pclass'と'Sex'の属性に基づいて平均値もしくは中央値で.fillna()補完するつもりです。
所感
もちろん独学で始めたとは言え、結局は金メダリスト先生のコードを見に行ったり、過去YouTube等で学習したコードを見たりはしています。
一方で先生を参照するまでは自分で考えてますので、試行錯誤、稚拙なコードを書いてエラーを出しながらやっているので、身についている感はあります。
さらに、こうして日記にしていくことで振り返り、抽象化・一般化して身体に落としていく感覚があります。
一歩一歩ですね。