# Titanic Dataset 數據分析 --- ## 數據 1. 從 [Kaggle](https://www.kaggle.com/competitions/titanic/data?select=train.csv) 下載訓練數據,共 981 筆。 2. 清理不需要的 col ,比如 `PassengerId`,`name`,`Ticket`,`Cabin`,`Embarked`。 3. 清理缺失 `age` 的 row,因為其他數據沒有明顯的分佈,直接刪除不會有太大影響。 --- ## 說明 --- ![image](https://hackmd.io/_uploads/S1ROlmfH6.png) 由上圖可知,艙等與存活率明顯成正比:艙等越高,存活率越高。 --- ![image](https://hackmd.io/_uploads/r1fMb7zSa.png) 再以性別分類可以觀察出,無論哪種等級,女性的生存率都遠比男性高。 --- ![image](https://hackmd.io/_uploads/SkZLrQGBa.png) 而無論是男性還是女性,分佈似乎都差不多。 --- 使用 **點雙列相關係數(Point-Biserial Correlation)** 計算年齡與存活率的關係 ```python from scipy.stats import pointbiserialr corr, _ = pointbiserialr(data["Survived"], data["Age"]) print("Point-Biserial Correlation: %.3f" % corr) ``` > Point-Biserial Correlation: -0.077 說明年齡與是否存活幾乎無關
{"title":"Titanic Dataset 數據分析","description":"https://colab.research.google.com/drive/1aOAkZeMNP7dzGG6VV12T7MysVMUQujpk?usp=sharing","contributors":"[{\"id\":\"f5edbb2b-8e7d-4913-af56-6a1bc730243b\",\"add\":881,\"del\":88}]"}
    159 views