# Titanic Dataset 數據分析
---
## 數據
1. 從 [Kaggle](https://www.kaggle.com/competitions/titanic/data?select=train.csv) 下載訓練數據,共 981 筆。
2. 清理不需要的 col ,比如 `PassengerId`,`name`,`Ticket`,`Cabin`,`Embarked`。
3. 清理缺失 `age` 的 row,因為其他數據沒有明顯的分佈,直接刪除不會有太大影響。
---
## 說明
---

由上圖可知,艙等與存活率明顯成正比:艙等越高,存活率越高。
---

再以性別分類可以觀察出,無論哪種等級,女性的生存率都遠比男性高。
---

而無論是男性還是女性,分佈似乎都差不多。
---
使用 **點雙列相關係數(Point-Biserial Correlation)** 計算年齡與存活率的關係
```python
from scipy.stats import pointbiserialr
corr, _ = pointbiserialr(data["Survived"], data["Age"])
print("Point-Biserial Correlation: %.3f" % corr)
```
> Point-Biserial Correlation: -0.077
說明年齡與是否存活幾乎無關
{"title":"Titanic Dataset 數據分析","description":"https://colab.research.google.com/drive/1aOAkZeMNP7dzGG6VV12T7MysVMUQujpk?usp=sharing","contributors":"[{\"id\":\"f5edbb2b-8e7d-4913-af56-6a1bc730243b\",\"add\":881,\"del\":88}]"}