# Σημειώσεις
:::success
Ο παρακάτω πίνακα, συγκρίνει τα Gradient Boosting Machines (GBM), XGBoost, Νευρωνικά Δίκτυα, και Random Forests σε διάφορες πτυχές:
:::
| Χαρακτηριστικό | Gradient Boosting Machines (GBM) | XGBoost | Νευρωνικά Δίκτυα | Random Forests |
|----------------|----------------------------------|---------|-------------------|----------------|
| Ταχύτητα Εκτέλεσης | Συχνά πιο αργή σε σχέση με το XGBoost. | Βελτιστοποιημένο για απόδοση, γρηγορότερο. | Μπορεί να είναι αργά, ειδικά σε μεγάλα δίκτυα. | Γενικά γρήγορο, ειδικά με τη χρήση παραλληλισμού. |
| Κλιμάκωση | Μη βελτιστοποιημένη για μεγάλα δεδομένα. | Υποστηρίζει καλύτερα την κλιμάκωση και παράλληλη επεξεργασία. | Καλή κλιμάκωση, ιδίως με χρήση GPU. | Καλή κλιμάκωση, αλλά μπορεί να απαιτεί πολύ μνήμη σε μεγάλα σετ δεδομένων. |
| Αντιμετώπιση Λείπουσων Δεδομένων | Απαιτεί προ-επεξεργασία. | Χειρίζεται αυτόματα λείποντα δεδομένα. | Απαιτεί προ-επεξεργασία. | Καλή αντιμετώπιση λείπουσων δεδομένων, ανεκτικό σε ατέλειες. |
| Κανονικοποίηση | Χωρίς ενσωματωμένη κανονικοποίηση. | Ενσωματώνει L1 και L2 κανονικοποίηση. | Συχνά χρησιμοποιούνται τεχνικές όπως dropout. | Δεν απαιτείται κανονικοποίηση λόγω της φύσης του μοντέλου. |
| Τεχνικές Προσαρμογής Δέντρων | Πιο απλές. | Πιο προηγμένες (π.χ., προεκτίμηση δέντρων). | Δεν εφαρμόζεται (χρησιμοποιείται επίπεδη δομή). | Πολλαπλά δέντρα αποφάσεων, κανένας περιορισμός στην ανάπτυξη δέντρων. |
| Υποστήριξη Πολλαπλών Απωλειών | Περιορισμένη. | Ευρεία υποστήριξη διάφορων συναρτήσεων απώλειας. | Υποστηρίζει πολυάριθμες συναρτήσεις απώλειας. | Περιορισμένη, συνήθως χρησιμοποιείται η απώλεια Gini ή η εντροπία. |
| Διαγνωστικά και Οπτικοποίηση | Βασικά ή περιορισμένα εργαλεία. | Προηγμένα εργαλεία για ανάλυση και οπτικοποίηση. | Εκτεταμένα εργαλεία, όπως τεχνικές ερμηνείας. | Μερική οπτικοποίηση και διαγνωστικά, αλλά περιορισμένη ερμηνεία λόγω του "black box" χαρακτήρα. |
:::success
Κάθε ένα από τα μοντέλα που αναφέρατε – Gradient Boosting Machines (GBM), XGBoost, Νευρωνικά Δίκτυα, και Random Forests – έχουν μοναδικά πλεονεκτήματα και εφαρμογές, και μπορούν να χρησιμοποιηθούν αποτελεσματικά για την εκπαίδευση binary classifiers. Ας δούμε τους λόγους για τους οποίους κάποιος θα επέλεγε κάθε ένα από αυτά τα μοντέλα:
::::
### 1. Gradient Boosting Machines (GBM)
- **Ευελιξία**: Μπορεί να χειριστεί διάφορους τύπους δεδομένων και είναι κατάλληλο για ποικίλες εφαρμογές.
- **Απόδοση**: Προσφέρει συχνά υψηλή ακρίβεια και καλή απόδοση σε ποικιλία προβλημάτων.
- **Χειρισμός Μη Γραμμικοτήτων**: Είναι ικανό να ανακαλύψει μη γραμμικές σχέσεις και αλληλεπιδράσεις μεταξύ των χαρακτηριστικών.
### 2. XGBoost
- **Υψηλή Απόδοση και Ταχύτητα**: Είναι γνωστό για την υψηλή του απόδοση και ταχύτητα, καθώς και για την ικανότητά του να διαχειρίζεται μεγάλα σετ δεδομένων.
- **Αντιμετώπιση Υπερεκπαίδευσης**: Ενσωματώνει τεχνικές κανονικοποίησης για τη μείωση της υπερεκπαίδευσης.
- **Ευελιξία στην Αντιμετώπιση Λείπουσων Δεδομένων**: Χειρίζεται αποτελεσματικά λείπουσα δεδομένα.
### 3. Νευρωνικά Δίκτυα
- **Χειρισμός Περίπλοκων Προτύπων**: Ιδιαίτερα καλά στο να ανακαλύπτουν πολύπλοκα μοτίβα και σχέσεις στα δεδομένα.
- **Κλιμάκωση σε Μεγάλα Δεδομένα**: Είναι αποτελεσματικά σε μεγάλα σετ δεδομένων, ειδικά με τη χρήση GPU.
- **Ευελιξία στο Μοντέλο**: Μπορούν να δομηθούν και να προσαρμοστούν για πολύ συγκεκριμένες ανάγκες και εφαρμογές.
### 4. Random Forests
- **Ανθεκτικότητα σε Υπερεκπαίδευση**: Λιγότερο επιρρεπή σε υπερεκπαίδευση συγκριτικά με άλλα μοντέλα.
- **Χειρισμός Λείπουσων Δεδομένων και Μη Γραμμικοτήτων**: Είναι καλό στον χειρισμό λείπουσων δεδομένων και μη γραμμικών σχέσεων.
- **Ερμηνευσιμότητα και Οπτικοποίηση**: Παρέχει καλή ερμηνευσιμότητα μέσω της αξιολόγησης της σημασίας των χαρακτηριστικών.
Η επιλογή μεταξύ αυτών των μοντέλων εξαρτάται από τα χαρακτηριστικά του προβλήματος, τη φύση των δεδομένων, τους διαθέσιμους πόρους, και τους στόχους της εφαρμογής. Κάθε μοντέλο έχει τα δικά του ιδιαίτερα πλεονεκτήματα και περιορισμούς, και η κατανόησή τους είναι κρίσιμη για την αποτελεσματική επιλογή του κατάλληλου μοντέλου για κάθε συγκεκριμένη εφαρμογή.
::: info
**Ερώτηση:** Αν τα αποτελέσματα των μοντέλων που έχουν προκύψει από το H2O AutoML για ένα πείραμα με tabular data για binary classification έχουν παρεμφερή απόδοση (π.χ., 70-72%), μπορούν να υπάρχουν διάφορες πιθανές εξηγήσεις:
:::
**Απάντηση**
1. Περιορισμοί των Δεδομένων: Τα δεδομένα μπορεί να μην περιέχουν αρκετή πληροφορία ή να είναι πολύ θορυβώδη, πράγμα που οδηγεί σε ένα φυσικό όριο στην απόδοση που μπορούν να επιτύχουν τα μοντέλα.
2. Υπερεκπαίδευση (Overfitting): Τα μοντέλα μπορεί να έχουν εκπαιδευτεί πάρα πολύ στα εκπαιδευτικά δεδομένα, χάνοντας την ικανότητα να γενικεύουν καλά σε νέα δεδομένα.
3. Ανεπαρκής Βελτιστοποίηση ή Μοντέλα: Μπορεί τα μοντέλα να μην είναι αρκετά βελτιστοποιημένα για το συγκεκριμένο σετ δεδομένων, ή η επιλογή των υπερπαραμέτρων και των τεχνικών μάθησης να μην είναι η ιδανική.
4. Αδυναμίες του AutoML: Κάθε σύστημα AutoML έχει τις δικές του αδυναμίες. Μπορεί να μην καταφέρει να εξερευνήσει αρκετά το χώρο των υπερπαραμέτρων ή να μην χρησιμοποιεί τις πιο κατάλληλες τεχνικές για το συγκεκριμένο πρόβλημα.
5. Χαρακτηριστικά (Features) και Προεπεξεργασία: Ίσως η προεπεξεργασία των δεδομένων ή η επιλογή χαρακτηριστικών να μην είναι η βέλτιστη, ή να υπάρχει ανάγκη για περισσότερη μηχανική χαρακτηριστικών (feature engineering).
6. Για να βελτιώσετε την απόδοση, μπορείτε να δοκιμάσετε να κάνετε περισσότερη μηχανική χαρακτηριστικών, να εξετάσετε διαφορετικές τεχνικές προεπεξεργασίας, να ελέγξετε για υπερεκπαίδευση, ή ακόμη και να δοκιμάσετε διαφορετικά σύνολα δεδομένων ή διαφορετικά εργαλεία AutoML.
---
:::warning
Σε ένα πρόβλημα binary classification, όπως το classification of long term unemployment, χρησιμοποιούνται διάφορες μετρικές για να αξιολογήσουμε την απόδοση του μοντέλου. Οι βασικές μετρικές περιλαμβάνουν την ακρίβεια (accuracy), την ανάκληση (recall), την ακρίβεια (precision) και το F-measure. Ας εξετάσουμε τι σημαίνει η καθεμία και πώς σχετίζονται με ένα παράδειγμα confusion matrix:
:::
### Confusion Matrix
Η confusion matrix είναι ένας πίνακας που δείχνει τον αριθμό των σωστών και λανθασμένων προβλέψεων του μοντέλου, συγκριτικά με τις πραγματικές ετικέτες. Σε περίπτωση binary classification, έχουμε τέσσερα στοιχεία:
- **True Positives (TP)**: Περιπτώσεις που το μοντέλο προέβλεψε σωστά τη θετική κλάση.
- **False Positives (FP)**: Περιπτώσεις που το μοντέλο λανθασμένα προέβλεψε τη θετική κλάση.
- **True Negatives (TN)**: Περιπτώσεις που το μοντέλο προέβλεψε σωστά την αρνητική κλάση.
- **False Negatives (FN)**: Περιπτώσεις που το μοντέλο λανθασμένα προέβλεψε την αρνητική κλάση.
### Μετρικές
1. **Accuracy**: Περιγράφει το ποσοστό των σωστών προβλέψεων (σωστές θετικές και σωστές αρνητικές) από όλες τις προβλέψεις.
$\[ Accuracy = \frac{TP + TN}{TP + TN + FP + FN} \]$
2. **Recall (Sensitivity or True Positive Rate)**: Περιγράφει το ποσοστό των περιπτώσεων που το μοντέλο προέβλεψε σωστά τη θετική κλάση από όλες τις πραγματικές θετικές κλάσεις.
$[ Recall = \frac{TP}{TP + FN} ]$
3. **Precision**: Περιγράφει το ποσοστό των σωστών θετικών προβλέψεων από όλες τις θ
ετικές προβλέψεις του μοντέλου.
$\[ Precision = \frac{TP}{TP + FP} \]$
4. **F-Measure (F1 Score)**: Είναι η αρμονική μέση της ακρίβειας και της ανάκλησης, χρησιμοποιείται για να ενώσει και τις δύο μετρικές σε έναν αριθμό.
$\[ F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} \]$
---
### Παράδειγμα
Έστω ότι έχουμε τα εξής στοιχεία σε μια confusion matrix για ένα μοντέλο που προβλέπει την μακροχρόνια ανεργία:
- TP = 100
- FP = 30
- TN = 50
- FN = 20
Τότε οι μετρικές θα υπολογίζονται ως εξής:
- Accuracy = (100 + 50) / (100 + 30 + 50 + 20) = 150/200 = 0.75 ή 75%
- Recall = 100 / (100 + 20) = 100/120 = 0.83 ή 83%
- Precision = 100 / (100 + 30) = 100/130 = 0.77 ή 77%
- F1 Score = 2 * (0.77 * 0.83) / (0.77 + 0.83) = 0.80 ή 80%
Αυτές οι μετρικές μας δίνουν μια πιο πλήρη εικόνα της απόδοσης του μοντέλου από το να εξετάζουμε μόνο την ακρίβεια.
> Στην περίπτωση της πρόβλεψης μακροχρόνιας ανεργίας, η "θετική" κλάση θα μπορούσε λογικά να είναι οι περιπτώσεις όπου ο άνθρωπος είναι μακροχρόνια άνεργος. Έτσι:
> - True Positives (TP): Θα ήταν οι περιπτώσεις που το μοντέλο προέβλεψε σωστά ότι ένα άτομο θα είναι μακροχρόνια άνεργο.
> - False Positives (FP): Θα ήταν οι περιπτώσεις που το μοντέλο λανθασμένα προέβλεψε ότι ένα άτομο θα είναι μακροχρόνια άνεργο (ενώ δεν ήταν).
> - True Negatives (TN): Θα ήταν οι περιπτώσεις που το μοντέλο προέβλεψε σωστά ότι ένα άτομο δεν θα είναι μακροχρόνια άνεργο.
> - False Negatives (FN): Θα ήταν οι περιπτώσεις που το μοντέλο λανθασμένα προέβλεψε ότι ένα άτομο δεν θα είναι μακροχρόνια άνεργο (ενώ ήταν).
> Η ορισμένη θετική κλάση επηρεάζει τον τρόπο ερμηνείας των μετρικών. Για παράδειγμα, ένα υψηλό recall σημαίνει ότι το μοντέλο είναι καλό στο να εντοπίζει τις περιπτώσεις μακροχρόνιας ανεργίας, ενώ μια υψηλή ακρίβεια δείχνει ότι όταν το μοντέλο προβλέπει μακροχρόνια ανεργία, είναι συνήθως σωστό.
:::warning
**Ερώτηση:** Οπότε σε ένα πρόβλημα όπως το lTU classification what each metric δείχνει;
:::
**Απάντηση**
Σε ένα πρόβλημα όπως η πρόβλεψη μακροχρόνιας ανεργίας (Long-Term Unemployment - LTU classification), οι μετρικές που αναφέραμε παραπάνω (accuracy, recall, precision, F1 score) έχουν τις εξής σημασίες:
- Accuracy (Ακρίβεια): Δείχνει το ποσοστό των συνολικών σωστών προβλέψεων (σωστά θετικές και σωστά αρνητικές) σε σχέση με όλες τις προβλέψεις. Σε ένα πρόβλημα LTU, ένα υψηλό accuracy σημαίνει ότι το μοντέλο είναι καλό στο να διακρίνει τόσο τις περιπτώσεις μακροχρόνιας ανεργίας όσο και τις μη-μακροχρόνια ανεργίες.
- Recall (Ανάκληση ή Ευαισθησία): Δείχνει το ποσοστό των πραγματικά μακροχρόνια ανέργων που το μοντέλο προέβλεψε σωστά. Ένα υψηλό recall σε πρόβλημα LTU σημαίνει ότι το μοντέλο μπορεί αποτελεσματικά να εντοπίσει τα άτομα που κινδυνεύουν να παραμείνουν μακροχρόνια άνεργα.
- Precision (Ακρίβεια): Δείχνει το ποσοστό των ατόμων που το μοντέλο προέβλεψε ως μακροχρόνια άνεργα και ήταν πράγματι τέτοια. Σε ένα πρόβλημα LTU, υψηλή ακρίβεια σημαίνει ότι όταν το μοντέλο λέει ότι κάποιος είναι ή θα γίνει μακροχρόνια άνεργος, είναι συνήθως σωστό.
- F1 Score (F1 Βαθμολογία): Είναι η αρμονική μέση της ακρίβειας και της ανάκλησης. Σε ένα πρόβλημα LTU, ένα υψηλό F1 score δείχνει μια καλή ισορροπία μεταξύ του να εντοπίζει τα άτομα που είναι ή θα γίνουν μακροχρόνια άνεργοι και του να μην χαρακτηρίζει λανθασμένα ως τέτοιους ανθρώπους που δεν είναι.
Κάθε μία από αυτές τις μετρικές μπορεί να είναι πιο ή λιγότερο σημαντική ανάλογα με τις συγκεκριμένες απαιτήσεις του προβλήματος και την επιθυμητή ισορροπία μεταξύ της ανίχνευσης των περιπτώσεων μακροχρόνιας ανεργίας και της αποφυγής λανθασμένων σημάνσεων.
---
## Σχόλια
1. Feature noise
a. `daysincelastjob`:
b. `occ6d_search`: (to many features ... maybe we should simplify!!)
c. `T2_UNMPL_RGN_CODE2dN`: (to many features ... maybe we should simplify!!)
d. `T5_YPIK_subregion`: Many of the feature categories are low represented in our data... merge categories (i.e. native, european, non_european)
e. 'T5_ILIKIA '
2. Missing data
---
## Data notes
| Statistic | T5_ILIKIA for ltu=0 | T5_ILIKIA for ltu=1 |
|-----------|------------------|------------------|
| count | 925913.00 | 436669.00 |
| mean | 37.68 | 41.68 |
| std | 12.31 | 12.53 |
| min | 15.00 | 15.00 |
| 25% | 27.00 | 31.00 |
| 50% | 36.00 | 41.00 |
| 75% | 47.00 | 52.00 |
| max | 74.00 | 74.00 |
| T5_SEX | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| Female | 501842 | 279461 |
| Male | 424071 | 157208 |
| T5_YPIK_subregion | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 770853 | 389262 |
| Southern Europe | 75783 | 24091 |
| Western Asia | 17103 | 4953 |
| Eastern Europe | 23914 | 10672 |
| South-eastern Asia | 1154 | 313 |
| Southern Asia | 16727 | 2328 |
| Northern Africa | 4035 | 818 |
| Not classified | 1950 | 186 |
| Sub-Saharan Africa | 5354 | 600 |
| Northern Europe | 1718 | 372 |
| Western Europe | 1494 | 386 |
| Latin America and the Caribbean | 537 | 196 |
| Eastern Asia | 227 | 81 |
| Central Asia | 425 | 263 |
| Northern America | 147 | 52 |
| Oceania | 45 | 12 |
| Missing | 4447 | 2084 |
| T5_OIK | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| Married/Cohabitate | 360134 | 210193 |
| Not married | 514110 | 194874 |
| Divorced | 34436 | 21337 |
| Separated | 8582 | 5131 |
| Missing | 3058 | 1492 |
| Widowed | 5593 | 3642 |
| occ6d_search | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 05.01.01 | 116254 | 74507 |
| 04.04.03 | 4922 | 2728 |
| 06.04.01 | 11334 | 4285 |
| 08.05.02 | 990 | 636 |
| 03.06.01 | 1389 | 860 |
| 07.01.01 | 5380 | 2698 |
| 03.03.04 | 20011 | 7372 |
| 09.03.04 | 5256 | 1214 |
| 03.06.03 | 17264 | 8312 |
| 10.03.02 | 56721 | 24259 |
| 02.02.01 | 902 | 529 |
| 05.03.01 | 825 | 586 |
| 10.01.01 | 62702 | 29848 |
| 08.01.01 | 16028 | 6967 |
| 06.01.04 | 19413 | 13496 |
| 08.02.01 | 1914 | 762 |
| 10.03.01 | 12401 | 6454 |
| 03.06.02 | 1303 | 961 |
| 04.01.04 | 1259 | 851 |
| 08.05.03 | 3963 | 3194 |
| 06.02.02 | 72990 | 44880 |
| 03.02.06 | 7860 | 3446 |
| 03.03.03 | 15139 | 6131 |
| 08.04.01 | 6811 | 2768 |
| 08.01.03 | 10526 | 6464 |
| 10.03.03 | 11779 | 5354 |
| 03.02.02 | 7682 | 3185 |
| 06.01.03 | 58446 | 12009 |
| 04.01.01 | 8947 | 4717 |
| 03.01.05 | 4248 | 1553 |
| 09.03.02 | 12137 | 4379 |
| 04.05.02 | 1768 | 670 |
| 02.03.03 | 4018 | 1879 |
| 04.03.01 | 12688 | 7953 |
| 05.01.02 | 5080 | 5440 |
| 04.04.02 | 6630 | 2352 |
| 08.01.02 | 7935 | 3724 |
| 03.05.01 | 7190 | 3280 |
| 10.04.01 | 17749 | 5852 |
| 03.01.03 | 7915 | 4288 |
| 03.01.06 | 7992 | 4732 |
| 04.03.02 | 1414 | 863 |
| 06.03.01 | 7576 | 4402 |
| 06.02.04 | 2641 | 1180 |
| 03.06.05 | 9604 | 3741 |
| 09.03.03 | 22257 | 6060 |
| 10.06.01 | 7364 | 5782 |
| 03.04.01 | 3821 | 2149 |
| 06.01.02 | 31989 | 6016 |
| 07.01.02 | 399 | 290 |
| 03.01.04 | 11270 | 4703 |
| 06.01.05 | 4928 | 2358 |
| 05.02.02 | 16063 | 4803 |
| 08.05.01 | 10766 | 4270 |
| 06.02.03 | 6093 | 2785 |
| 02.04.03 | 1452 | 646 |
| 10.02.01 | 13685 | 6099 |
| 02.04.01 | 8848 | 3086 |
| 03.04.02 | 2615 | 1748 |
| 02.01.02 | 5438 | 2888 |
| 04.02.01 | 4819 | 3079 |
| 04.02.05 | 1763 | 1163 |
| 03.03.01 | 1909 | 794 |
| 10.05.02 | 674 | 268 |
| 03.01.01 | 3715 | 1864 |
| 02.01.01 | 3699 | 2154 |
| 04.03.05 | 471 | 152 |
| 08.03.01 | 760 | 782 |
| 06.03.02 | 4225 | 2717 |
| 03.02.01 | 3106 | 880 |
| 05.04.01 | 3811 | 2705 |
| 09.01.01 | 1884 | 851 |
| 08.02.03 | 6681 | 2341 |
| 04.05.01 | 127 | 153 |
| 10.06.02 | 1178 | 290 |
| 06.01.01 | 2231 | 648 |
| 10.05.01 | 89 | 150 |
| 03.04.03 | 2833 | 1513 |
| 04.03.03 | 816 | 528 |
| 03.03.05 | 16370 | 3127 |
| 03.01.02 | 2481 | 1202 |
| 04.03.04 | 1387 | 1547 |
| 04.01.05 | 621 | 272 |
| 06.02.01 | 819 | 471 |
| 09.01.06 | 4277 | 1255 |
| 04.02.02 | 388 | 222 |
| 04.04.01 | 484 | 555 |
| 09.02.01 | 2054 | 941 |
| 03.05.02 | 241 | 208 |
| 08.03.02 | 748 | 414 |
| 02.02.02 | 1309 | 790 |
| 07.01.03 | 100 | 132 |
| 03.06.04 | 3659 | 2366 |
| 05.01.03 | 156 | 158 |
| 04.02.04 | 167 | 135 |
| 02.03.04 | 942 | 609 |
| 06.01.06 | 1686 | 872 |
| 02.04.02 | 790 | 701 |
| 02.03.02 | 614 | 471 |
| 04.01.02 | 669 | 410 |
| 07.02.01 | 1027 | 624 |
| 09.03.05 | 792 | 142 |
| 08.02.02 | 1919 | 1022 |
| 09.01.05 | 2924 | 1669 |
| 10.01.02 | 2447 | 888 |
| 09.01.08 | 1432 | 472 |
| 03.03.02 | 1222 | 205 |
| 03.02.03 | 129 | 66 |
| 01.03.01 | 1011 | 346 |
| 05.02.01 | 509 | 363 |
| 01.01.01 | 23 | 19 |
| 05.03.02 | 953 | 448 |
| 08.05.04 | 256 | 107 |
| 09.01.07 | 200 | 95 |
| 03.02.05 | 458 | 149 |
| 09.01.04 | 487 | 213 |
| 09.01.03 | 218 | 131 |
| 09.01.02 | 357 | 91 |
| 07.02.02 | 461 | 77 |
| 08.04.02 | 144 | 102 |
| 04.01.03 | 137 | 59 |
| 09.03.01 | 26 | 15 |
| 02.03.01 | 44 | 32 |
| Statistic | dayssincelastjob for ltu=0 | dayssincelastjob for ltu=1 |
|-----------|------------------|------------------|
| count | 925913.00 | 436669.00 |
| mean | 2180.43 | 2543.16 |
| std | 2515.32 | 2510.74 |
| min | 0.00 | 0.00 |
| 25% | 7.00 | 8.00 |
| 50% | 51.00 | 3232.00 |
| 75% | 5000.00 | 5000.00 |
| max | 44694.00 | 44963.00 |
| T2_UNMPL_RGN_CODE2dN | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| H3 | 10961 | 6247 |
| B3 | 6385 | 3352 |
| M0 | 21508 | 4106 |
| N2 | 9021 | 1865 |
| B2 | 100620 | 55970 |
| E3 | 15365 | 8073 |
| B5 | 11598 | 5273 |
| I2 | 42894 | 24228 |
| Th5 | 2318 | 1132 |
| M1 | 24617 | 4399 |
| N4 | 15182 | 3733 |
| I4 | 36396 | 20304 |
| I3 | 91495 | 43372 |
| I7 | 40133 | 20625 |
| Th2 | 19052 | 8426 |
| B1 | 15091 | 6387 |
| B4 | 12025 | 4821 |
| B7 | 11025 | 3224 |
| D3 | 13725 | 6855 |
| N1 | 31778 | 10075 |
| I5 | 38520 | 20623 |
| D4 | 4556 | 1921 |
| K5 | 11845 | 5356 |
| A4 | 10531 | 5017 |
| A2 | 9252 | 5414 |
| H2 | 28010 | 15454 |
| Z3 | 14364 | 2767 |
| E1 | 6797 | 4467 |
| Th4 | 9618 | 5653 |
| Th1 | 9155 | 4752 |
| Z4 | 4463 | 1070 |
| E2 | 22131 | 11666 |
| I6 | 6444 | 2851 |
| I1 | 32266 | 17364 |
| I8 | 18061 | 9791 |
| B6 | 12628 | 6836 |
| G3 | 13505 | 6922 |
| D2 | 3164 | 1459 |
| K1 | 9182 | 3343 |
| L4 | 3138 | 1196 |
| K3 | 10740 | 5645 |
| A6 | 7751 | 4763 |
| H1 | 15974 | 9695 |
| E5 | 9103 | 5144 |
| N3 | 8327 | 2239 |
| Th3 | 997 | 671 |
| A1 | 7703 | 4138 |
| D1 | 4645 | 2674 |
| Z5 | 2704 | 661 |
| L2 | 6968 | 3206 |
| K4 | 5673 | 2265 |
| 8888 | 5760 | 134 |
| A5 | 10995 | 5775 |
| Z1 | 5660 | 1113 |
| K2 | 4976 | 2913 |
| A3 | 1331 | 188 |
| G1 | 1578 | 866 |
| G2 | 4834 | 3185 |
| L5 | 3186 | 1755 |
| L3 | 1132 | 468 |
| Z2 | 271 | 70 |
| G4 | 3894 | 1976 |
| E4 | 1968 | 332 |
| L1 | 924 | 404 |
| T5_EKP_LEVELr | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 2 | 356523 | 193274 |
| 1 | 164045 | 89311 |
| 5 | 22194 | 9732 |
| 4 | 188982 | 84126 |
| 3 | 67685 | 32218 |
| 7 | 125019 | 27394 |
| 6 | 1465 | 614 |
| f1_Q_1_1 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 100 | 59673 | 44505 |
| 0 | 606266 | 200254 |
| 50 | 77246 | 55622 |
| 16 | 52497 | 40474 |
| 33 | 61937 | 49473 |
| 67 | 39872 | 27171 |
| 84 | 28422 | 19170 |
| f1_Q_1_2_1 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 661478 | 248410 |
| 100 | 118395 | 74261 |
| 75 | 99048 | 73581 |
| 50 | 40085 | 33934 |
| 25 | 6907 | 6483 |
| f1_Q_2 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 100 | 304777 | 221096 |
| 0 | 621136 | 215573 |
| f1_Q_2_1 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 773845 | 340630 |
| 100 | 152068 | 96039 |
| f2_Q_3 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 75 | 90286 | 78595 |
| 50 | 42958 | 41547 |
| 100 | 247811 | 173034 |
| 25 | 16483 | 17147 |
| 0 | 528375 | 126346 |
| f2_Q_4_1 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 670590 | 268450 |
| 60 | 60371 | 44840 |
| 100 | 194952 | 123379 |
| f2_Q_5_Q_6 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 100 | 132615 | 95632 |
| 60 | 133160 | 84697 |
| 0 | 660138 | 256340 |
| f2_Q_7 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 682757 | 285590 |
| 100 | 243156 | 151079 |
| f2_Q_8 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 679990 | 267106 |
| 100 | 245923 | 169563 |
| f3_Q_10 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 100 | 366397 | 271519 |
| 0 | 531570 | 130938 |
| 50 | 27946 | 34212 |
| f3_Q_11 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 100 | 360987 | 275496 |
| 0 | 564926 | 161173 |
| f3_Q_12 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 661241 | 272439 |
| 30 | 187256 | 125448 |
| 100 | 33866 | 16204 |
| 70 | 43550 | 22578 |
| f3_Q_13 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 75 | 99408 | 78506 |
| 100 | 191776 | 144034 |
| 0 | 529989 | 124963 |
| 50 | 62370 | 55569 |
| 20 | 42370 | 33597 |
| f3_Q_14 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 649263 | 254739 |
| 100 | 276650 | 181930 |
| f4_Q_15 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 80 | 282247 | 245720 |
| 0 | 555096 | 160386 |
| 100 | 88570 | 30563 |
| f4_Q_16 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 781114 | 353566 |
| 100 | 144799 | 83103 |
| f4_Q_17_1 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 80 | 115346 | 81258 |
| 100 | 112804 | 66218 |
| 0 | 635866 | 233055 |
| 40 | 47175 | 41137 |
| 20 | 14722 | 15001 |
| f4_Q_18 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 20 | 152045 | 122920 |
| 0 | 569632 | 153574 |
| 100 | 204236 | 160175 |
| f4_Q_19 | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 674108 | 279974 |
| 50 | 17828 | 9680 |
| 40 | 167140 | 117373 |
| 80 | 12632 | 5873 |
| 60 | 35742 | 15224 |
| 100 | 18463 | 8545 |
| with_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 1 | 398349 | 315034 |
| 0 | 527564 | 121635 |
| training | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 1 | 647682 | 306125 |
| 2 | 278231 | 130544 |
| Statistic | T5_ILIKIA_4g for ltu=0 | T5_ILIKIA_4g for ltu=1 |
|-----------|------------------|------------------|
| count | 925913.00 | 436669.00 |
| mean | 15.67 | 29.53 |
| std | 19.59 | 21.01 |
| min | 0.00 | 0.00 |
| 25% | 0.00 | 0.00 |
| 50% | 0.00 | 33.00 |
| 75% | 32.00 | 46.00 |
| max | 74.00 | 74.00 |
| ltu_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 1 | 0 | 315034 |
| 0 | 925913 | 121635 |
| Statistic | dayssincelastjob_4g for ltu=0 | dayssincelastjob_4g for ltu=1 |
|-----------|------------------|------------------|
| count | 925913.00 | 436669.00 |
| mean | 851.18 | 1724.05 |
| std | 1902.98 | 2381.89 |
| min | 0.00 | 0.00 |
| 25% | 0.00 | 0.00 |
| 50% | 0.00 | 10.00 |
| 75% | 18.00 | 5000.00 |
| max | 44648.00 | 44944.00 |
| T5_EKP_LEVELr_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 2 | 178204 | 150920 |
| 1 | 54194 | 57524 |
| 0 | 527564 | 121635 |
| 5 | 16840 | 8952 |
| 4 | 113839 | 71491 |
| 3 | 34151 | 25527 |
| 6 | 1020 | 524 |
| 7 | 101 | 96 |
| f1_Q_1_1_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 100 | 57108 | 43552 |
| 0 | 617490 | 204819 |
| 16 | 51257 | 39783 |
| 33 | 60171 | 48591 |
| 50 | 74403 | 54548 |
| 67 | 38301 | 26628 |
| 84 | 27183 | 18748 |
| f1_Q_1_2_1_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 671064 | 252046 |
| 100 | 114319 | 73131 |
| 75 | 95454 | 72114 |
| 50 | 38504 | 33102 |
| 25 | 6572 | 6276 |
| f1_Q_2_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 100 | 294811 | 216925 |
| 0 | 631102 | 219744 |
| f1_Q_2_1_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 779083 | 342423 |
| 100 | 146830 | 94246 |
| f2_Q_3_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 75 | 88537 | 77541 |
| 50 | 42154 | 40930 |
| 100 | 243295 | 171124 |
| 0 | 535778 | 130191 |
| 25 | 16149 | 16883 |
| f2_Q_4_1_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 675348 | 270398 |
| 100 | 191266 | 121980 |
| 60 | 59299 | 44291 |
| f2_Q_5_Q_6_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 100 | 130415 | 94785 |
| 60 | 130573 | 83517 |
| 0 | 664925 | 258367 |
| f2_Q_7_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 687247 | 287207 |
| 100 | 238666 | 149462 |
| f2_Q_8_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 684179 | 268869 |
| 100 | 241734 | 167800 |
| f3_Q_10_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 100 | 363678 | 270248 |
| 0 | 534537 | 132429 |
| 50 | 27698 | 33992 |
| f3_Q_11_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 100 | 358235 | 274128 |
| 0 | 567678 | 162541 |
| f3_Q_12_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 663100 | 273224 |
| 30 | 185897 | 124850 |
| 100 | 33661 | 16128 |
| 70 | 43255 | 22467 |
| f3_Q_13_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 75 | 98625 | 78092 |
| 100 | 190758 | 143505 |
| 0 | 532945 | 126496 |
| 50 | 61800 | 55247 |
| 20 | 41785 | 33329 |
| f3_Q_14_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 651308 | 255506 |
| 100 | 274605 | 181163 |
| f4_Q_15_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 80 | 281802 | 245478 |
| 0 | 555704 | 160659 |
| 100 | 88407 | 30532 |
| f4_Q_16_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 781375 | 353657 |
| 100 | 144538 | 83012 |
| f4_Q_17_1_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 80 | 115208 | 81198 |
| 100 | 112680 | 66170 |
| 0 | 636190 | 233200 |
| 40 | 47134 | 41110 |
| 20 | 14701 | 14991 |
| f4_Q_18_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 20 | 151784 | 122770 |
| 0 | 570159 | 153851 |
| 100 | 203970 | 160048 |
| f4_Q_19_4g | Count in ltu=0 | Count in ltu=1 |
|----------------|---------------|---------------|
| 0 | 674480 | 280122 |
| 50 | 17792 | 9672 |
| 40 | 166930 | 117272 |
| 80 | 12606 | 5869 |
| 60 | 35675 | 15201 |
| 100 | 18430 | 8533 |
----
----
----
## Dayssincelastjob
Data for instances for all data
| | LTU = 1 | LTU = 0 |
|:------|----------:|----------:|
| count | 436669 | 925913 |
| mean | 2543.16 | 2180.43 |
| std | 2510.74 | 2515.32 |
| min | 0 | 0 |
| 25% | 8 | 7 |
| 50% | 3232 | 51 |
| 75% | 5000 | 5000 |
| max | 44963 | 44694 |
Data for instances with_4g = 1
| | LTU = 1 | LTU = 0 |
|:------|----------:|----------:|
| count | 315034 | 398349 |
| mean | 2389.71 | 1978.45 |
| std | 2504.63 | 2487.38 |
| min | 0 | 0 |
| 25% | 7 | 6 |
| 50% | 441 | 37 |
| 75% | 5000 | 5000 |
| max | 44944 | 44648 |
Data for instances with_4g = 0
| | LTU = 1 | LTU = 0 |
|:------|----------:|----------:|
| count | 121635 | 527564 |
| mean | 2940.59 | 2332.94 |
| std | 2482.79 | 2525.54 |
| min | 0 | 0 |
| 25% | 13 | 8 |
| 50% | 5000 | 75 |
| 75% | 5000 | 5000 |
| max | 44963 | 44694 |
<table>
<tr>
<td>
<strong>T5_OIK - Data for instances for all data</strong>
<table>
<tr>
<th></th>
<th>LTU = 1</th>
<th>LTU = 0</th>
</tr>
<tr>
<td>Divorced</td>
<td>21337</td>
<td>34436</td>
</tr>
<tr>
<td>Married/Cohabitate</td>
<td>210193</td>
<td>360134</td>
</tr>
<tr>
<td>Missing</td>
<td>1492</td>
<td>3058</td>
</tr>
<tr>
<td>Not married</td>
<td>194874</td>
<td>514110</td>
</tr>
<tr>
<td>Separated</td>
<td>5131</td>
<td>8582</td>
</tr>
<tr>
<td>Widowed</td>
<td>3642</td>
<td>5593</td>
</tr>
</table>
</td>
<td>
<strong>Data for instances with_4g = 1</strong>
<table>
<tr>
<th></th>
<th>LTU = 1</th>
<th>LTU = 0</th>
</tr>
<tr>
<td>Divorced</td>
<td>15200</td>
<td>14231</td>
</tr>
<tr>
<td>Married/Cohabitate</td>
<td>147185</td>
<td>138852</td>
</tr>
<tr>
<td>Missing</td>
<td>1081</td>
<td>1362</td>
</tr>
<tr>
<td>Not married</td>
<td>145708</td>
<td>238591</td>
</tr>
<tr>
<td>Separated</td>
<td>3710</td>
<td>3575</td>
</tr>
<tr>
<td>Widowed</td>
<td>2150</td>
<td>1738</td>
</tr>
</table>
</td>
<td>
<strong>Data for instances with_4g = 0</strong>
<table>
<tr>
<th></th>
<th>LTU = 1</th>
<th>LTU = 0</th>
</tr>
<tr>
<td>Divorced</td>
<td>6137</td>
<td>20205</td>
</tr>
<tr>
<td>Married/Cohabitate</td>
<td>63008</td>
<td>221282</td>
</tr>
<tr>
<td>Missing</td>
<td>411</td>
<td>1696</td>
</tr>
<tr>
<td>Not married</td>
<td>49166</td>
<td>275519</td>
</tr>
<tr>
<td>Separated</td>
<td>1421</td>
<td>5007</td>
</tr>
<tr>
<td>Widowed</td>
<td>1492</td>
<td>3855</td>
</tr>
</table>
</td>
</tr>
</table>
<table>
<tr>
<td valign="top">
<strong>Dayssincelastjob - Data for instances for all data</strong>
<table>
<tr>
<th></th>
<th>LTU = 1</th>
<th>LTU = 0</th>
</tr>
<tr><td>count</td><td>436669</td><td>925913</td></tr>
<tr><td>mean</td><td>2543.16</td><td>2180.43</td></tr>
<tr><td>std</td><td>2510.74</td><td>2515.32</td></tr>
<tr><td>min</td><td>0</td><td>0</td></tr>
<tr><td>25%</td><td>8</td><td>7</td></tr>
<tr><td>50%</td><td>3232</td><td>51</td></tr>
<tr><td>75%</td><td>5000</td><td>5000</td></tr>
<tr><td>max</td><td>44963</td><td>44694</td></tr>
</table>
</td>
<td valign="top">
<strong>Data for instances with_4g = 1</strong>
<table>
<tr>
<th></th>
<th>LTU = 1</th>
<th>LTU = 0</th>
</tr>
<tr><td>count</td><td>315034</td><td>398349</td></tr>
<tr><td>mean</td><td>2389.71</td><td>1978.45</td></tr>
<tr><td>std</td><td>2504.63</td><td>2487.38</td></tr>
<tr><td>min</td><td>0</td><td>0</td></tr>
<tr><td>25%</td><td>7</td><td>6</td></tr>
<tr><td>50%</td><td>441</td><td>37</td></tr>
<tr><td>75%</td><td>5000</td><td>5000</td></tr>
<tr><td>max</td><td>44944</td><td>44648</td></tr>
</table>
</td>
<td valign="top">
<strong>Data for instances with_4g = 0</strong>
<table>
<tr>
<th></th>
<th>LTU = 1</th>
<th>LTU = 0</th>
</tr>
<tr><td>count</td><td>121635</td><td>527564</td></tr>
<tr><td>mean</td><td>2940.59</td><td>2332.94</td></tr>
<tr><td>std</td><td>2482.79</td><td>2525.54</td></tr>
<tr><td>min</td><td>0</td><td>0</td></tr>
<tr><td>25%</td><td>13</td><td>8</td></tr>
<tr><td>50%</td><td>5000</td><td>75</td></tr>
<tr><td>75%</td><td>5000</td><td>5000</td></tr>
<tr><td>max</td><td>44963</td><td>44694</td></tr>
</table>
</td>
</tr>
</table>
<table>
<tr>
<td valign="top">
<strong>T5_SEX - Data for instances for all data</strong>
<table>
<tr>
<th></th>
<th>LTU = 1</th>
<th>LTU = 0</th>
</tr>
<tr><td>Female</td><td>279461</td><td>501842</td></tr>
<tr><td>Male</td><td>157208</td><td>424071</td></tr>
</table>
</td>
<td valign="top">
<strong>Data for instances with_4g = 1</strong>
<table>
<tr>
<th></th>
<th>LTU = 1</th>
<th>LTU = 0</th>
</tr>
<tr><td>Female</td><td>204977</td><td>219547</td></tr>
<tr><td>Male</td><td>110057</td><td>178802</td></tr>
</table>
</td>
<td valign="top">
<strong>Data for instances with_4g = 0</strong>
<table>
<tr>
<th></th>
<th>LTU = 1</th>
<th>LTU = 0</th>
</tr>
<tr><td>Female</td><td>74484</td><td>282295</td></tr>
<tr><td>Male</td><td>47151</td><td>245269</td></tr>
</table>
</td>
</tr>
</table>