Ungleiche Verteilungen
Die Analyse des Binnings der Kategorien zum Attribut
Age
ergab, dass
Child
die höchste Überlebenswahrscheinlichkeit hat. Ein bekannter Verhaltenskodex in Extremsituationen heißt Frauen und Kinder zuerst. Anna und Karl versuchen deshalb unter den Titanic-Passagieren mit fehlendem Alter, diejenigen zu finden, die noch Kinder sind. Es gibt also nur zwei Klassen: Kind oder kein Kind. Es handelt sich um eine binäre Klassifikation. Hierfür kennen sie bereits viele Trainingsmethoden und Gütemaße zur Bewertung der trainierten Modelle. Allerdings waren Kinder auf der Titanic viel seltener als Erwachsene. Die beiden Trainees sehen sich daher mit einer ungleichen Verteilung der beiden Klassen konfrontiert. Sie lernen verschiedene Techniken kennen, wie sie damit umgehen können. Hierzu gehören Undersampling bzw. Equal Size Sampling sowie die Oversampling-Methoden Bootstrapping und Synthetic Minority Oversampling Technique (SMOTE). Am Ende wissen Anna und Karl nicht, ob sie lachen oder weinen sollen. Ihre Ergebnisse sind fantastisch. Doch es gibt einen Haken.
Keywords: binäre Klassifikation, ungleiche Verteilung, Undersampling, Equal Size Sampling, Oversampling, Bootstrapping, Synthetic Minority Oversampling Technique (SMOTE).
KNIME Videos and Workflows
Titanic_161_Child_Phase_3_Data_Preparation_v3

Titanic_161_Child_Phase_3_Data_Preparation_v3.knwf
Titanic_162_Child_Phase_3_ESS_Bootstrap_SMOTE

Titanic_162_Child_Phase_3_ESS_Bootstrap_SMOTE.knwf
Titanic_163_Child_Phase_4_Modeling_RF

Titanic_163_Child_Phase_4_Modeling_RF.knwf
Titanic_164_Child_Phase_5_Evaluation_RF

Titanic_164_Child_Phase_5_Evaluation_RF.knwf
Titanic_165_Child_Phase_6_Deployment_RF

Titanic_165_Child_Phase_6_Deployment_RF.knwf
Titanic_169_Child_Sonstiges

Titanic_169_Child_Sonstiges.knwf
Anaconda (Python) Jupyter Notebooks
Titanic_161_Child_Phase_3_Data_Preparation_v3
Titanic_161_Child_Phase_3_Data_Preparation_v3.ipynb
Titanic_162_Child_Phase_3_ESS_Bootstrap_SMOTE
Titanic_162_Child_Phase_3_ESS_Bootstrap_SMOTE.ipynb
Titanic_163_Child_Phase_4_Modeling / Titanic_164_Child_Phase_5_Evaluation / Titanic_165_Child_Phase_6_Deployment
Titanic_163_Child_Phase_4_Modeling_(a) RF.ipynb
Titanic_163_Child_Phase_4_Modeling_(b) GB.ipynb
Titanic_164_Child_Phase_5_Evaluation_(a) RF.ipynb
Titanic_164_Child_Phase_5_Evaluation_(b)_GB.ipynb
Titanic_165_Child_Phase_6_Deployment.ipynb