Kapitel 16

Ungleiche Verteilungen


Die Analyse des Binnings der Kategorien zum Attribut Age ergab, dass Child die höchste Überlebenswahrscheinlichkeit hat. Ein bekannter Verhaltenskodex in Extremsituationen heißt Frauen und Kinder zuerst. Anna und Karl versuchen deshalb unter den Titanic-Passagieren mit fehlendem Alter, diejenigen zu finden, die noch Kinder sind. Es gibt also nur zwei Klassen: Kind oder kein Kind. Es handelt sich um eine binäre Klassifikation. Hierfür kennen sie bereits viele Trainingsmethoden und Gütemaße zur Bewertung der trainierten Modelle. Allerdings waren Kinder auf der Titanic viel seltener als Erwachsene. Die beiden Trainees sehen sich daher mit einer ungleichen Verteilung der beiden Klassen konfrontiert. Sie lernen verschiedene Techniken kennen, wie sie damit umgehen können. Hierzu gehören Undersampling bzw. Equal Size Sampling sowie die Oversampling-Methoden Bootstrapping und Synthetic Minority Oversampling Technique (SMOTE). Am Ende wissen Anna und Karl nicht, ob sie lachen oder weinen sollen. Ihre Ergebnisse sind fantastisch. Doch es gibt einen Haken.

Keywords: binäre Klassifikation, ungleiche Verteilung, Undersampling, Equal Size Sampling, Oversampling, Bootstrapping, Synthetic Minority Oversampling Technique (SMOTE).


KNIME Videos and Workflows

Titanic_161_Child_Phase_3_Data_Preparation_v3

Workflow bei KNIME Community Hub

Titanic_161_Child_Phase_3_Data_Preparation_v3.knwf


Titanic_162_Child_Phase_3_ESS_Bootstrap_SMOTE

Workflow bei KNIME Community Hub
Equal Size Sampling
Nominal Value Row Splitter
Bootstrap Sampling
SMOTE

Titanic_162_Child_Phase_3_ESS_Bootstrap_SMOTE.knwf


Titanic_163_Child_Phase_4_Modeling_RF

Workflow bei KNIME Community Hub

Titanic_163_Child_Phase_4_Modeling_RF.knwf


Titanic_164_Child_Phase_5_Evaluation_RF

Workflow bei KNIME Community Hub

Titanic_164_Child_Phase_5_Evaluation_RF.knwf


Titanic_165_Child_Phase_6_Deployment_RF

Workflow bei KNIME Community Hub

Titanic_165_Child_Phase_6_Deployment_RF.knwf


Titanic_169_Child_Sonstiges

Workflow bei KNIME Community Hub

Titanic_169_Child_Sonstiges.knwf


Anaconda (Python) Jupyter Notebooks

Titanic_161_Child_Phase_3_Data_Preparation_v3

Child: Phase 3

Titanic_161_Child_Phase_3_Data_Preparation_v3.ipynb


Titanic_162_Child_Phase_3_ESS_Bootstrap_SMOTE

Child Phase 3: Sampling

Titanic_162_Child_Phase_3_ESS_Bootstrap_SMOTE.ipynb


Titanic_163_Child_Phase_4_Modeling / Titanic_164_Child_Phase_5_Evaluation / Titanic_165_Child_Phase_6_Deployment

Child Phasen 4, 5 und 6

Titanic_163_Child_Phase_4_Modeling_(a) RF.ipynb
Titanic_163_Child_Phase_4_Modeling_(b) GB.ipynb
Titanic_164_Child_Phase_5_Evaluation_(a) RF.ipynb
Titanic_164_Child_Phase_5_Evaluation_(b)_GB.ipynb
Titanic_165_Child_Phase_6_Deployment.ipynb