Kapitel 8

Entscheidungsbäume


Die Entropie im Universum nimmt zu. Entropie ist ein Maß für die Unreinheit bzw. Unordnung eines Systems. Anna und Karl möchten jedoch Ordnung in ihre Daten bekommen. Reine Partitionen sind solche Mengen, die nur Datenobjekte einer Klasse enthalten. Deshalb benutzen sie einen Entscheidungsbaum. Das ist ein White-Box-Modell. Entscheidungen, die wir mit einem solchen Modell treffen, sind verständlich und nachvollziehbar. Das Modell ist also erklärbar und transparent. Die Baumstruktur können wir grafisch darstellen. Daraus lassen sich auch leicht Regeln ableiten. Die beiden Trainees konstruieren mit Hilfe der Entropie solche Entscheidungsbäume. Sie entscheiden damit, ob ein Titanic-Passagier voraussichtlich überlebt. Entscheidungsbäume können allerdings groß und komplex werden. Das führt schnell zu einer Überanpassung des trainierten Modells. Mit Hilfe von Pre- und Post-Pruning trimmen Anna und Karl Entscheidungsbäume, um diesem Overfitting entgegenwirken. Die Werkzeuge KNIME Analytics und Anaconda/Python bieten hierzu unterschiedliche Implementierungen. Außerdem lassen sich neben der Entropie auch andere Parameter einstellen und variieren. Welcher Trainee konstruiert den besseren Entscheidungsbaum?

Keywords: Entscheidungsbaum, TDIDT, Entropie, Informationsgewinn, Gain Ratio, Gini-Index, Overfitting, Pruning, ID3, C4.5, CART.


KNIME Videos und Workflows

Titanic_081_Phase_4_Modeling_DT

Workflow bei KNIME Community Hub
Decision Tree Learner
Decision Tree Predictor

Titanic_081_Phase_4_Modeling_DT.knwf


Titanic_082_Phase_5_Evaluation_DT

Workflow bei KNIME Community Hub

Titanic_082_Phase_5_Evaluation_DT.knwf


Titanic_083_Phase_4_Modeling_DT_Parameterstudie

Workflow bei KNIME Community Hub

Titanic_083_Phase_4_Modeling_DT_Parameterstudie.knwf


Titanic_084_Phase_5_Evaluation_DT_Parameterstudie

Workflow bei KNIME Community Hub

Titanic_084_Phase_5_Evaluation_DT_Parameterstudie.knwf


Titanic_085_Phase_6_Deployment_DT

Workflow bei KNIME Community Hub

Titanic_085_Phase_6_Deployment_DT.knwf


Anaconda (Python) Jupyter Notebooks

Titanic_081_Phase_4_Modeling_DT / Titanic_082_Phase_5_Evaluation_DT

Phase 4: DT

Titanic_081_Phase_4_Modeling_DT.ipynb
Titanic_082_Phase_5_Evaluation_DT.ipynb


Titanic_083_Phase_4_Modeling_DT_Parameterstudie

Phase 4: DT Parameterstudie

Titanic_083_Phase_4_Modeling_DT_Parameterstudie.ipynb
Titanic_083_Phase_4_Modeling_DT_Parameterstudie_Bild.ipynb


Titanic_084_Phase_5_Evaluation_DT_Parameterstudie / Titanic_085_Phase_6_Deployment_DT

Titanic_084_Phase_5_Evaluation_DT_Parameterstudie.ipynb
Titanic_085_Phase_6_Deployment_DT.ipynb