Entscheidungsbäume
Die Entropie im Universum nimmt zu. Entropie ist ein Maß für die Unreinheit bzw. Unordnung eines Systems. Anna und Karl möchten jedoch Ordnung in ihre Daten bekommen. Reine Partitionen sind solche Mengen, die nur Datenobjekte einer Klasse enthalten. Deshalb benutzen sie einen Entscheidungsbaum. Das ist ein White-Box-Modell. Entscheidungen, die wir mit einem solchen Modell treffen, sind verständlich und nachvollziehbar. Das Modell ist also erklärbar und transparent. Die Baumstruktur können wir grafisch darstellen. Daraus lassen sich auch leicht Regeln ableiten. Die beiden Trainees konstruieren mit Hilfe der Entropie solche Entscheidungsbäume. Sie entscheiden damit, ob ein Titanic-Passagier voraussichtlich überlebt. Entscheidungsbäume können allerdings groß und komplex werden. Das führt schnell zu einer Überanpassung des trainierten Modells. Mit Hilfe von Pre- und Post-Pruning trimmen Anna und Karl Entscheidungsbäume, um diesem Overfitting entgegenwirken. Die Werkzeuge KNIME Analytics und Anaconda/Python bieten hierzu unterschiedliche Implementierungen. Außerdem lassen sich neben der Entropie auch andere Parameter einstellen und variieren. Welcher Trainee konstruiert den besseren Entscheidungsbaum?
Keywords: Entscheidungsbaum, TDIDT, Entropie, Informationsgewinn, Gain Ratio, Gini-Index, Overfitting, Pruning, ID3, C4.5, CART.
KNIME Videos und Workflows
Titanic_081_Phase_4_Modeling_DT

Titanic_081_Phase_4_Modeling_DT.knwf
Titanic_082_Phase_5_Evaluation_DT

Titanic_082_Phase_5_Evaluation_DT.knwf
Titanic_083_Phase_4_Modeling_DT_Parameterstudie

Titanic_083_Phase_4_Modeling_DT_Parameterstudie.knwf
Titanic_084_Phase_5_Evaluation_DT_Parameterstudie

Titanic_084_Phase_5_Evaluation_DT_Parameterstudie.knwf
Titanic_085_Phase_6_Deployment_DT

Titanic_085_Phase_6_Deployment_DT.knwf
Anaconda (Python) Jupyter Notebooks
Titanic_081_Phase_4_Modeling_DT / Titanic_082_Phase_5_Evaluation_DT
Titanic_081_Phase_4_Modeling_DT.ipynb
Titanic_082_Phase_5_Evaluation_DT.ipynb
Titanic_083_Phase_4_Modeling_DT_Parameterstudie
Titanic_083_Phase_4_Modeling_DT_Parameterstudie.ipynb
Titanic_083_Phase_4_Modeling_DT_Parameterstudie_Bild.ipynb
Titanic_084_Phase_5_Evaluation_DT_Parameterstudie / Titanic_085_Phase_6_Deployment_DT
Titanic_084_Phase_5_Evaluation_DT_Parameterstudie.ipynb
Titanic_085_Phase_6_Deployment_DT.ipynb