Kapitel 11

Ensemble Learning


Nicht nur Menschen leiden unter kognitiven Verzerrungen. Auch Maschinen kann es treffen. Schlechte Daten können zu einem solchen Bias führen. Eine andere Fehlerkomponente des trainierten Modells ist die Varianz. Die beiden Fehleranteile Bias und Varianz lassen sich jedoch nicht gleichermaßen verringern. Mit Hilfe von Ensembles und Techniken wie Bagging oder Boosting ist es aber möglich, zumindest jeweils eine dieser Fehlerkomponenten zu reduzieren. Genau hier setzen Anna und Karl an. Sie benutzen nicht nur ein Modell, sondern trainieren eine Gruppe von Modellen. Diese Gruppe, also das Ensemble, stimmt dann darüber ab, ob ein Passagier die Titanic-Katastrophe voraussichtlich überlebt. Somit bekommen die beiden Trainees neben dem Ergebnis der Klassifizierung auch eine Wahrscheinlichkeit für das Vertrauen in diese Vorhersage. Wenn die zugrundeliegende Methode der Entscheidungsbaum ist, dann lassen sich spezielle Ensembles bilden: Random Forest und Gradient Boosted Trees. Bei der Konstruktion des Random Forest wird bspw. ein Nachteil des einzelnen Entscheidungsbaums ausgenutzt, um einen Wald von Bäumen mit einer großen Modellvariation zu bekommen. Bei den Gradient Boosted Trees wird ein Baumstumpf, also ein schwaches Modell, sukzessive mit Hilfe des Gradientenverfahrens verstärkt. Mit diesen beiden speziellen Ensembles bekommen Anna und Karl schließlich auch Hinweise zu der Wichtigkeit der Attribute der Titanic-Passagiere.

Keywords: Bias-Variance Tradeoff, Ensembles, Ensemble Learning, Bagging, Pasting, Stacking, Boosting, Random Forest, Gradient Boosted Trees.


KNIME Videos und Workflows

Titanic_111_Phase_4_Modeling_RF

Workflow bei KNIME Community Hub
Random Forest Learner
Random Forest Predictor
Model Writer

Titanic_111_Phase_4_Modeling_RF.knwf


Titanic_112_Phase_5_Evaluation_RF

Workflow bei KNIME Community Hub
Model Reader

Titanic_112_Phase_5_Evaluation_RF.knwf


Titanic_113_Phase_6_Deployment_RF

Workflow bei KNIME Community Hub

Titanic_113_Phase_6_Deployment_RF.knwf


Titanic_114_Phase_4_Modeling_GBT

Workflow bei KNIME Community Hub
Gradient Boosted Trees Learner
Gradient Boosted Trees Predictor

Titanic_114_Phase_4_Modeling_GBT.knwf


Titanic_115_Phase_5_Evaluation_GBT

Workflow bei KNIME Community Hub

Titanic_115_Phase_5_Evaluation_GBT.knwf


Titanic_116_Phase_6_Deployment_GBT

Workflow bei KNIME Community Hub

Titanic_116_Phase_6_Deployment_GBT.knwf


Anaconda (Python) Jupyter Notebooks

Titanic_111_Phase_4_Modeling_RF

Phase 4: RF

Titanic_111_Phase_4_Modeling_RF.ipynb

Titanic_112_Phase_5_Evaluation_RF / Titanic_113_Phase_6_Deployment_RF

Titanic_112_Phase_5_Evaluation_RF.ipynb
Titanic_113_Phase_6_Deployment_RF.ipynb


Titanic_114_Phase_4_Modeling_GB

Phase 4: GB

Titanic_114_Phase_4_Modeling_GB.ipynb

Titanic_115_Phase_5_Evaluation_GB / Titanic_116_Phase_6_Deployment_GB

Titanic_115_Phase_5_Evaluation_GB.ipynb
Titanic_116_Phase_6_Deployment_GB.ipynb