Ensemble Learning
Nicht nur Menschen leiden unter kognitiven Verzerrungen. Auch Maschinen kann es treffen. Schlechte Daten können zu einem solchen Bias führen. Eine andere Fehlerkomponente des trainierten Modells ist die Varianz. Die beiden Fehleranteile Bias und Varianz lassen sich jedoch nicht gleichermaßen verringern. Mit Hilfe von Ensembles und Techniken wie Bagging oder Boosting ist es aber möglich, zumindest jeweils eine dieser Fehlerkomponenten zu reduzieren. Genau hier setzen Anna und Karl an. Sie benutzen nicht nur ein Modell, sondern trainieren eine Gruppe von Modellen. Diese Gruppe, also das Ensemble, stimmt dann darüber ab, ob ein Passagier die Titanic-Katastrophe voraussichtlich überlebt. Somit bekommen die beiden Trainees neben dem Ergebnis der Klassifizierung auch eine Wahrscheinlichkeit für das Vertrauen in diese Vorhersage. Wenn die zugrundeliegende Methode der Entscheidungsbaum ist, dann lassen sich spezielle Ensembles bilden: Random Forest und Gradient Boosted Trees. Bei der Konstruktion des Random Forest wird bspw. ein Nachteil des einzelnen Entscheidungsbaums ausgenutzt, um einen Wald von Bäumen mit einer großen Modellvariation zu bekommen. Bei den Gradient Boosted Trees wird ein Baumstumpf, also ein schwaches Modell, sukzessive mit Hilfe des Gradientenverfahrens verstärkt. Mit diesen beiden speziellen Ensembles bekommen Anna und Karl schließlich auch Hinweise zu der Wichtigkeit der Attribute der Titanic-Passagiere.
Keywords: Bias-Variance Tradeoff, Ensembles, Ensemble Learning, Bagging, Pasting, Stacking, Boosting, Random Forest, Gradient Boosted Trees.
KNIME Videos und Workflows
Titanic_111_Phase_4_Modeling_RF

Titanic_111_Phase_4_Modeling_RF.knwf
Titanic_112_Phase_5_Evaluation_RF

Titanic_112_Phase_5_Evaluation_RF.knwf
Titanic_113_Phase_6_Deployment_RF

Titanic_113_Phase_6_Deployment_RF.knwf
Titanic_114_Phase_4_Modeling_GBT

Titanic_114_Phase_4_Modeling_GBT.knwf
Titanic_115_Phase_5_Evaluation_GBT

Titanic_115_Phase_5_Evaluation_GBT.knwf
Titanic_116_Phase_6_Deployment_GBT

Titanic_116_Phase_6_Deployment_GBT.knwf
Anaconda (Python) Jupyter Notebooks
Titanic_111_Phase_4_Modeling_RF
Titanic_111_Phase_4_Modeling_RF.ipynb
Titanic_112_Phase_5_Evaluation_RF / Titanic_113_Phase_6_Deployment_RF
Titanic_112_Phase_5_Evaluation_RF.ipynb
Titanic_113_Phase_6_Deployment_RF.ipynb
Titanic_114_Phase_4_Modeling_GB
Titanic_114_Phase_4_Modeling_GB.ipynb
Titanic_115_Phase_5_Evaluation_GB / Titanic_116_Phase_6_Deployment_GB
Titanic_115_Phase_5_Evaluation_GB.ipynb
Titanic_116_Phase_6_Deployment_GB.ipynb