Kapitel 12

Vorbereitung der Regressionsanalyse


Max hat diese verrückte Idee. Anna und Karl sollen das Alter der Passagiere mit Hilfe einer Regressionsanalyse schätzen. Ein neues Feature ist der Vorname bzw. kann aus den Vornamen der Passagiere entwickelt werden. Das klingt auf den ersten Blick absurd. Jedenfalls folgen die beiden Trainees wieder dem Standard-Prozessmodell CRISP-DM. Da die Daten bereits bekannt sind, konzentrieren sie sich auf die Phase 3, die Datenvorbereitung. Diesmal ist das Zielattribut jedoch das Alter, welches kardinalskaliert ist. Anna und Karl führen Korrelationsanalysen zu den bestehenden Attributen und neuen Features durch. Sie lernen Gemeinsamkeiten und Unterschiede zwischen Korrelation und Regression sowie Besonderheiten der Korrelationskoeffizienten nach Bravais & Pearson kennen. Die Ergebnisse benutzen sie, um die Daten so aufzubereiten, dass sie diese in den nächsten Sprints für eine Regressionsanalyse verwenden können. Aus Neugier suchen sie in den Passagierdaten nach ihren eigenen Vornamen. Dabei entdecken Anna und Karl erstaunliche Parallelen zur heutigen Zeit.

Keywords: Interpolation vs. Extrapolation, Prognose, Regressionsanalyse, Korrelationsanalyse, Bravais & Pearson, Korrelationskoeffizient, linearer Zusammenhang, Stärke, Anscombe-Quartett.


KNIME Workflows

Titanic_121_Age_Phase_2_Korrelationsanalyse

Workflow bei KNIME Community Hub

Titanic_121_Age_Phase_2_Korrelationsanalyse.knwf


Titanic_122_Age_Phase_3_Pclass

Workflow bei KNIME Community Hub

Titanic_122_Age_Phase_3_Pclass.knwf


Titanic_123_Age_Phase_3_Fare

Workflow bei KNIME Community Hub

Titanic_123_Age_Phase_3_Fare.knwf


Titanic_124_Age_Phase_3_Title

Workflow bei KNIME Community Hub

Titanic_124_Age_Phase_3_Title.knwf


Titanic_125_Age_Phase_3_Firstname

Workflow bei KNIME Community Hub

Titanic_125_Age_Phase_3_Firstname.knwf


Titanic_126_Age_Phase_3_Data_Preparation_v1

Workflow bei KNIME Community Hub

Titanic_126_Age_Phase_3_Data_Preparation_v1.knwf


Titanic_129_Age_Phase_3_Sonstiges

Workflow bei KNIME Community Hub

Titanic_129_Age_Phase_3_Sonstiges.knwf


Anaconda (Python) Jupyter Notebooks

Titanic_121_Age_Phase_2_Korrelationsanalyse

Age Phase 2: Korrelationsanalyse

Titanic_121_Age_Phase_2_Korrelationsanalyse.ipynb


Titanic_122_Age_Phase_3_Pclass / Titanic_123_Age_Phase_3_Fare / Titanic_124_Age_Phase_3_Title

Age Phase 3: Pclass Fare Title

Titanic_122_Age_Phase_3_Pclass.ipynb
Titanic_123_Age_Phase_3_Fare.ipynb
Titanic_124_Age_Phase_3_Title.ipynb


Titanic_125_Age_Phase_3_Firstname

Age Phase 3: Firstname

Titanic_125_Age_Phase_3_Firstname.ipynb


Titanic_126_Age_Phase_3_Data_Preparation_v1

Age Phase 3: v1

Titanic_126_Age_Phase_3_Data_Preparation_v1.ipynb