Kapitel 5

Datenvorbereitung


Feature Engineering ist ein besonderer Schritt in der Phase 3 (Data Preparation) von CRISP-DM. Mit Hilfe dieser Methode erzeugen Anna und Karl neue Attribute, bspw. Title , FamilySize und LogFare . Diese neuen Attribute sollen zukünftig zu besseren Modellergebnissen führen. Die beiden Trainees lernen die Techniken One Hot Encoding und Binning sowie einige Skalierungen und Transformationen kennen. Dabei stoßen sie auf Herausforderungen wie den Fluch der Dimensionalität, Overfitting und Rauschen. Sie erkennen Gemeinsamkeiten und Unterschiede zwischen Klassifikation und Clusteranalyse. Schließlich erstellen Anna und Karl mit ihren Werkzeugen drei neue Sets von Trainings-, Test- und Anwendungsdaten. Die verschiedenen Datenvarianten unterscheiden sich hinsichtlich der Skalenniveaus und Datentypen der Attribute. Damit legen sie den Grundstein für den nächsten Teil ihres Data Science Trainings. Das Team, inklusive Max und Sophia, ist schon gespannt, wie k-Nearest Neighbor und weitere Klassifikationsmethoden abschneiden, wenn sie mit diesen vermeintlich verbesserten Daten arbeiten.

Keywords: Feature Engineering, One Hot Encoding, Binning, Skalierungen, Min-Max-Normierung, Standardisierung, Transformation, Textoperationen, Fluch der Dimensionalität, Overfitting, Rauschen, Clusteranalyse vs. Klassifikation.


KNIME Videos und Workflows

Titanic_051_Phase_3_Name

Workflow bei KNIME Community Hub
Cell Splitter
Table Creator
Value Lookup
Metanodes

Titanic_051_Phase_3_Name.knwf


Titanic_052_Phase_3_Age

Workflow bei KNIME Community Hub

Titanic_052_Phase_3_Age.knwf


Titanic_053_Phase_3_SibSp_Parch

Workflow bei KNIME Community Hub
Binner (Dictionary)

Titanic_053_Phase_3_SibSp_Parch.knwf


Titanic_054_Phase_3_Fare

Workflow bei KNIME Community Hub
Joiner
Correlation Filter
Auto-Binner

Titanic_054_Phase_3_Fare.knwf


Titanic_055_Phase_3_Cabin

Workflow bei KNIME Community Hub

Titanic_055_Phase_3_Cabin.knwf


Titanic_056_Phase_3_Data_Preparation_v3

Workflow bei KNIME Community Hub

Titanic_056_Phase_3_Data_Preparation_v3.knwf


Titanic_057_Phase_3_Data_Preparation_v4

Workflow bei KNIME Community Hub
One To Many

Titanic_057_Phase_3_Data_Preparation_v4.knwf


Titanic_058_Phase_3_Data_Preparation_v5

Workflow bei KNIME Community Hub

Titanic_058_Phase_3_Data_Preparation_v5.knwf


Anaconda (Python) Jupyter Notebooks

Titanic_051_Phase_3_Name

Phase 3: Name

Titanic_051_Phase_3_Name.ipynb


Titanic_052_Phase_3_Age

Phase 3: Age

Titanic_052_Phase_3_Age.ipynb


Titanic_053_Phase_3_SibSp_Parch

Phase 3: SibSp Parch

Titanic_053_Phase_3_SibSp_Parch.ipynb


Titanic_054_Phase_3_Fare

Phase 3: Fare

Titanic_054_Phase_3_Fare.ipynb
Titanic_054_Phase_3_Fare_Seaborn_Hist.ipynb


Titanic_055_Phase_3_Cabin

Phase 3: Cabin

Titanic_055_Phase_3_Cabin.ipynb


Titanic_056_Phase_3_Data_Preparation_v3

Vorbereitung: Eigene Module
Phase 3: Daten v3

Titanic_056_Phase_3_Data_Preparation_v3.ipynb
Titanic_056_Phase_3_Data_Preparation_v3_Seaborn_Barcharts.ipynb


Titanic_057_Phase_3_Data_Preparation_v4

Phase 3: Daten v4

Titanic_057_Phase_3_Data_Preparation_v4.ipynb


Titanic_058_Phase_3_Data_Preparation_v5

Phase 3: Daten v5

Titanic_058_Phase_3_Data_Preparation_v5.ipynb
Titanic_058_Phase_3_Data_Preparation_v5_Seaborn_Barcharts.ipynb