Kapitel 3

Standard-Prozessmodell


Endlich ist es soweit. Anna und Karl erstellen die ersten Prognosen. Sie klassifizieren 418 Titanic-Passagiere der Testdaten. Diese Prognosen laden sie auf die Data-Science-Plattform Kaggle hoch. Als Feedback liefert Kaggle die Treffergenauigkeit und die Platzierung in einer Rangliste zurück. Die ersten Modelle erzielen zwar noch keine sehr guten Ergebnisse, trotzdem ist dieser Schritt ein wichtiger Meilenstein für die beiden Trainees. Die Ergebnisse sind nicht zufällig zustande gekommen. Anna und Karl lernen, strukturiert und systematisch vorzugehen. Sie orientieren sich an CRISP-DM: Cross Industry Standard Process for Data Mining. Das ist das Referenz-Prozessmodell im Bereich Data Science. Es besteht aus sechs Phasen. Zwei der Phasen sind sie bereits gegangen, ohne es zu wissen: Geschäftsverständnis (Business Understanding) und Datenverständnis (Data Understanding). Nun gehen sie den Rest des Weges: Datenvorbereitung (Data Preparation), Modellierung (Modeling), Auswertung (Evaluation) und Einsatz der Ergebnisse (Deployment). Max und Sophia stehen ihnen dabei wieder zur Seite.

Keywords: CRISP-DM, Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, Deployment.


KNIME Videos und Workflows

Titanic_031_Phase_3_Data_Preparation_v1

Workflow bei KNIME Community Hub
Missing Value

Titanic_031_Phase_3_Data_Preparation_v1.knwf


Titanic_032_Phase_4_Modell_1

Workflow bei KNIME Community Hub
Excel Reader
Constant Value Column

Titanic_032_Phase_4_Modell_1.knwf


Titanic_033_Phase_4_Modell_2_Pclass

Workflow bei KNIME Community Hub

Titanic_033_Phase_4_Modell_2_Pclass.knwf


Titanic_034_Phase_4_Modell_3_Sex

Workflow bei KNIME Community Hub
Category To Number

Titanic_034_Phase_4_Modell_3_Sex.knwf


Titanic_035_Phase_4_Modell_4_Age

Workflow bei KNIME Community Hub
Rule-based Row Splitter

Titanic_035_Phase_4_Modell_4_Age.knwf


Titanic_036_Phase_4_Modell_5_Sex_Age

Workflow bei KNIME Community Hub

Titanic_036_Phase_4_Modell_5_Sex_Age.knwf


Titanic_037_Phase_5_Evaluation

Workflow bei KNIME Community Hub
CSV Writer

Titanic_037_Phase_5_Evaluation.knwf


Titanic_038_Phase_6_Deployment

Workflow bei KNIME Community Hub

Titanic_038_Phase_6_Deployment.knwf


Anaconda (Python) Jupyter Notebooks

Titanic_031_Phase_3_Data_Preparation_v1

Data Preparation

Titanic_031_Phase_3_Data_Preparation_v1.ipynb


Titanic_032_Phase_4_Modell_1

Modell 1

Titanic_032_Phase_4_Modell_1.ipynb


Titanic_033_Phase_4_Modell_2_Pclass

Modell 2

Titanic_033_Phase_4_Modell_2_Pclass.ipynb


Titanic_034_Phase_4_Modell_3_Sex

Modell 3

Titanic_034_Phase_4_Modell_3_Sex.ipynb


Titanic_035_Phase_4_Modell_4_Age

Modell 4

Titanic_035_Phase_4_Modell_4_Age.ipynb


Titanic_036_Phase_4_Modell_5_Sex_Age

Modell 5

Titanic_036_Phase_4_Modell_5_Sex_Age.ipynb


Titanic_037_Phase_5_Evaluation

Evaluation

Titanic_037_Phase_5_Evaluation.ipynb


Titanic_038_Phase_6_Deployment

Deployment

Titanic_038_Phase_6_Deployment.ipynb