Kapitel 2

Datenverständnis


Gute Daten sind die Grundlage für gute Analysen. Das weiß auch Max. Auf Basis von elf Qualitätskriterien entwickelt er eine Checkliste mit 15 Fragen. Diese bekommen Anna und Karl zur Verfügung gestellt, um damit die gegebenen Daten gründlich zu prüfen. Sophia unterstützt die beiden Trainees bei ihrer Detektivarbeit. Sie ist ein großer Titanic-Fan und weiß fast alles über die Katastrophe. Was Anna und Karl entdecken, ist besorgniserregend. Sind die Titanic-Daten tatsächlich so schlecht? Hatten die Kaggle-Mitarbeiter keine Lust oder Zeit, bessere Daten zusammenzustellen? Oder war das Absicht, damit der Wettbewerb eine besondere Herausforderung für angehende Data Scientists darstellt? Anna und Karl eignen sich insb. Wissen über Daten, Datentypen, Datenformate, Skalenniveaus und Datenqualität an. Sie können eine Explorative Datenanalyse (EDA) durchführen und die Ergebnisse einer Korrelationsanalyse interpretieren. Schließlich lernen sie auch ein paar neue Tipps und Tricks im Umgang mit den Werkzeugen KNIME Analytics bzw. Anaconda/Python kennen.

Keywords: Daten, Datentypen, Datenformate, Skalenniveaus, Datenqualität, Explorative Datenanalyse (EDA), Korrelationsanalyse.


KNIME Videos und Workflows

Titanic_021_Phase_2_Statistische_Analyse

Workflow bei KNIME Community Hub
Concatenate

Titanic_021_Phase_2_Statistische_Analyse.knwf


Titanic_022_Phase_2_Verteilungen

Workflow bei KNIME Community Hub
Color Manager


Titanic_022_Phase_2_Verteilungen.knwf


Titanic_023_Phase_2_Ausreißeranalyse

Workflow bei KNIME Community Hub
Numeric Outliers

Titanic_023_Phase_2_Ausreißeranalyse.knwf


Titanic_024_Phase_2_Korrelationsanalyse

Workflow bei KNIME Community Hub

Titanic_024_Phase_2_Korrelationsanalyse.knwf


Titanic_025_Phase_2_Streudiagramme

Workflow bei KNIME Community Hub
Scatter Plot
Scatter Matrix

Titanic_025_Phase_2_Streudiagramme.knwf


Titanic_026_Phase_2_Boxplots

Workflow bei KNIME Community Hub
Box Plot

Titanic_026_Phase_2_Boxplots.knwf


Titanic_027_Phase_2_Histogramme

Workflow bei KNIME Community Hub
Interactive Histogram

Titanic_027_Phase_2_Histogramme.knwf


Titanic_029_Phase_2_Sonstiges

Workflow bei KNIME Community Hub
String Manipulation

Titanic_029_Phase_2_Sonstiges.knwf


Anaconda (Python) Jupyter Notebooks

Titanic_021_Phase_2_Statistische_Analyse

Statistische Analyse

Titanic_021_Phase_2_Statistische_Analyse.ipynb


Titanic_022_Phase_2_Verteilungen

Verteilungen

Titanic_022_Phase_2_Verteilungen.ipynb


Titanic_023_Phase_2_Ausreißeranalyse

Ausreißeranalyse

Titanic_023_Phase_2_Ausreißeranalyse.ipynb


Titanic_024_Phase_2_Korrelationsanalyse

Korrelationsanalyse

Titanic_024_Phase_2_Korrelationsanalyse.ipynb


Titanic_025_Phase_2_Streudiagramme

Streudiagramme

Titanic_025_Phase_2_Streudiagramme.ipynb


Titanic_026_Phase_2_Boxplots

Boxplots

Titanic_026_Phase_2_Boxplots.ipynb


Titanic_027_Phase_2_Histogramme

Histogramme

Titanic_027_Phase_2_Histogramme.ipynb


Titanic_028_Phase_2_Seaborn

Seaborn

Titanic_028_Phase_2_Seaborn_(a)_Scatterplots.ipynb
Titanic_028_Phase_2_Seaborn_(b)_Swarm_Strip_Sex_Age.ipynb
Titanic_028_Phase_2_Seaborn_(c)_Hist_Age_Missing.ipynb
Titanic_028_Phase_2_Seaborn_(d)_Hist_Fare.ipynb
Titanic_028_Phase_2_Seaborn_(e)_Barcharts.ipynb


Titanic_029_Phase_2_Sonstiges

Sonstiges

Titanic_029_Phase_2_Sonstiges.ipynb