Kapitel 1

Fach- und Geschäftsverständnis


Anna und Karl starten ihre Traineephase bei der i3-Versicherung. Ihr Coach Max begleitet sie dabei und stellt ihnen den Titanic-Wettbewerb der Data-Science-Plattform Kaggle vor. Sie sollen vorhersagen, welche Passagiere die Schiffskatastrophe überlebt hätten. Solche oder ähnliche Prognosen sind hilfreich für die Prämienberechnung von Risikolebensversicherungen. Karl benutzt als Werkzeuge KNIME Analytics. Anna verwendet das Tool Anaconda (Python, Jupyter Notebook). Damit unternehmen die beiden Trainees ihre ersten Schritte in die Data-Science-Welt. Zuvor bekommen sie neben einer theoretischen Einführung insb. Gelegenheit, um mit Max über die Themen Datenschutz und Datenethik zu diskutieren. Ganz nebenbei lernen Anna und Karl auch viele neue Begriffe kennen.

Keywords: Data Science, Data Literacy, Business Intelligence, Data Warehouse, Data Mining, Knowledge Discovery in Databases, Big Data, Predictive Analytics, überwachtes Lernen, Klassifikation, Regression, Machine Learning, künstliche Intelligenz, Turing-Test, Datenschutz, Datensicherheit, Datenethik.


KNIME Videos und Workflows

KNIME Analytics Platform vorbereiten

Workspace & Daten vorbereiten
Software installieren
Konfiguration & Views

Beschreibung

Max erklärt Euch in diesen drei Videos Schritt für Schritt die Vorbereitungen zur Verwendung des Data Science Tools „KNIME Analytics Platform“ (in der Version 5.1).

  • Workspace und Daten vorbereiten
  • Software installieren
  • Software konfigurieren und Views verstehen

Titanic_011_Erste_Schritte

Workflow bei KNIME Community Hub
Erste Schritte

Beschreibung

Max erklärt Euch in diesem Video Schritt für Schritt den Einstieg in die Titanic-Fallstudie und ins Data Science Tool „KNIME Analytics Platform“ (in der Version 5.1).

EVA-Prinzip

  • E = Eingabe: Daten lesen [Orange]
  • V = Verarbeitung: Daten filtern [Gelb]
  • A = Ausgabe: Daten speichern [Rot]
CSV Reader
Row Filter
Column Filter
Excel Writer

Titanic_011_Erste_Schritte.knwf


Titanic_012_Gelbe_Knoten

Workflow bei KNIME Community Hub
Gelbe Knoten

Beschreibung

Max erklärt Euch in diesem Video Schritt für Schritt den Einstieg in die Titanic-Fallstudie und ins Data Science Tool „KNIME Analytics Platform“ (in der Version 5.1).

Gelbe Knoten kommen häufig in der Datenvorbereitung zum Einsatz.

Row Splitter
Rule-based Row Filter
Sorter
Math Formula
Column Renamer
Column Resorter

Titanic_012_Gelbe_Knoten.knwf


Titanic_013_Blaue_und_braune_Knoten

Workflow bei KNIME Community Hub
Blaue und braune Knoten

Beschreibung

Max erklärt Euch in diesem Video Schritt für Schritt den Einstieg in die Titanic-Fallstudie und ins Data Science Tool „KNIME Analytics Platform“ (in der Version 5.1).

Blaue Knoten beschreiben und visualisieren die Daten und können bspw. in einer Explorativen Datenanalyse (EDA) nützlich sein.

Braune Knoten führen spezielle Berechnungen durch.

Statistics
Linear Correlation
Pie Chart
Value Counter

Titanic_013_Blaue_und_braune_Knoten.knwf


Anaconda (Python) Jupyter Notebooks

Anaconda vorbereiten

Workspace & Daten vorbereiten
Software installieren
Konfiguration & Versionen

Beschreibung

Max erklärt Euch in diesen drei Videos Schritt für Schritt die Vorbereitungen zur Verwendung des Data Science Tools „Anaconda“ (in der Version 2023-09).

  • Workspace und Daten vorbereiten
  • Software installieren
  • Software konfigurieren und Versionen prüfen

Titanic_011_Erste_Schritte

Erste Schritte

Beschreibung

Max erklärt Euch in diesem Video Schritt für Schritt den Einstieg in die Titanic-Fallstudie und ins Data Science Tool „Anaconda“ (in der Version 5.1) bzw. „Jupyter Notebook“ (in der Version 6.5.4).

EVA-Prinzip

  • E = Eingabe: Daten lesen
  • V = Verarbeitung: Daten filtern
  • A = Ausgabe: Daten speichern

Titanic_011_Erste_Schritte.ipynb


Titanic_012_Weitere_Funktionen_zur_Datenverarbeitung

Weitere Funktionen zur Datenverarbeitung

Beschreibung

Max erklärt Euch in diesem Video Schritt für Schritt den Einstieg in die Titanic-Fallstudie und ins Data Science Tool „Anaconda“ (in der Version 2023-09) bzw. „Jupyter Notebook“ (in der Version 6.5.4).

Dabei zeigt Euch Max den Einsatz einiger nützlicher Funktionen zum Data Frame in Pandas.

Titanic_012_Weitere_Funktionen_zur_Datenverarbeitung.ipynb


Titanic_013_Erste_Analysen_und_Visualisierungen

Erste Analysen und Visualisierungen

Beschreibung

Max erklärt Euch in diesem Video Schritt für Schritt den Einstieg in die Titanic-Fallstudie und ins Data Science Tool „Anaconda“ (in der Version 2023-09) bzw. „Jupyter Notebook“ (in der Version 6.5.4).

Dabei zeigt Euch Max den Einsatz weiterer nützlicher Funktionen zum Data Frame in Pandas sowie die Erstellung ausgewählter Diagramme mit Hilfe des PyPlot-Moduls des Matplotlib-Pakets.

Titanic_013_Erste_Analysen_und_Visualsierungen.ipynb