Anwendungsdaten
In der Datei application.csv sind Anwendungsdaten zu 23 potenziellen neuen Kunden bzw. Passagieren gegeben. Diese Datensätze sollen klassifiziert werden. Zu diesen Datensätzen sollen also Prognosen erstellt werden. Hätten diese potenziellen Kunden als Passagiere die Titanic-Katastrophe voraussichtlich überlebt oder nicht?
https://data-science.training/1/application.csv
Die Trainings- und Testdaten können beim zugehörigen Wettbewerb der Data-Science-Plattform Kaggle heruntergeladen werden:
https://www.kaggle.com/competitions/titanic/data
Dateien und CRISP-DM
Die drei Dateien lassen sich zu drei Phasen des Referenz-Prozessmodells CRISP-DM zuordnen:
Phase 4 (Modeling): train.csv
Phase 5 (Evaluation): test.csv
Phase 6 (Deployment): application.csv
Workspace-Struktur
Die Verzeichnisstruktur der Arbeitsbereiche in KNIME und Anaconda ist fast identisch. Die noch leere Struktur kann als ZIP-Archiv heruntergeladen und in den jeweiligen Bereichen entpackt werden:
https://data-science.training/1/workspace.zip
Quellcodes
Die Quellcodes zu den KNIME Workflows und Anaconda/Python Juyper Notebooks können unter Materialien heruntergeladen werden.
