Titanic

Die RMS Titanic war 1912 das weltgrößte Passagierschiff. Auf ihrer Jungfernfahrt von Großbritannien nach New York kollidierte es am 14.04.1912 gegen 23:40 Uhr mit einem Eisberg und sank innerhalb von 2 Stunden und 40 Minuten. Dieses Unglück überlebten nur 712 von den geschätzten 2.208 Personen (Passagiere und Besatzungsmitglieder). Also kamen ca. 1.500 Personen bei dieser Katastrophe ums Leben. Wie viele Personen tatsächlich auf der Titanic waren, lässt sich im Nachhinein nicht exakt feststellen, weil möglicherweise auch sogenannte blinde Passagiere mit an Bord waren. Das sind nur die Zahlen zu diesem Ereignis. Viele persönliche Schicksale sind mit der Titanic verbunden. Im Buch lernen wir einige davon kennen.

https://de.wikipedia.org/wiki/RMS_Titanichttps://www.encyclopedia-titanica.org

Karte zur Jungfernfahrt der Titanic

Kaggle Competition

Die Fallstudie zu diesem Data Science Training stammt von der Plattform Kaggle, die wiederum eine Tochtergesellschaft von Google bzw. Alphabet ist. Im Mittelpunkt dieser Data-Science-Plattform stehen Wettbewerbe (engl. Competitions). Teilweise rufen Unternehmen diese Wettbewerbe aus und manchmal gibt es Preisgelder zu gewinnen. Ein besonderer Wettbewerb ohne Preisgeld und Ende ist am 28.09.2012 gestartet: „Titanic – Machine Learning from Disaster“. Diese Competition richtet sich speziell an Data-Science-Anfänger. Die Idee des Original-Wettbewerbs ist einfach. Wir sollen ein ML-Modell mit den gegebenen Daten trainieren, um vorherzusagen, welche Passagiere diese bekannte Schiffskatastrophe überlebten. Dieser Aufgabentyp ist also eine binäre Klassifikation, denn es gibt genau zwei Klassen: Passagier überlebte vs. Passagier überlebte nicht. Damit gehört der Aufgabentyp zum überwachten Lernen, denn die Lösungen sind bekannt. Die Klassen sind in den Trainingsdaten vorhanden, d.h. die Daten sind mit einem Label versehen. Allerdings erweitern wir diesen Wettbewerb für dieses Data Science Training. Mit der Berechnung von Überlebenswahrscheinlichkeiten befassen sich nämlich auch Versicherungsgesellschaften, die ihren Kunden Lebensversicherungen verkaufen.

https://www.kaggle.com/c/titanic

Zweck & Ziel des Trainings und der Fallstudie

Der Zweck dieses Data Science Trainings ist der Kompetenzaufbau des Lesers im Bereich des überwachten maschinellen Lernens. Stellvertretend übernehmen Anna und Karl diese Rolle. Das Ziel der erweiterten Fallstudie ist die Vorhersage, ob ein Passagier die Titanic-Katastrophe überlebt hätte oder nicht. Allerdings soll dies vor dem Hintergrund geschehen, dass der Passagier vor dieser Schiffsreise eine Lebensversicherung abschließen möchte. Aus Sicht der i3-Versicherung ist diese Prognose wichtig, denn in einem der beiden Fälle (Klassen) muss sie die Versicherungsleistung zahlen. Ein Passagier ist also eigentlich ein (potenzieller) Kunde. Eine weitere Datei mit neuen Daten ist im Download-Bereich bereitgestellt. Diese Datei enthält 23 Datensätze zu potenziellen neuen Kunden, die eine Lebensversicherung abschließen möchten. Diese Personen planen eine ähnliche Reise wie die Jungfernfahrt der Titanic zu unternehmen. Hätten sie die Katastrophe überlebt, wenn sie an Bord der Titanic gewesen wären?