Data Science Training – Supervised Learning: Ein praktischer Einstieg ins überwachte maschinelle Lernen

zum Data Science Training! Hier findest du ergänzende Informationen und Materialien zum gleichnamigen Buch. Viel Vergnügen beim Lesen & Lernen, Trainieren & Testen, Ausprobieren & Anwenden.

Buch + Materialien = Selbstlernkurs

Die Vorteile auf einen Blick:

Du baust Kompetenzen in einem aktuell stark nachgefragten Fachgebiet auf. [#FutureSkills_wichtig]
Die Unterlagen sind hochwertig. In ihnen stecken theoretisches Wissen und Best Practices aus langjähriger professioneller Erfahrung. [#Qualität_hoch]
Du bestimmst dein eigenes Lerntempo – unabhängig von Zeit & Raum. [#Flexibilität_groß]
Vorkenntnisse sind nicht notwendig. Wenn du Zahlen magst und Rätsel liebst, dann wirst du Spaß haben und schnell vorankommen. [#Zeit_sinnvoll]
Die Werkzeuge sind Open Source, die Materialien sind gratis, das Buch ist preiswert. [#Kosten_günstig]

Liebe Interessentin, lieber Interessent,

herzlich Willkommen zu diesem spannenden Abenteuer in die Welt der Data Science! Dieses Buch wurde speziell für dich geschrieben, um dich dazu zu ermutigen, dich mit einem der interessantesten Themen unserer Zeit auseinanderzusetzen. Egal, ob du bereits erste Kenntnisse in der Datenanalyse gesammelt hast oder gerade erst anfängst, dich für dieses Thema zu interessieren, dieses Buch bietet dir eine solide Grundlage, um Wissen in diesem Bereich zu erwerben und zu erweitern. Egal, ob du ein Mathecrack bist oder nur die vier Grundrechenarten beherrscht, dieses Buch ermöglicht dir, deine Kenntnisse in der bunten Welt der Algorithmen einzusetzen und zu vertiefen. Egal, ob du programmieren kannst – vorzugsweise in Python – oder nicht, dieses Buch zeigt dir einen Zugang zu Datenanalysen auf, und zwar auf zwei alternativen Wegen. In jedem Fall kannst du praktische Kompetenzen aufbauen und deine kreativen Fähigkeiten entfalten. Du lernst, Data-Science-Probleme zu erforschen und innovative Lösungen zu entwickeln.

In unserer digitalisierten Welt, in der Daten allgegenwärtig sind, spielt Data Science eine entscheidende Rolle. Es ermöglicht uns, tiefe Einblicke in komplexe Probleme zu gewinnen, Muster zu erkennen und fundierte Entscheidungen zu treffen. Die Möglichkeiten, die sich durch Data Science eröffnen, sind grenzenlos und beeinflussen bereits jetzt viele Aspekte unseres täglichen Lebens, sei es in der Medizin, Wirtschaft, Umweltforschung oder auch im Bereich der Unterhaltung.

Ein besonderes Merkmal dieses Buches ist sein interaktiver Ansatz. Es fungiert als Selbstlernkurs, der es dir ermöglicht, durch praktische Übungen zu lernen. Du wirst nicht nur theoretisches Wissen erlangen, sondern auch direkt in die Welt der Daten eintauchen. Die Übungen bauen aufeinander auf und sind so konzipiert, dass du schnell Fortschritte machst und immer mehr Vertrauen in deine eigenen Fähigkeiten gewinnst. Denk daran, dass Data Science mehr ist als nur das Analysieren von Zahlen und Diagrammen. Es geht darum, kreative Lösungen für reale Probleme zu finden, Muster zu entdecken und Geschichten mit Daten zu erzählen, eigene Fragen zu stellen und neue Wege zu gehen. Data Science erfordert kritisches Denken, Neugierde und die Bereitschaft, aus Fehlern zu lernen.

Für die Bearbeitung der Übungen benötigst du ein Werkzeug, um ein möglichst großen Nutzen aus diesem Training zu erzielen. Zwei öffentlich zugängliche, lizenzfreie und für alle gängigen Betriebssysteme entwickelte Tools kannst du hierfür einsetzen. Wenn du bereits programmieren kannst, dann solltest du die Python-Distribution Anaconda verwenden, ansonsten die KNIME Analytics Platform. Eine weitere Besonderheit dieses Buches ist die Einbettung aller Übungen in eine durchgängige Fallstudie innerhalb einer Rahmenhandlung.

Teil 1: Datenanalyseprozess

Kapitel 1: Fach- und Geschäftsverständnis

Anna und Karl starten ihre Traineephase bei der i3-Versicherung. Ihr Coach Max begleitet sie dabei und stellt ihnen den Titanic-Wettbewerb der Data-Science-Plattform Kaggle vor. Sie sollen vorhersagen, welche Passagiere die Schiffskatastrophe überlebt hätten. Solche oder ähnliche Prognosen sind hilfreich für die Prämienberechnung von Risikolebensversicherungen. Karl benutzt als Werkzeuge KNIME Analytics. Anna verwendet das Tool Anaconda (Python, Jupyter Notebook). Damit unternehmen die beiden Trainees ihre ersten Schritte in die Data-Science-Welt. Zuvor bekommen sie neben einer theoretischen Einführung insb. Gelegenheit, um mit Max über die Themen Datenschutz und Datenethik zu diskutieren. Ganz nebenbei lernen Anna und Karl auch viele neue Begriffe kennen.

Keywords: Data Science, Data Literacy, Business Intelligence, Data Warehouse, Data Mining, Knowledge Discovery in Databases, Big Data, Predictive Analytics, überwachtes Lernen, Klassifikation, Regression, Machine Learning, künstliche Intelligenz, Turing-Test, Datenschutz, Datensicherheit, Datenethik.

Kapitel 2: Datenverständnis

Gute Daten sind die Grundlage für gute Analysen. Das weiß auch Max. Auf Basis von elf Qualitätskriterien entwickelt er eine Checkliste mit 15 Fragen. Diese bekommen Anna und Karl zur Verfügung gestellt, um damit die gegebenen Daten gründlich zu prüfen. Sophia unterstützt die beiden Trainees bei ihrer Detektivarbeit. Sie ist ein großer Titanic-Fan und weiß fast alles über die Katastrophe. Was Anna und Karl entdecken, ist besorgniserregend. Sind die Titanic-Daten tatsächlich so schlecht? Hatten die Kaggle-Mitarbeiter keine Lust oder Zeit, bessere Daten zusammenzustellen? Oder war das Absicht, damit der Wettbewerb eine besondere Herausforderung für angehende Data Scientists darstellt? Anna und Karl eignen sich insb. Wissen über Daten, Datentypen, Datenformate, Skalenniveaus und Datenqualität an. Sie können eine Explorative Datenanalyse (EDA) durchführen und die Ergebnisse einer Korrelationsanalyse interpretieren. Schließlich lernen sie auch ein paar neue Tipps und Tricks im Umgang mit den Werkzeugen KNIME Analytics bzw. Anaconda/Python kennen.

Keywords: Daten, Datentypen, Datenformate, Skalenniveaus, Datenqualität, Explorative Datenanalyse (EDA), Korrelationsanalyse.

Kapitel 3: Standard-Prozessmodell

Endlich ist es soweit. Anna und Karl erstellen die ersten Prognosen. Sie klassifizieren 418 Titanic-Passagiere der Testdaten. Diese Prognosen laden sie auf die Data-Science-Plattform Kaggle hoch. Als Feedback liefert Kaggle die Treffergenauigkeit und die Platzierung in einer Rangliste zurück. Die ersten Modelle erzielen zwar noch keine sehr guten Ergebnisse, trotzdem ist dieser Schritt ein wichtiger Meilenstein für die beiden Trainees. Die Ergebnisse sind nicht zufällig zustande gekommen. Anna und Karl lernen, strukturiert und systematisch vorzugehen. Sie orientieren sich an CRISP-DM: Cross Industry Standard Process for Data Mining. Das ist das Referenz-Prozessmodell im Bereich Data Science. Es besteht aus sechs Phasen. Zwei der Phasen sind sie bereits gegangen, ohne es zu wissen: Geschäftsverständnis (Business Understanding) und Datenverständnis (Data Understanding). Nun gehen sie den Rest des Weges: Datenvorbereitung (Data Preparation), Modellierung (Modeling), Auswertung (Evaluation) und Einsatz der Ergebnisse (Deployment). Max und Sophia stehen ihnen dabei wieder zur Seite.

Keywords: CRISP-DM, Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, Deployment.

Teil 2: Sprints

Kapitel 4: Modellierung mit k-Nearest Neighbor

Anna und Karl nehmen sich nun die Phase 4 (Modeling) von CRISP-DM vor. Max stellt ihnen als erste Methode den Lazy Learner k-Nearest Neighbor (kNN) vor. Die k nächsten Nachbarn stimmen darüber ab, zu welcher Klasse ein neues Datenobjekt gehören soll. Diese Methode kann jedoch nur metrische Daten verarbeiten. Denn um die nächsten Nachbarn zu ermitteln, muss kNN Abstände zwischen den Datenobjekten berechnen. Der Einfachheit halber benutzen die beiden Trainees deshalb nur die numerischen Attribute der Titanic-Passagiere. Außerdem müssen die Attributwerte vergleichbar sein, also eine ähnliche Größenordnung aufweisen. Deshalb verwenden Anna und Karl eine Min-Max-Normierung. Zur Modellbildung können sie den Parameter k variieren und eine Parameterstudie durchführen. Das Ziel ist, eine möglichst gute Einstellung für k zu finden. Hierzu benötigen die beiden Trainees ein Test-Design. Der Kaggle-Wettbewerb gibt bereits die Partitionierung und das Sampling von Training und Test vor. Allerdings brauchen sie zusätzlich Validierungsdaten, um die Ergebnisse ihrer Parameterstudie zu bewerten. Sie lernen die Vor- und Nachteile der stratifizierten k-fachen Kreuzvalidierung kennen.

Keywords: k-Nearest Neighbor, Test-Design, Partitionierung, Sampling, Kreuzvalidierung, stratifiziert, Leave-one-out, Min-Max-Normierung, Metrik, Manhattan-Distanz, euklidische Distanz, Parameterstudie.

Kapitel 5: Datenvorbereitung

Feature Engineering ist ein besonderer Schritt in der Phase 3 (Data Preparation) von CRISP-DM. Mit Hilfe dieser Methode erzeugen Anna und Karl neue Attribute, bspw. Title , FamilySize und LogFare . Diese neuen Attribute sollen zukünftig zu besseren Modellergebnissen führen. Die beiden Trainees lernen die Techniken One Hot Encoding und Binning sowie einige Skalierungen und Transformationen kennen. Dabei stoßen sie auf Herausforderungen wie den Fluch der Dimensionalität, Overfitting und Rauschen. Sie erkennen Gemeinsamkeiten und Unterschiede zwischen Klassifikation und Clusteranalyse. Schließlich erstellen Anna und Karl mit ihren Werkzeugen drei neue Sets von Trainings-, Test- und Anwendungsdaten. Die verschiedenen Datenvarianten unterscheiden sich hinsichtlich der Skalenniveaus und Datentypen der Attribute. Damit legen sie den Grundstein für den nächsten Teil ihres Data Science Trainings. Das Team, inklusive Max und Sophia, ist schon gespannt, wie k-Nearest Neighbor und weitere Klassifikationsmethoden abschneiden, wenn sie mit diesen vermeintlich verbesserten Daten arbeiten.

Keywords: Feature Engineering, One Hot Encoding, Binning, Skalierungen, Min-Max-Normierung, Standardisierung, Transformation, Textoperationen, Fluch der Dimensionalität, Overfitting, Rauschen, Clusteranalyse vs. Klassifikation.

Kapitel 6: Auswertung und Einsatz der Ergebnisse

Bislang haben Anna und Karl nur die Treffergenauigkeit berechnet, um die Leistungsfähigkeit der trainierten Modelle zu bewerten. Jetzt lernen sie neue Gütemaße kennen: Spezifität & Sensitivität, Precision & Recall, F-Maß, Receiver Operating Characteristic (ROC) und Area under ROC curve (AURC). Die Konfusionsmatrix hilft ihnen, sich schnell einen Überblick zu Treffern und Fehlern des Klassifizierers zu verschaffen. Die neuen Gütemaße benutzen die beiden Trainees, um ein differenzierteres Bild von der Modell-Performance zu bekommen. Die Wirklichkeit ist nämlich kein Kaggle-Wettbewerb. Das Gelernte wenden sie direkt auf die drei neuen Datenvarianten mit den neuen Features an. Mit Hilfe der bekannten Methode k-Nearest Neighbor führen Anna und Karl erneut mehrere Parameterstudien zu k auf Basis der 10-fachen stratifizierten Kreuzvalidierung durch. Wer von den beiden findet das bessere Modell?

Keywords: Klassifikation, Klassifizierung, Gütemaße, Genauigkeit, Fehlerrate, Konfusionsmatrix, Spezifität & Sensitivität, Präzision & Recall, F-Maß, Receiver Operating Characteristic (ROC), Area under ROC curve (AURC).

Teil 3: Klassifikation: Methoden

Kapitel 7: Naive Bayes

Max beschäftigt die beiden angehenden Data Scientists erst einmal mit dem Ziegenproblem. An dieser Aufgabe sind sogar schon Professoren gescheitert. Mit Hilfe von bedingten Wahrscheinlichkeiten und dem Satz von Bayes bewältigen die beiden Trainees diese Herausforderung. Das ist eine gute Ausgangssituation, denn der erste Klassifizierer in diesem dritten Teil des Data Science Trainings heißt Naive Bayes. Er basiert auf der Wahrscheinlichkeitstheorie von Thomas Bayes. Mit Hilfe eines Produkts von Wahrscheinlichkeiten können Anna und Karl nun abschätzen, zu welcher Klasse ein Datenobjekt voraussichtlich gehört. Diese Abschätzung heißt auch Maximum-a-posteriori-Hypothese. Die Methode Naive Bayes kommt ohne Parameter aus. Attribute aller Skalenniveaus und Datentypen lassen sich damit verarbeiten. Sogar fehlende Werte sind kein Hindernis. Statt mit Wahrscheinlichkeiten rechnen Anna und Karl jedoch mit relativen Häufigkeiten. Sie benutzen wieder die verschiedene Datenvarianten. Dabei decken sie auch einige Schwächen von Naive Bayes auf. Die Programme, die sie diesmal erstellen, verwenden sie auch in den nächsten Sprints.

Keywords: Naive Bayes, Satz von Bayes, Wahrscheinlichkeit, bedingte Wahrscheinlichkeit, Maximum-a-posteriori-Hypothese, relative Häufigkeit.

Kapitel 8: Entscheidungsbäume

Die Entropie im Universum nimmt zu. Entropie ist ein Maß für die Unreinheit bzw. Unordnung eines Systems. Anna und Karl möchten jedoch Ordnung in ihre Daten bekommen. Reine Partitionen sind solche Mengen, die nur Datenobjekte einer Klasse enthalten. Deshalb benutzen sie einen Entscheidungsbaum. Das ist ein White-Box-Modell. Entscheidungen, die wir mit einem solchen Modell treffen, sind verständlich und nachvollziehbar. Das Modell ist also erklärbar und transparent. Die Baumstruktur können wir grafisch darstellen. Daraus lassen sich auch leicht Regeln ableiten. Die beiden Trainees konstruieren mit Hilfe der Entropie solche Entscheidungsbäume. Sie entscheiden damit, ob ein Titanic-Passagier voraussichtlich überlebt. Entscheidungsbäume können allerdings groß und komplex werden. Das führt schnell zu einer Überanpassung des trainierten Modells. Mit Hilfe von Pre- und Post-Pruning trimmen Anna und Karl Entscheidungsbäume, um diesem Overfitting entgegenwirken. Die Werkzeuge KNIME Analytics und Anaconda/Python bieten hierzu unterschiedliche Implementierungen. Außerdem lassen sich neben der Entropie auch andere Parameter einstellen und variieren. Welcher Trainee konstruiert den besseren Entscheidungsbaum?

Keywords: Entscheidungsbaum, TDIDT, Entropie, Informationsgewinn, Gain Ratio, Gini-Index, Overfitting, Pruning, ID3, C4.5, CART.

Kapitel 9: Neuronale Netze

Anna und Karl tauchen in die Tiefen der künstlichen neuronalen Netze ein. Na ja, so tief sind diese eigentlich gar nicht. Denn das Thema Deep Learning wird in einem anderen Data Science Training behandelt. Die beiden Trainees lernen hier die Grundlagen neuronaler Netze und bekommen Antworten zu den folgenden Fragen. Wie hat das biologische Neuron das künstliche inspiriert? Wie ist ein neuronales Netz aufgebaut? Wie lernt ein neuronales Netz? Was macht eine Aktivierungsfunktion? Welche Vor- und Nachteile haben neuronale Netze? Schließlich trainieren und optimieren die beiden Trainees ihre eigenen neuronalen Netze: Multilayer-Perzeptrons mit dem Backpropagation-Algorithmus. Dabei spielt das Gradientenabstiegsverfahren eine wichtige Rolle. Max gibt Anna und Karl einige Tipps, die beim Aufbau dieser neuronalen Netze helfen. Wie gut sind diese Minigehirne bei der Klassifizierung der Titanic-Passagiere?

Keywords: Neuronales Netz, Neuron, Perzeptron, Multilayer-Perzeptron, Backpropagation, Gradientenverfahren, Rprop, Aktivierungsfunktion, Normalisierung.

Kapitel 10: Lineare Klassifizierer

Wir tauchen diesmal in den Hyperraum ein. Dieser besteht aus mehr als drei Dimensionen. Bei der Titanic-Fallstudie spannen die beschreibenden Merkmale der Passagiere diesen Hyperraum auf. Eine Hyperebene kann dann Bereiche in diesem Hyperraum trennen, bspw. Datenobjekte verschiedener Klassen. Im zweidimensionalen Raum schrumpft eine Hyperebene zu einer Gerade, also einem einfachen linearen Modell. Anna und Karl sehen sich mit zwei neuen Methoden konfrontiert, die zu den linearen Klassifizierern gehören: Support Vector Machine (SVM) und logistische Regression. Mittels Visualisierungen erkennen die beiden Trainees die Ideen und Konzepte zu diesen Methoden. Mit Hilfe des Kernel-Tricks und speziellen Kernel-Funktionen können Anna und Karl SVM auch dann verwenden, wenn sich die Klassen nicht linear voneinander trennen lassen. Die zweite Methode berechnet die Chancen, also das Verhältnis der Wahrscheinlichkeiten, für das Auftreten der Klassen. Wenn wir diese Chancen noch logarithmieren, dann erhalten wir ein Regressionsproblem. Die beiden Trainees bekommen somit einen ersten Einblick in die Berechnung der Regressionskoeffizienten und die Verwendung von Gleichungslösern. Die Überanpassung der trainierten Modelle steuern Anna und Karl durch Regularisierung, indem sie einen Strafterm berücksichtigen. Das gelernte Wissen wenden sie schließlich wieder auf die Titanic-Fallstudie an. Die Ergebnisse sind überraschend.

Keywords: lineare Klassifizierer, lineare Separierbarkeit, Support Vector Machine (SVM), Hyperebene, Stützvektor, Rand, Kernel-Trick, Kernel-Funktion, logistische Regression, Wahrscheinlichkeit, Chance, Logarithmus, Logit-Funktion, Regressionskoeffizient, Regularisierung, Strafterm.

Kapitel 11: Ensemble Learning

Nicht nur Menschen leiden unter kognitiven Verzerrungen. Auch Maschinen kann es treffen. Schlechte Daten können zu einem solchen Bias führen. Eine andere Fehlerkomponente des trainierten Modells ist die Varianz. Die beiden Fehleranteile Bias und Varianz lassen sich jedoch nicht gleichermaßen verringern. Mit Hilfe von Ensembles und Techniken wie Bagging oder Boosting ist es aber möglich, zumindest jeweils eine dieser Fehlerkomponenten zu reduzieren. Genau hier setzen Anna und Karl an. Sie benutzen nicht nur ein Modell, sondern trainieren eine Gruppe von Modellen. Diese Gruppe, also das Ensemble, stimmt dann darüber ab, ob ein Passagier die Titanic-Katastrophe voraussichtlich überlebt. Somit bekommen die beiden Trainees neben dem Ergebnis der Klassifizierung auch eine Wahrscheinlichkeit für das Vertrauen in diese Vorhersage. Wenn die zugrundeliegende Methode der Entscheidungsbaum ist, dann lassen sich spezielle Ensembles bilden: Random Forest und Gradient Boosted Trees. Bei der Konstruktion des Random Forest wird bspw. ein Nachteil des einzelnen Entscheidungsbaums ausgenutzt, um einen Wald von Bäumen mit einer großen Modellvariation zu bekommen. Bei den Gradient Boosted Trees wird ein Baumstumpf, also ein schwaches Modell, sukzessive mit Hilfe des Gradientenverfahrens verstärkt. Mit diesen beiden speziellen Ensembles bekommen Anna und Karl schließlich auch Hinweise zu der Wichtigkeit der Attribute der Titanic-Passagiere.

Keywords: Bias-Variance Tradeoff, Ensembles, Ensemble Learning, Bagging, Pasting, Stacking, Boosting, Random Forest, Gradient Boosted Trees.

Teil 4: Regression

Kapitel 12: Vorbereitung der Regressionsanalyse

Max hat diese verrückte Idee. Anna und Karl sollen das Alter der Passagiere mit Hilfe einer Regressionsanalyse schätzen. Ein neues Feature ist der Vorname bzw. kann aus den Vornamen der Passagiere entwickelt werden. Das klingt auf den ersten Blick absurd. Jedenfalls folgen die beiden Trainees wieder dem Standard-Prozessmodell CRISP-DM. Da die Daten bereits bekannt sind, konzentrieren sie sich auf die Phase 3, die Datenvorbereitung. Diesmal ist das Zielattribut jedoch das Alter, welches kardinalskaliert ist. Anna und Karl führen Korrelationsanalysen zu den bestehenden Attributen und neuen Features durch. Sie lernen Gemeinsamkeiten und Unterschiede zwischen Korrelation und Regression sowie Besonderheiten der Korrelationskoeffizienten nach Bravais & Pearson kennen. Die Ergebnisse benutzen sie, um die Daten so aufzubereiten, dass sie diese in den nächsten Sprints für eine Regressionsanalyse verwenden können. Aus Neugier suchen sie in den Passagierdaten nach ihren eigenen Vornamen. Dabei entdecken Anna und Karl erstaunliche Parallelen zur heutigen Zeit.

Keywords: Interpolation vs. Extrapolation, Prognose, Regressionsanalyse, Korrelationsanalyse, Bravais & Pearson, Korrelationskoeffizient, linearer Zusammenhang, Stärke, Anscombe-Quartett.

Kapitel 13: Lineare und polynomiale Regression

Können Anna und Karl das Alter der Titanic-Passagiere mit Hilfe des Vornamens schätzen? Zunächst betrachten die beiden Trainees fünf sehr einfache Modelle. Diese bewerten sie mit Hilfe verschiedener Güte- und Fehlermaße der Regression: Bestimmtheitsmaß, Mean Squared Error (MSE) bzw. Root Mean Squared Error (RMSE), Mean Absolute Error (MAE) und Mean Absolute Percentage Error (MAPE). Danach widmen sich Anna und Karl der linearen und polynomialen Regression. Die Methode der kleinsten Quadrate bestimmt die Regressionskoeffizienten so, dass die Anpassung der Schätzfunktion möglichst gut an die gegebenen Trainingsdaten erfolgt. Karl benutzt dann noch den T-Test, um Attribute zu eliminieren, die keinen wesentlichen Einfluss auf das Ergebnis haben. Anna verwendet dagegen Regularisierungsmethoden wie Ridge, LASSO und Elastic-Net, um einer möglichen Überanpassung entgegenzuwirken. Schließlich vergleichen die beiden Trainees ihre trainierten Modelle miteinander.

Keywords: Methode der kleinsten Quadrate, Bestimmtheitsmaß, Fehlermaße, Mean Squared Error (MSE), Root Mean Squared Error (RMSE), Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE), lineare Regression, polynomiale Regression, T-Test, Regularisierung, Ridge, LASSO, Elastic-Net.

Kapitel 14: Bekannte Methoden

Die ersten Ergebnisse der Regressionsanalyse sehen vielversprechend aus. Trotzdem gibt es noch Luft nach oben. Deshalb probieren Anna und Karl nun bekannte Methoden aus. Entscheidungsbäume haben sie bereits zur Klassifizierung benutzt. Mit dem Algorithmus CART können wir Entscheidungsbäume sowohl für die Klassifikation als auch für die Regression konstruieren. Aus vielen Entscheidungsbäumen bilden wir wiederum Ensembles: Random Forest und Gradient Boosted Trees. Statt einer Abstimmung der einzelnen Modelle, wird nun jedoch der Mittelwert der Schätzungen berechnet. Ein neuronales Netz, speziell das Multilayer-Perzeptron, kann ebenfalls Regressionsprobleme bearbeiten. Mit diesen elaborierten Methoden schlagen die beiden Trainees die bisherigen. Allerdings kommen Anna und Karl zu unterschiedlichen Testergebnissen. Ihre besten trainierten Modelle haben sie mit unterschiedlichen Methoden erstellt. Das hat Auswirkungen auf zukünftige Prognosen.

Keywords: Regression Tree, CART, Random Forest, Gradient Boosted Trees, Multilayer-Perzeptron.

Teil 5: Klassifikation vs. Regression

Kapitel 15: Mehrklassen-Klassifikation

Die genaue Schätzung des Alters eines Passagiers der Titanic ist mit den gegebenen Daten schwer. Vielleicht ist es einfacher, stattdessen den Altersbereich vorherzusagen. Hierzu können Anna und Karl mit Hilfe der Binning-Technik eine solche Einteilung vornehmen. Sie bekommen dann bspw. die folgenden Kategorien bzw. Klassen: Child, Teenage, Young, Adult, Middle, Senior. Das neue Zielattribut nennen sie AgeBinned . Dieses ist nun nicht mehr kardinal-, sondern ordinalskaliert. Da es mehr als zwei Klassen gibt, handelt es sich bei dieser Aufgabenstellung um eine Mehrklassen-Klassifikation. Als Klassifizierer verwenden die beiden Trainees wieder die bekannten Klassifikationsmethoden. Einige dieser Methoden sind eigentlich nicht für viele Klassen entwickelt worden, lassen sich aber auf die binäre Klassifikation zurückführen. Die Bewertung ist jedoch nicht ganz so einfach. Es gibt eine Mikro- und Makro-Mittelwertbildung zu Gütemaßen wie bspw. Präzision, Recall und das F-Maß. Außerdem benutzen Anna und Karl ein neues Güte- bzw. Fehlermaß: den LogLoss bzw. die Kreuzentropie. Am Ende stehen sie als Gewinner mit einem Pokal in den Händen da und Max ist mächtig stolz auf sie.

Keywords: Mehrklassen-Klassifikation, Binning, One vs. All, One vs. One, Mikro-Mittelwertbildung, Makro-Mittelwertbildung, LogLoss, Kreuzentropie, Naive Bayes, Entscheidungsbaum, Multilayer-Perzeptron, Support Vector Machine, logistische Regression, Random Forest, Gradient Boosted Trees.

Kapitel 16: Ungleiche Verteilungen

Die Analyse des Binnings der Kategorien zum Attribut Age ergab, dass Child die höchste Überlebenswahrscheinlichkeit hat. Ein bekannter Verhaltenskodex in Extremsituationen heißt Frauen und Kinder zuerst. Anna und Karl versuchen deshalb unter den Titanic-Passagieren mit fehlendem Alter, diejenigen zu finden, die noch Kinder sind. Es gibt also nur zwei Klassen: Kind oder kein Kind. Es handelt sich um eine binäre Klassifikation. Hierfür kennen sie bereits viele Trainingsmethoden und Gütemaße zur Bewertung der trainierten Modelle. Allerdings waren Kinder auf der Titanic viel seltener als Erwachsene. Die beiden Trainees sehen sich daher mit einer ungleichen Verteilung der beiden Klassen konfrontiert. Sie lernen verschiedene Techniken kennen, wie sie damit umgehen können. Hierzu gehören Undersampling bzw. Equal Size Sampling sowie die Oversampling-Methoden Bootstrapping und Synthetic Minority Oversampling Technique (SMOTE). Am Ende wissen Anna und Karl nicht, ob sie lachen oder weinen sollen. Ihre Ergebnisse sind fantastisch. Doch es gibt einen Haken.

Keywords: binäre Klassifikation, ungleiche Verteilung, Undersampling, Equal Size Sampling, Oversampling, Bootstrapping, Synthetic Minority Oversampling Technique (SMOTE).

Kapitel 17: Konsolidierung

Wo stehen Anna und Karl? In den letzten Sprints schätzten sie das Alter von 263 Titanic-Passagieren auf drei verschiedene Arten. Für das Attribut Age konnten sie mittels einer Regressionsanalyse die Werte interpolieren. Eine Mehrklassen-Klassifikation war notwendig, um für das neue Feature AgeBinned fehlende Werte zu prognostizieren. Schließlich führten die beiden Trainees auch noch eine binäre Klassifikation zum neuen Feature Child durch. Nun geht es darum, diese Ergebnisse mit den bisherigen Daten zusammenzuführen. Anna und Karl erstellen also wieder drei Varianten, die sich durch Datentypen unterscheiden. Zu diesen neuen Datensets trainieren die beiden Trainees erste Modelle. Aber nicht nur Modelle werden trainiert, sondern auch die Trainees. Max nimmt die beiden in die Zange und führt ein Repetitorium mit ihnen durch. Er möchte prüfen, was die beiden bisher in diesem Data Science Training gelernt haben. Es ist an der Zeit, eine erste Bilanz zu ziehen.

Keywords: Konsolidierung, Repetitorium, Rekapitulation, Regression vs. Klassifikation, binäre Klassifikation, Mehrklassen-Klassifikation.

Teil 6: Fortgeschrittene Techniken

Kapitel 18: Feature Selection

Die neuen Ergebnisse unter Berücksichtigung der Schätzungen der fehlenden Werte zum Passagieralter haben für Katerstimmung gesorgt. Also beschreiten Anna und Karl nun neue Wege. Sie beschäftigen sich mit dem Thema Feature Selection. Damit wählen die beiden Trainees gezielt Attribute für die Modellierung aus. Typische Strategien sind Filter, eingebettete Methoden und Wrapper. Karl ist besonders an einer Wrapper-Technik interessiert, den genetischen Algorithmen. Die Vererbung von Merkmalen und der Prozess der natürlichen Auslese haben diese Methode inspiriert. Mit Hilfe von genetischen Operationen wie Replikation, Rekombination und Mutation findet diese Technik diejenigen Features, die zu der optimalen Fitness führen, in unserem Fall bspw. zur besten Genauigkeit. Anna dagegen konzentriert sich auf sequenzielle Wrapper-Techniken, die entweder vorwärts oder rückwärts ablaufen. In jedem Schritt erhöht oder reduziert dieses Verfahren das Feature-Set um genau ein Feature, bis es auch hier die optimale Auswahl gefunden hat. Wrapper arbeiten in Verbindung mit Kreuzvalidierung. Die beiden Trainees bekommen also nicht nur die optimale Attribut-Auswahl, sondern zugleich auch ein trainiertes Modell, mit dem sie die Titanic-Passagiere klassifizieren.

Keywords: Feature Selection, Filter, eingebettete Methoden, Wrapper, genetische Algorithmen (GA), Forward Feature Selection (FFS), Backward Feature Elimination (BFE).

Kapitel 19: Hyperparameteroptimierung

Die neue Datenversion ist das Ergebnis der Feature Selection und eine Konsolidierung der letzten drei Varianten. Anna und Karl betrachten also nicht mehr drei Datenvarianten, sondern konzentrieren sich auf eine einzige. Diesmal befassen sich die beiden Trainees deshalb wieder stärker mit der Phase 4 (Modeling) und dort insb. mit dem Thema Hyperparameteroptimierung (HPO). Hyperparameter sind externe Parameter, mit denen Data Scientists die Modellierung steuern. Karl führte bisher manuelle Parameterstudien durch, um geeignete Einstellungen zu finden. Anna dagegen nutzte ihre Programmierkenntnisse, um dieses Vorgehen zu automatisieren. Beide Trainees lernen nun verschiedene Optimierungsstrategien kennen, bspw. die Rastersuche (Grid Search), die Zufallssuche (Random Search), die sukzessive Halbierung (Successive Halving) und die Bayes’sche Optimierung. Sie wenden diese Strategien natürlich wieder direkt auf die Titanic-Fallstudie an. Können Anna und Karl damit die Leistungsfähigkeit ihrer Modelle verbessern?

Keywords: Hyperparameter, Hyperparameteroptimierung (HPO), Rastersuche, Grid Search, Zufallssuche, Random Search, sukzessive Halbierung, Successive Halving, Bayes’sche Optimierung.

Kapitel 20: Präzision

Präzision ist ein Gütemaß, das bisher nur am Rande betrachtet wurde. Die Genauigkeit stand im Mittelpunkt. Das ändert sich nun. Diesmal rückt die Präzision in den Fokus der Analysen. Anna und Karl benutzen jetzt nicht mehr die Klassifizierungsergebnisse der Klassifizierer. Stattdessen berechnen die beiden Trainees die Klassifizierungen selbst. Hierzu benutzen sie die Wahrscheinlichkeiten für die jeweiligen Klassen. Normalerweise gibt es einen Schwellenwert, der bei einer binären Klassifikation bei 50 % liegt. Durch das Verschieben dieses Schwellenwertes nach oben bekommen Anna und Karl weniger positive Klassifizierungen. Dafür haben diese positiven Prognosen dann aber eine bessere Qualität. Wer von den beiden findet den besseren Schwellenwert? Können sie damit eine Präzision von 90 % erreichen? Wie sehen dann die Prognosen für die 23 Passagiere bzw. potenziellen Kunden in den Anwendungsdaten aus? Wen wird die i3-Versicherung also letztendlich versichern?

Keywords: Präzision, Schwellenwert, Klassenwahrscheinlichkeit, Vertrauenswahrscheinlichkeit, Positive Prediction Value (PPV).

Teil 7: Abschluss

Kapitel 21: Freestyle

Max und Sophia halten sich diesmal zurück. Anna und Karl dürfen machen, was sie wollen. Na gut, nicht ganz. Im Rahmen der Titanic-Fallstudie wenden sie nun ihr gelerntes Wissen an, ohne dass ihnen jemand anderes hineinredet. Allerdings bekommen sie auch keine weiteren Tipps, sondern sind diesmal auf sich allein gestellt. In den einzelnen Sprints war bspw. nicht immer genügend Zeit dafür, jede Methode mit allen Parametern auszuprobieren. Das holen Anna und Karl nun nach. Können die beiden Trainees ein finales Modell finden, das allen Anforderungen genügt?

Keywords: Tree Ensemble, Hyperparameteroptimierung, Präzision, Multilayer Perceptron, Halving Random Search, Grid Search.

Kapitel 22: Modell 6

Zurück auf Los! Das ist das Motto, dem Anna und Karl folgen. Sie gehen wieder zurück zum Start. Sie sehen sich die ersten fünf einfachen Modelle zur Titanic-Fallstudie noch mal genau an. Dann schreiten sie von dort aus gedanklich einige Punkte des Weges erneut ab. Welche Erfahrungen haben sie gemacht? Welche Erkenntnisse konnten sie gewinnen? Schließlich bringen sie alle Puzzleteile zusammen und entwickeln ein neues Modell. Das Modell 6 ist ein einfaches und leistungsfähiges White-Box-Modell. Max und Sophia sind begeistert. Warum aber konnte keine der etablierten Methoden des maschinellen Lernens dieses Modell finden? Diese Frage sorgt für Diskussionsbedarf. In diesem Zusammenhang geht Max noch kurz auf das Thema Automated Machine Learning (AutoML) ein.

Keywords: Modell 6, White-Box-Modell, Data Science Training, überwachtes Lernen, AutoML.

Kapitel 23: Ausblick

Max verleiht Anna und Karl den gelben Gürtel für das Data Science Training. Im Bereich des überwachten Lernens haben sie erfolgreich Kompetenzen aufgebaut. Dann stellt Max weitere Fallstudien vor. Es sind Probleme des überwachten Lernens, also Klassifikations- oder Regressionsaufgaben, welche die Data-Science-Plattform Kaggle als Wettbewerbe zur Verfügung stellt. Dazu gehören jeweils fünf ausgewählte Fallstudien der binären Klassifikation, Mehrklassen-Klassifikation und Regression. Mit Hilfe dieser Fallstudien können die Kompetenzen zu diesem Data Science Training weiter ausgebaut werden. Des Weiteren gibt Max noch Links an, um andere (öffentliche) Datensammlungen zu finden.

Keywords: Kaggle Competitions, UCI, GitHub Awesome Public Datasets, Google Dataset Search, Gelber Gürtel in Data Science.