Kapitel 7 – Data Science Training

Naive Bayes

Max beschäftigt die beiden angehenden Data Scientists erst einmal mit dem Ziegenproblem. An dieser Aufgabe sind sogar schon Professoren gescheitert. Mit Hilfe von bedingten Wahrscheinlichkeiten und dem Satz von Bayes bewältigen die beiden Trainees diese Herausforderung. Das ist eine gute Ausgangssituation, denn der erste Klassifizierer in diesem dritten Teil des Data Science Trainings heißt Naive Bayes. Er basiert auf der Wahrscheinlichkeitstheorie von Thomas Bayes. Mit Hilfe eines Produkts von Wahrscheinlichkeiten können Anna und Karl nun abschätzen, zu welcher Klasse ein Datenobjekt voraussichtlich gehört. Diese Abschätzung heißt auch Maximum-a-posteriori-Hypothese. Die Methode Naive Bayes kommt ohne Parameter aus. Attribute aller Skalenniveaus und Datentypen lassen sich damit verarbeiten. Sogar fehlende Werte sind kein Hindernis. Statt mit Wahrscheinlichkeiten rechnen Anna und Karl jedoch mit relativen Häufigkeiten. Sie benutzen wieder die verschiedene Datenvarianten. Dabei decken sie auch einige Schwächen von Naive Bayes auf. Die Programme, die sie diesmal erstellen, verwenden sie auch in den nächsten Sprints.

Keywords: Naive Bayes, Satz von Bayes, Wahrscheinlichkeit, bedingte Wahrscheinlichkeit, Maximum-a-posteriori-Hypothese, relative Häufigkeit.