Naive Bayes
Max beschäftigt die beiden angehenden Data Scientists erst einmal mit dem Ziegenproblem. An dieser Aufgabe sind sogar schon Professoren gescheitert. Mit Hilfe von bedingten Wahrscheinlichkeiten und dem Satz von Bayes bewältigen die beiden Trainees diese Herausforderung. Das ist eine gute Ausgangssituation, denn der erste Klassifizierer in diesem dritten Teil des Data Science Trainings heißt Naive Bayes. Er basiert auf der Wahrscheinlichkeitstheorie von Thomas Bayes. Mit Hilfe eines Produkts von Wahrscheinlichkeiten können Anna und Karl nun abschätzen, zu welcher Klasse ein Datenobjekt voraussichtlich gehört. Diese Abschätzung heißt auch Maximum-a-posteriori-Hypothese. Die Methode Naive Bayes kommt ohne Parameter aus. Attribute aller Skalenniveaus und Datentypen lassen sich damit verarbeiten. Sogar fehlende Werte sind kein Hindernis. Statt mit Wahrscheinlichkeiten rechnen Anna und Karl jedoch mit relativen Häufigkeiten. Sie benutzen wieder die verschiedene Datenvarianten. Dabei decken sie auch einige Schwächen von Naive Bayes auf. Die Programme, die sie diesmal erstellen, verwenden sie auch in den nächsten Sprints.
Keywords: Naive Bayes, Satz von Bayes, Wahrscheinlichkeit, bedingte Wahrscheinlichkeit, Maximum-a-posteriori-Hypothese, relative Häufigkeit.
KNIME Videos und Workflows
Titanic_071_Phase_4_Modeling_NB

Titanic_071_Phase_4_Modeling_NB.knwf
Titanic_072_Phase_5_Evaluation_NB

Titanic_072_Phase_5_Evaluation_NB.knwf
Titanic_073_Phase_6_Deployment_NB

Titanic_073_Phase_6_Deployment_NB.knwf
Anaconda (Python) Jupyter Notebooks
Titanic_071_Phase_4_Modeling_NB
Titanic_071_Phase_4_Modeling_NB.ipynb
Titanic_072_Phase_5_Evaluation_NB
Titanic_072_Phase_5_Evaluation_NB.ipynb
Titanic_073_Phase_6_Deployment_NB