Kapitel 7

Naive Bayes


Max beschäftigt die beiden angehenden Data Scientists erst einmal mit dem Ziegenproblem. An dieser Aufgabe sind sogar schon Professoren gescheitert. Mit Hilfe von bedingten Wahrscheinlichkeiten und dem Satz von Bayes bewältigen die beiden Trainees diese Herausforderung. Das ist eine gute Ausgangssituation, denn der erste Klassifizierer in diesem dritten Teil des Data Science Trainings heißt Naive Bayes. Er basiert auf der Wahrscheinlichkeitstheorie von Thomas Bayes. Mit Hilfe eines Produkts von Wahrscheinlichkeiten können Anna und Karl nun abschätzen, zu welcher Klasse ein Datenobjekt voraussichtlich gehört. Diese Abschätzung heißt auch Maximum-a-posteriori-Hypothese. Die Methode Naive Bayes kommt ohne Parameter aus. Attribute aller Skalenniveaus und Datentypen lassen sich damit verarbeiten. Sogar fehlende Werte sind kein Hindernis. Statt mit Wahrscheinlichkeiten rechnen Anna und Karl jedoch mit relativen Häufigkeiten. Sie benutzen wieder die verschiedene Datenvarianten. Dabei decken sie auch einige Schwächen von Naive Bayes auf. Die Programme, die sie diesmal erstellen, verwenden sie auch in den nächsten Sprints.

Keywords: Naive Bayes, Satz von Bayes, Wahrscheinlichkeit, bedingte Wahrscheinlichkeit, Maximum-a-posteriori-Hypothese, relative Häufigkeit.


KNIME Videos und Workflows

Titanic_071_Phase_4_Modeling_NB

Workflow bei KNIME Community Hub
Naive Bayes Learner
Naive Bayes Predictor

Titanic_071_Phase_4_Modeling_NB.knwf


Titanic_072_Phase_5_Evaluation_NB

Workflow bei KNIME Community Hub

Titanic_072_Phase_5_Evaluation_NB.knwf


Titanic_073_Phase_6_Deployment_NB

Workflow bei KNIME Community Hub

Titanic_073_Phase_6_Deployment_NB.knwf


Anaconda (Python) Jupyter Notebooks

Titanic_071_Phase_4_Modeling_NB

Phase 4: NB

Titanic_071_Phase_4_Modeling_NB.ipynb


Titanic_072_Phase_5_Evaluation_NB

Phase 5: NB

Titanic_072_Phase_5_Evaluation_NB.ipynb


Titanic_073_Phase_6_Deployment_NB

Phase 6: NB

Titanic_073_Phase_6_Deployment_NB.ipynb