Kapitel 10

Lineare Klassifizierer


Wir tauchen diesmal in den Hyperraum ein. Dieser besteht aus mehr als drei Dimensionen. Bei der Titanic-Fallstudie spannen die beschreibenden Merkmale der Passagiere diesen Hyperraum auf. Eine Hyperebene kann dann Bereiche in diesem Hyperraum trennen, bspw. Datenobjekte verschiedener Klassen. Im zweidimensionalen Raum schrumpft eine Hyperebene zu einer Gerade, also einem einfachen linearen Modell. Anna und Karl sehen sich mit zwei neuen Methoden konfrontiert, die zu den linearen Klassifizierern gehören: Support Vector Machine (SVM) und logistische Regression. Mittels Visualisierungen erkennen die beiden Trainees die Ideen und Konzepte zu diesen Methoden. Mit Hilfe des Kernel-Tricks und speziellen Kernel-Funktionen können Anna und Karl SVM auch dann verwenden, wenn sich die Klassen nicht linear voneinander trennen lassen. Die zweite Methode berechnet die Chancen, also das Verhältnis der Wahrscheinlichkeiten, für das Auftreten der Klassen. Wenn wir diese Chancen noch logarithmieren, dann erhalten wir ein Regressionsproblem. Die beiden Trainees bekommen somit einen ersten Einblick in die Berechnung der Regressionskoeffizienten und die Verwendung von Gleichungslösern. Die Überanpassung der trainierten Modelle steuern Anna und Karl durch Regularisierung, indem sie einen Strafterm berücksichtigen. Das gelernte Wissen wenden sie schließlich wieder auf die Titanic-Fallstudie an. Die Ergebnisse sind überraschend.

Keywords: lineare Klassifizierer, lineare Separierbarkeit, Support Vector Machine (SVM), Hyperebene, Stützvektor, Rand, Kernel-Trick, Kernel-Funktion, logistische Regression, Wahrscheinlichkeit, Chance, Logarithmus, Logit-Funktion, Regressionskoeffizient, Regularisierung, Strafterm.


KNIME Videos und Workflows

Titanic_101_Phase_4_Modeling_SVM

Workflow bei KNIME Community Hub
SVM Learner
SVM Predictor

Titanic_101_Phase_4_Modeling_SVM.knwf


Titanic_102_Phase_5_Evaluation_SVM

Workflow bei KNIME Community Hub

Titanic_102_Phase_5_Evaluation_SVM.knwf


Titanic_103_Phase_6_Deployment_SVM

Workflow bei KNIME Community Hub

Titanic_103_Phase_6_Deployment_SVM.knwf


Titanic_104_Phase_4_Modeling_LR

Workflow bei KNIME Community Hub
Logistic Regression Learner
Logistic Regression Predictor

Titanic_104_Phase_4_Modeling_LR.knwf


Titanic_105_Phase_5_Evaluation_LR

Workflow bei KNIME Community Hub

Titanic_105_Phase_5_Evaluation_LR.knwf


Titanic_106_Phase_6_Deployment_LR

Workflow bei KNIME Community Hub

Titanic_106_Phase_6_Deployment_LR.knwf


Anaconda (Python) Jupyter Notebooks

Titanic_101_Phase_4_Modeling_SVM

Phase 4: SVM

Titanic_101_Phase_4_Modeling_SVM.ipynb

Titanic_102_Phase_5_Evaluation_SVM / Titanic_103_Phase_6_Deployment_SVM

Titanic_102_Phase_5_Evaluation_SVM.ipynb
Titanic_103_Phase_6_Deployment_SVM.ipynb


Titanic_104_Phase_4_Modeling_LR

Phase 4: LR

Titanic_104_Phase_4_Modeling_LR.ipynb

Titanic_105_Phase_5_Evaluation_LR / Titanic_106_Phase_6_Deployment_LR

Titanic_105_Phase_5_Evaluation_LR.ipynb
Titanic_106_Phase_6_Deployment_LR.ipynb