Trainings- und Testphase

Am Beispiel zur Essbarkeit von Pilzen konnten wir bereits beobachten, dass die Trainingsphase der logistischen Regression im Allgemeinen nicht deterministisch ist:

Anders als bei der linearen Regression liefert die Trainingsphase der logistischen Regression im Allgemeinen keine Optimallösung. Zudem ist das Ergebnis nicht deterministisch: Während der Trainingsphase spielen Zufallszahlen eine Rolle, sodass ein wiederholtes Durchführen der Trainingsphase zu unterschiedlichen Ergebnissen führen kann.

Zudem konnten wir beobachten, dass die Modellfunktion beim Auswerten eines Testobjekts (erwartungsgemäß) einen Wert zwischen 0 und 1 zurückgibt. Wenn wir uns in der Testphase aber konkret für 0 oder 1 entscheiden wollen (z.B. Pilz ist essbar oder Pils ist giftig), dann kann das Ergebnis der Modellfunktion gerundet werden. Mit dieser Vorgehensweise bietet die logistische Regression eine Möglichkeit, eine binäre Klassifikationsaufgabe zu lösen, bei der Objekte in die Klassen 0 und 1 zu kategorisieren sind.

In der Testphase werden alle Objekte der Testdaten an der zuvor bestimmten Modellfunktion ausgewertet. Das Ergebnis wird jeweils auf 0 oder 1 gerundet und hinsichtlich des bekannten Ergebnisses verglichen.

Der Anteil der damit korrekt vorhergesagten Testobjekte ist ein Gütemaß für die Modellfunktion der logistischen Regression. Wie dies programmiert werden kann, zeigt das folgende Beispiel.

Beispiel
Regressionsaufgabe zur Klassifikation von Pilzen.
Aufgabe

Mache dich mit dem Quellcode zuvor vertraut und führe diesen mehrfach aus. Du solltest erkennen, dass die Anzahl der korrekt vorhergesagten Testobjekte variieren kann, obwohl die Testobjekte stets identisch sind.

Quiz
Womit ist zu begründen, dass die Anzahl der korrekt vorhergesagten Testobjekte variieren kann?
Die Trainingsdaten werden zufällig erzeugt.
Die Testdaten werden zufällig erzeugt.
Während der Trainingsphase spielen Zufallszahlen eine Rolle.
Konfusionsmatrix