Exkurs Overfitting

Bevor du anhand einer Reihe von Aufgaben eigene Erfahrungen sammeln kannst, gehen wir in diesem Exkurs auf die Herausforderung des Overfittings (Überanpassung) ein, die während der Trainingsphase bedacht werden sollte.

In der Regel sind Daten nicht vollständig fehlerfrei: Es kann z.B. Daten geben, bei denen das vermeintlich bekannte Klassifikationsergebnis gar nicht korrekt ist oder es kommt aufgrund von Messfehlern zu unregelmäßigen Abweichungen (sogenannten Ausreißern). Je nach Datengrundlage kann es daher sinnvoll sein, die Parameter der Trainingsphase derart auszulegen, sodass ein nicht zu komplexes Ergebnis bzw. Modell entsteht. Was damit genau gemeint ist, zeigt die folgende Abbildung:

Oben links sind Trainingsdaten bestehend aus etwa 50 Punkten veranschaulicht, die in rot und grün zu klassifizieren sind. Die anderen beiden Darstellungen der oberen Zeile stellen mögliche Ergebnisse der Trainingsphase anhand der farbigen Flächen dar. Auf gleiche Art und Weise sind in der unteren Zeile die Testdaten veranschaulicht.

  • Im Beispiel in der mittleren Spalte handelt es sich um ein recht komplexes Ergebnis: Bezogen auf die Trainingsdaten erhalten wir ein perfektes Resultat, da alle Punkte korrekt klassifiziert werden. Allerdings wurden auch mögliche Ausreißer stark berücksichtigt, sodass vergleichsweise viele Testdaten nicht korrekt klassifiziert werden, wie der unteren Zeile (in der Mitte) zu entnehmen ist.
  • Ein sinnvolleres Ergebnis der Trainingsphase zeigt die rechte Spalte: Es werden zwar insgesamt vier Trainingsdaten nicht korrekt klassifiziert (drei rote und ein grüner Punkt), dafür ist das Modell nicht zu komplex und mögliche Ausreißer in den Trainingsdaten fallen nicht zu stark ins Gewicht. Bezogen auf die Testdaten wird auch nur ein Punkt nicht korrekt klassifiziert.

Mit anderen Worten kann die Situation folgendermaßen beschrieben werden:

Man spricht vom Overfitting (Überanpassung), wenn (im Laufe der Trainingsphase und je nach Wahl der zugehörigen Parameter sowie des Layouts) die Anzahl der korrekt klassifizierten Trainingsdaten steigt, während die Anzahl der korrekt klassifizierten Testdaten fällt.

Bezogen auf neuronale Netze bedeutet die Aussage zuvor auch, dass zu viele verborgene Schichten mit jeweils zu vielen Neuronen nicht zwangsläufig dazu führen, dass die Klassifikationsaufgabe zuverlässiger gelöst wird.

Quiz
Aufgabe Punkteverteilung