Maximale Tiefe

Bislang wurden alle Entscheidungsbäume anhand von Trainingsdaten so aufgebaut, dass sämtliche Objekte des Trainingsumfangs stets korrekt klassifiziert werden. Dies kann jedoch dazu führen, dass sehr tiefe Bäume entstehen. Folglich hat der Entscheidungsbaum viele Ebenen bzw. es bilden sich lange Ketten an aufeinanderfolgenden Entscheidungsregeln. Dies wiederum führt dazu, dass einerseits der Speicherbedarf steigt und andererseits die Laufzeit zur Auswertung der Bäume durchaus einige Zeit in Anspruch nehmen kann.

Um dem entgegenzuwirken, kann es insbesondere beim Random Forest sinnvoll sein, die maximale Tiefe der Entscheidungsbäume zu reduzieren. Ein kleines Beispiel: Ein Entscheidungsbaum, der sämtliche Objekte des Trainingsumfangs korrekt klassifiziert, sieht so aus:

Wenn die maximale Tiefe auf 2 gesetzt wird, dann ergibt sich folgender Baum:

Hier werden in der zweiten Ebene alle Entscheidungsregeln durch Blätter samt Klassifikationsergebnis ersetzt. Das Ergebnis entspricht dabei der Mehrheit der bekannten Klassifikationsergebnisse aller relevanten Trainingsobjekte des Knotens bzw. Blattes.

Entscheidungsbäume mit einer vergleichsweise kleinen maximalen Tiefe werden auch als schwache Lerner bezeichnet, da (je nach Tiefe) die zu lösende Klassifikationsaufgabe nicht besonders gut gelöst wird und man es ansprechend mit einer schwachen Zuverlässigkeit zu tun hat.

Entscheidungsstümpfe

Falls die maximale Tiefe auf 1 gesetzt wird, dann besteht der Entscheidungsbaum aus nur einer einzelnen Entscheidungsregel an der Wurzel des Baumes, also zum Beispiel:

Derartige Bäume werden auch als Entscheidungsstümpfe bezeichnet.

Beispiel
Random Forest zur Klassifikation von Schwertlilien.
Aufgabe

Mache dich mit dem Quellcode zuvor vertraut. Hinweis: Zur Definition der maximalen Tiefe der einzelnen Bäume dient die Option max_depth.

Zur Referenz

Variiere die Parameter trees und max_depth. Kann die Klassifikationsaufgabe unter Verwendung von Entscheidungsstümpfen ausreichend zuverlässig gelöst werden, sodass 90 Prozent der Testdaten korrekt klassifiziert werden?

Quiz
Exkurs Boosting-Strategie