Exkurs Boosting-Strategie

Falls eine vergleichsweise kleine maximale Tiefe bei der Erstellung der Entscheidungsbäume eines Random Forest verwendet wird, dann kann eine sogenannte Boosting-Strategie sinnvoll sein. Dabei handelt es sich im Kern um nichts anderes als eine Gewichtung der einzelnen Entscheidungsbäume: Dies bedeutet, dass die Aussagekraft von Bäume mit einem kleineren Gewicht weniger berücksichtigt wird im Vergleich zu Bäumen mit einem größeren Gewicht.

Dabei gibt es sehr unterschiedliche Methoden, um die Gewichtung auf Grundlage der Trainingsdaten geeignet zu bestimmen. Ein häufig verwendetes Verfahren ist die Gradient-Boosting-Strategie, darauf gehen wir aber nicht weiter ein. Eine einfache Möglichkeit ist folgende:

Entscheidungsbäume, die mehr Objekte der Trainingsdaten korrekt klassifizieren, werden stärker gewichtet im Vergleich zu Bäumen, die weniger Objekte der Trainingsdaten korrekt klassifizieren.

An dieser Stelle wird auch deutlich, warum eine Boosting-Strategie nur dann sinnvoll ist, wenn eine nicht zu große maximale Tiefe vorgegeben wird. Denn falls die Tiefe beliebig groß werden darf, dann wird jeder Entscheidungsbaum alle Objekte der Trainingsdaten korrekt klassifizieren (und entsprechend hätten alle Entscheidungsbäume das gleiche Gewicht).

Beispiel
Random Forest zur Klassifikation bunter Punkte in der Ebene samt einfacher Boosting-Strategie.
Quiz
Projektaufgabe