Bemerkungen
Nachdem wir kennengelernt haben, was ein Random Forest ist und wie dieser zum Lösen einer Klassifikationsaufgabe beitragen kann, fassen wir einige wichtige Bemerkungen zusammen:
- Statistisch gesehen wird eine Klassifikationsaufgabe unter Verwendung eines Random Forest besser gelöst, je mehr Entscheidungsbäume verwendet werden. Dabei skaliert die Laufzeit sowohl bei der Erstellung eines Random Forest als auch beim Testen bzw. bei der Auswertung von Objekten linear mit der Anzahl der Bäume.
- Nach der Auswertung aller Entscheidungsbäume eines Random Forest kann der Fall eintreten, dass die Mehrheit der Klassifikationsergebnisse der einzelnen Bäume nicht eindeutig ist. Nun gibt es unterschiedliche Ansätze, wie in diesen Fällen eine Entscheidung getroffen werden kann, zum Beispiel eine rein zufällige Wahl. Um die statistische Wahrscheinlich für derartige Fälle aber grundsätzlich zu reduzieren, ist es sinnvoll, als Anzahl der Entscheidungsbäume eine Primzahl zu wählen.
Eine weitere interessante Strategie ist es, die maximale Tiefe der Entscheidungsbäume zu begrenzen. Darauf gehen wir im nachfolgenden Abschnitt näher ein.