Umfang der Trainingsdaten

Da der Umfang der Trainingsdaten bei Entscheidungsbäumen von zentraler Bedeutung ist, wollen wir dazu ein wenig Erfahrungen sammeln. Um genauer zu sein, beschäftigen wir uns mit der Klassifikation bunter Punkte in der Ebene unter Verwendung des ClassificationData-Pakets:

Zur Referenz

Im folgenden Beispiel werden Punkte in der Ebene zufällig verteilt, die in vier Farben klassifiziert werden sollen. Ein Trainings-Umfang bestehend aus 500 Punkten sieht etwa so aus:

Anhand dieser Klassifikationsaufgabe kann sehr schön der Einfluss des Umfangs der Trainingsdaten verdeutlicht werden.

Beispiel
Eintscheidungsbaum zur Klassifikation bunter Punkte in der Ebene.
Aufgabe

Mache dich mit dem Quellcode zuvor vertraut. Variiere anschließend den Umfang der Trainingsdaten und skizziere den Anteil der korrekt klassifizierten Testdaten über dem Umfang der Trainingsdaten.

Führe eine ähnliche Analyse durch, wobei statt in vier Farben in drei bzw. in fünf Farben klassifiziert werden soll. Hinweis: Dazu ist der Parameter categories beim Erzeugen der Trainings- und Testdaten zu verändern.

Quiz
Bezogen auf die Aufgabe zuvor: Wie viele Objekte (Punkte) sollte die Trainingsmenge mindestens haben, damit recht zuverlässig über 90 Prozent der Testdaten korrekt klassifiziert werden?
100
1 000
10 000
Projektaufgabe