Trainingsdaten

Wir haben bislang erarbeitet, was ein Entscheidungsbaum ist und wie Objekte bestehend aus Merkmalen anhand von Entscheidungsregeln (Knoten der Bäume) einer Klasse (Blätter der Bäume) zugeordnet werden können. Zudem haben wir erkannt, dass ein Entscheidungsbaum den Raum der Objekte in Rechtecke (zwei Merkmale), rechteckige Würfel (drei Merkmale) bzw. rechteckige Hyperwürfel (mehr als drei Merkmale) aufteilt.

Unsere eigentliche Aufgabe besteht jedoch darin, einen Entscheidungsbaum zur Lösung einer Klassifikationsaufgabe zu erzeugen.

Dazu nehmen wir an, dass Trainingsdaten zur Verfügung stehen. Wie üblich handelt es sich dabei um eine Reihe von Objekten, bei denen das Klassifikationsergebnis bekannt ist:

Merkmal 1Merkmal 2...Merkmal nLabel
Objekt 1WertWert...WertIndex der Klasse
Objekt 2WertWert...WertIndex der Klasse
...............
Objekt mWertWert...WertIndex der Klasse

Unser Ziel besteht nun darin, einen Entscheidungsbaum zu bestimmen, sodass sämtliche Objekte der Trainingsdaten korrekt klassifiziert werden. Dies bedeutet:

Ein Entscheidungsbaum, der auf Basis von Trainingsdaten bestimmt wird, erfüllt stets die Eigenschaft, dass sämtliche Objekte der Trainingsdaten korrekt klassifiziert werden.

Es sei bereits bemerkt, dass die Eigenschaft zuvor im Allgemeinen weder bei neuronalen Netzen noch bei der Nächste-Nachbarn-Klassifikation erfüllt ist.

Klassifikation von Schwertlilien

Bei der Klassifikationsaufgabe zur Bestimmung von Schwertlilien haben wir es mit Daten der folgenden Gestalt zu tun:

KelchblattlängeKelchblattbreiteKronblattlängeKronblattbreiteLabel
Objekt 1Wert in cmWert in cmWert in cmWert in cmIndex der Art
Objekt 2Wert in cmWert in cmWert in cmWert in cmIndex der Art
..................
Objekt mWert in cmWert in cmWert in cmWert in cmIndex der Art
Quiz
Eine Entscheidungsregel ist ein...
Ast des Baumes
Knoten des Baumes
Blatt des Baumes
Das Klassifikationsergebnis kann abgelesen werden an einem...
Ast des Baumes
Knoten des Baumes
Blatt des Baumes
Aufbau eines Baumes