Entscheidungsregeln

Nun gehen wir schließlich der Fragestellung nach, wie Entscheidungsregeln algorithmisch spezifiziert werden können. Wir wissen bereits, dass Entscheidungsregeln folgende Gestalt haben:

Mit anderen Worten müssen an jedem Knoten des Baumes folgende Werte spezifiziert werden:

vIndex des Merkmals (d.h. Spalte der Trainingsdaten)
tSchwellwert bezogen auf das Merkmal zum Index v

An dieser Stelle gibt es nun jeweils unterschiedliche Möglichkeiten, von denen wir einige vorstellen.

Wahl des Merkmals

Wie beschrieben bezieht sich jeder Knoten bzw. jede Entscheidungsregel auf jeweils ein Merkmal. Zwei Möglichkeiten zur Wahl von v sind folgende:

  1. Zufällige Wahl: An jedem Knoten wird ein zufälliges Merkmal gewählt, d.h., der Index v wird beim Erstellen einer neuen Entscheidungsregel stets zufällige ermittelt.
  2. Periodische Wahl: Es wird jeweils das Merkmal gemäß der Tiefe des Baumes gewählt. Falls die Tiefe des Baumes größer ist als die Anzahl der Merkmale, wird wieder beim ersten Merkmal begonnen.

Die Tiefe eines Baumes entspricht dabei der Ebene, in der sich der Knoten befindet (von oben nach unten gesehen).

Bestimmung des Schwellwertes

Nachdem der Index v und damit das zu betrachtende Merkmal zur Entscheidungsregel gesetzt ist, folgt die Bestimmung des Schwellwertes t. Und hier kommen die Trainingsdaten ins Spiel: Um genauer zu sein, werden von allen Objekten der Trainingsdaten, die für den Knoten bzw. die Entscheidungsregel relevant sind, die Werte des Merkmals zum Index v herangezogen. Wir erhalten damit eine Menge von Zahlen, die aufsteigend sortiert wird:

Anhand dieser Zahlenreihe kann der Schwellwert t nach einer der folgenden Regeln spezifiziert werden:

  1. Es wird der Mittelwert der Zahlenreihe verwendet.
  2. Es wird der Median der Zahlenreihe verwendet.
  3. Es wird der Mittelpunkt der Spannweite verwendet, also .

Eine in der Praxis häufig verwendete Regel basiert auf dem Gini-Koeffizienten der Zahlenreihe. Darauf wollen wir an dieser Stelle aber nicht weiter eingehen.

Aufgabe

Schaue dir nochmals die Aufgabe samt Trainingsdaten aus dem Abschnitt zuvor an. Konstruiere erneut einen Entscheidungsbaum samt Entscheidungsregeln, wobei die Wahl des Merkmals gemäß der periodischen Vorgehensweise getroffen und der Schwellwert jeweils gemäß der Mittelpunkt-der-Spannweiten-Regel bestimmt werden soll.

Quiz
Beispiel Schwertlilien