Der Befehl DecisionTree.init(X) erwartet folgende (verpflichtende) Argumente:
Argument | Datentyp | Hinweis |
X | Datenfeld | Trainingsdaten (Liste von Objekten) |
Es wird ein Entscheidungsbaum unter Verwendung der Trainingsdaten X erstellt. Dabei ist X eine Liste von Objekten mit jeweils folgenden Variablen:
Variable | Datentyp | Hinweis |
input | Datenfeld | Objekt des Datensatzes als Vektor |
index | Zahl | ganzzahlig, nicht negativ (Klassifikationsergebnis) |
Zudem können folgende Optionen verwendet werden:
Variable | Datentyp | Hinweis | Default-Wert |
feature_selection | Zeichenkette | random oder periodic | random |
threshold_rule | Zeichenkette | median, average, range oder gini | median |
max_depth | Zahl | ganzzahlig, zwischen 1 und 256 | 256 |
Die Option feature_selection entscheidet darüber, ob an jedem Knoten des Baumes ein zufälliges Merkmal oder ob (periodisch) ein Merkmal gemäß der Tiefe des Knotens gewählt wird. threshold_rule legt fest, nach welchem Maß der Schwellenwert zur Entscheidung der Knoten bestimmt werden soll: Median, Mittelwert, Mittelpunkt der Spannweite der Daten oder unter Berücksichtigung des Gini-Koeffizienten. Schließlich kann die Option max_depth verwendet werden, um die maximale Tiefe des Entscheidungsbaumes zu definieren.
Falls als Option feature_selection=random verwendet oder falls die maximale Tiefe des Baumes erreicht wird, dann ist der Entscheidungsbaum im Allgemeinen nicht deterministisch. Dies bedeutet, dass bei gleichen Eingabedaten (Trainingsdaten) durchaus unterschiedliche Ergebnisse erzielt werden.