Der Befehl ClusterAnalysis.elbow(X, k) erwartet folgende (verpflichtende) Argumente:
Argument | Datentyp | Hinweis |
X | Datenfeld | Matrix (Liste von Objekten) |
k | Zahl | ganzzahlig, mindestens 2 |
Es wird die Ellenbogenmethode unter Verwendung des k-Means-Algorithmus auf den Datensatz X angewandt, wobei maximal k Cluster berücksichtigt werden. Das Ergebnis wird grafisch dargestellt.
Zudem können folgende Optionen verwendet werden:
Variable | Datentyp | Hinweis | Default-Wert |
maximal_iterations | Zahl | ganzzahlig, positiv | 100 |
runs | Zahl | ganzzahlig, positiv | 10 |
weights | Datenfeld | Vektor zur Gewichtung | [1, 1, ..., 1] |
metric | Zeichenkette | manhattan, euclidean, maximum oder cosine | euclidean |
Optional kann die maximale Anzahl an Iteration durch maximal_iterations sowie die Anzahl der Durchläufe (mit jeweils zufälligen Startwerten) durch runs variiert werden.
Zudem können die Gewichte der einzelnen Merkmale der Objekte mittels weights angepasst werden. Die Option metric definiert schließlich die Metrik bzw. das Abstandsmaß, das zum Einsatz kommt.
Die Abkürzung WCSS bei der Bezeichnung der y-Achse steht für "within-cluster sum of squares" und bedeutet damit soviel wie die Summe der quadrierten Abweichungen von den Cluster-Schwerpunkten.