Ellenbogenmethode

Um den k-Means-Algorithmus anzuwenden, muss die Anzahl an Clustern vorgegeben werden. Je nach Datensatz mag es aber durchaus gar nicht bekannt sein, wie die Anzahl an Clustern überhaupt gewählt werden sollte. Genau an dieser Stelle kommt die sogenannte Ellenbogenmethode zum Einsatz.

Das Vorgehen der Methode ist folgendes: Die Anzahl an Clustern zur Durchführung des k-Means-Algorithmus wird von bis z.B. variiert. Aufgetragen wird nun das Fehlermaß der jeweiligen Ergebnisse in Abhängigkeit von der Anzahl an Clustern:

Es ist wenig verwunderlich, dass der Fehler bei einer größeren Anzahl an Clustern kleiner wird. Zudem ergibt sich in der Regel ein Erscheinungsbild, dass an einen Arm erinnert.

Als Faustregel sollte für die Anzahl an Clustern ein Wert gewählt werden, der ungefähr zum Ellenbogen passt.

Im Beispiel aus der Abbildung wäre dies .

Beispiel
Es werden Daten mit dem ClusteringData-Paket erstellt, welche anschließend unter Verwendung der Ellenbogenmethode analysiert werden.
Aufgabe

Variiere die Parameter bei der Erstellung der Datensätze und beobachte die Darstellung zur Ellenbogenmethode.

Zur Referenz

Quiz
Hast du dich mit dem Quellcode beschäftigt und die Parameter variiert? Stimmen die Beobachtungen mit deinen Erwartungen überein?
ja
nein
Gewichtungen