Ellenbogenmethode

Wie du im Codebeispiel zuvor sicher selbst festgestellt hast, reagiert das DBSCAN-Verfahren sehr sensibel auf Veränderungen des Parameters radius: Wird ein zu kleiner Wert gewählt, liefert das Verfahren sehr viele Cluster zurück. Ist der Radius zu groß, dann werden häufig alle Objekte in einem einzigen Cluster zusammengefasst.

Wie genau der Parameter radius und damit die Größe der Nachbarschaft gewählt werden sollte, hängt dabei von vielen Faktoren ab: die Anzahl der Objekte des Datensatzes, die Verteilung der Objekte, das gewählte Abstandsmaß sowie der Wert des Parameters samples.

Um einen Anhaltspunkt zur Wahl des Parameters zu identifizieren, kann auch beim DBSCAN-Verfahren eine sogenannte Ellenbogenmethode eingesetzt werden. Die Vorgehensweise ist folgende: Zu jedem Objekte wird der Abstand des Objekts gespeichert, das den samples-nächsten Abstand hat, also beispielsweise den drittnächsten Abstand, falls samples=3 gewählt wird. Wir erhalten damit bei einem Datensatz bestehend aus m Objekten entsprechend m Abstände bzw. Zahlenwerte, die absteigend sortiert werden.

Die folgende Abbildung zeigt ein Beispiel, wie die Werte bei einem Datensatz bestehend aus m=800 Objekten und einer Wahl von samples=7 aussehen kann. Aufgetragen sind die bestimmten Abstände über den Objekten:

Ähnlich zur Ellenbogenmethode beim k-Means-Algorithmus ergibt sich in der Regel ein Erscheinungsbild, dass an einen Arm erinnert.

Als Faustregel kann für den Parameter radius ein Wert gewählt werden, der ungefähr zum Ellenbogen passt.

Im Beispiel aus der Abbildung zuvor wäre etwa radius=0.55 eine durchaus geeignete Wahl. Dennoch sei bemerkt, dass wir damit weiterhin keine Aussage darüber erhalten, wie viele Cluster das DBSCAN-Verfahren ermitteln wird.

Beispiel
Es werden Daten mit dem ClusteringData-Paket erstellt, welche anschließend unter Verwendung der Ellenbogenmethode analysiert werden.
Quiz
Welcher Wert sollte nach der Faustregel für den Parameter radius gewählt werden, falls im Beispiel zuvor samples auf 2 gesetzt wird?
0.25
0.55
0.75
Welcher Wert sollte nach der Faustregel für den Parameter radius gewählt werden, falls im Beispiel zuvor samples auf 20 gesetzt wird?
0.25
0.55
0.75
Vergleich der Verfahren