Einführung

Mit dem k-Means-Algorithmus hast du bereits ein grundlegendes Verfahren der Clusteranalyse kennengelernt. Dichtebasierte Methoden verfolgen grundsätzlich das gleiche Ziel: Objekte eines Datensatzes sollen in Gruppen (Cluster) zusammengefasst werden, sodass alle Objekte einer Gruppe auf eine gewisse Art und Weise ähnlich zueinander sind. Wie wir sehen werden, können die Cluster bei dichtebasierten Verfahren jedoch auch durchaus sehr komplexe Strukturen annehmen.

Zur Wiederholung der Begrifflichkeiten: Ein Datensatz ist nichts anderes als eine Tabelle, wobei jede Zeile einem Objekt und jede Spalte einem Merkmal entspricht:

Merkmal 1Merkmal 2...Merkmal n
Objekt 1ZahlenwertZahlenwert...Zahlenwert
Objekt 2ZahlenwertZahlenwert...Zahlenwert
............
Objekt mZahlenwertZahlenwert...Zahlenwert

Sollen etwa Punkte in der Ebene einer Clusteranalyse unterzogen werden, so besitzt der Datensatz zwei Merkmale, nämlich x- und y-Koordinaten der Punkte. Jede Zeile entspricht einem Punkt bzw. einem Objekt.

Beispiel
Es wird ein Datensatz bestehend aus 800 Objekten mit jeweils zwei Werten (Merkmalen) generiert und dargestellt.
Quiz
In wie viele Cluster sollte der Datensatz aus dem Beispiel zuvor aufgeteilt werden?
2
8
13
Ist der k-Means-Algorithmus angewandt auf den Datensatz aus dem Beispiel zuvor ein geeignetes Lösungsverfahren?
ja
nein
Abstandsmaße