Mit dem k-Means-Algorithmus hast du bereits ein grundlegendes Verfahren der Clusteranalyse kennengelernt. Dichtebasierte Methoden verfolgen grundsätzlich das gleiche Ziel: Objekte eines Datensatzes sollen in Gruppen (Cluster) zusammengefasst werden, sodass alle Objekte einer Gruppe auf eine gewisse Art und Weise ähnlich zueinander sind. Wie wir sehen werden, können die Cluster bei dichtebasierten Verfahren jedoch auch durchaus sehr komplexe Strukturen annehmen.
Zur Wiederholung der Begrifflichkeiten: Ein Datensatz ist nichts anderes als eine Tabelle, wobei jede Zeile einem Objekt und jede Spalte einem Merkmal entspricht:
Merkmal 1 | Merkmal 2 | ... | Merkmal n | |
Objekt 1 | Zahlenwert | Zahlenwert | ... | Zahlenwert |
Objekt 2 | Zahlenwert | Zahlenwert | ... | Zahlenwert |
... | ... | ... | ... | |
Objekt m | Zahlenwert | Zahlenwert | ... | Zahlenwert |
Sollen etwa Punkte in der Ebene einer Clusteranalyse unterzogen werden, so besitzt der Datensatz zwei Merkmale, nämlich x- und y-Koordinaten der Punkte. Jede Zeile entspricht einem Punkt bzw. einem Objekt.