taralino

Einführung

Mit dem k-Means-Algorithmus hast du bereits ein grundlegendes Verfahren der Clusteranalyse kennengelernt. Dichtebasierte Methoden verfolgen grundsätzlich das gleiche Ziel: Objekte eines Datensatzes sollen in Gruppen (Cluster) zusammengefasst werden, sodass alle Objekte einer Gruppe auf eine gewisse Art und Weise ähnlich zueinander sind. Wie wir sehen werden, können die Cluster bei dichtebasierten Verfahren jedoch auch durchaus sehr komplexe Strukturen annehmen.

Zur Wiederholung der Begrifflichkeiten: Ein Datensatz ist nichts anderes als eine Tabelle, wobei jede Zeile einem Objekt und jede Spalte einem Merkmal entspricht:

	Merkmal 1	Merkmal 2	...	Merkmal n
Objekt 1	Zahlenwert	Zahlenwert	...	Zahlenwert
Objekt 2	Zahlenwert	Zahlenwert	...	Zahlenwert
...	...	...		...
Objekt m	Zahlenwert	Zahlenwert	...	Zahlenwert

Sollen etwa Punkte in der Ebene einer Clusteranalyse unterzogen werden, so besitzt der Datensatz zwei Merkmale, nämlich x- und y-Koordinaten der Punkte. Jede Zeile entspricht einem Punkt bzw. einem Objekt.

Beispiel

Es wird ein Datensatz bestehend aus 800 Objekten mit jeweils zwei Werten (Merkmalen) generiert und dargestellt.

<!DOCTYPE html>
<html>
<head>
  <meta charset="utf-8">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <script src="taralino.js"></script>
</head>
<body>
<script>

// Daten erstellen
var X = ClusteringData.circles(800);

// Daten darstellen
Canvas.init([0,10], [0,10], {width:400, background:"lightgrey"});
for (var i = 0; i < X.length; i++) {
  Canvas.circle(X[i][0], X[i][1], 0.06, {fill:"blue"});
};

</script>
</body>
</html>

Vorschau Download Kopie speichern