Verfahren der Clusteranalyse dienen dazu, Daten bezüglich gewisser Ähnlichkeiten zu analysieren. Das Ziel besteht darin, gegebene Datensätze derart in Gruppen oder Cluster aufzuteilen, sodass alle Objekte einer Gruppe möglichst ähnlich sind.
Ein wichtiger Anwendungsfall ist die Segmentierung von Kunden: Auf Grundlage vorhandener Daten soll die Gesamtheit (potenzieller) Kunden derart in Gruppen aufgeteilt werden, sodass die Kunden einer Gruppe möglichst ähnliche Merkmale aufweisen (z.B. ein ähnliches Kaufverhalten). Durch diese Strategie können unterschiedliche Maßnahmen ergriffen werden, um die Kunden besser zu erreichen oder weiterhin an sich zu binden. Das Beispiel der Kundensegmentierung kann in der abschließenden Projektaufgabe vertieft werden.
Ein weiterer Anwendungsbereich ist die Bildverarbeitung: Einerseits lassen sich Verfahren der Clusteranalyse verwenden, um Bilder sinnvoll zu komprimieren. Andererseits lässt sich auch hier eine Segmentierung durchführen, sodass beispielsweise Vor- und Hintergrund voneinander getrennt werden können. Auf derartige Anwendungsfälle gehen wir in einem nachfolgenden Kurs genauer ein.
In den folgenden Abschnitten geben wir einen anschaulichen Einstieg in die Clusteranalyse: Wir wählen bewusst Datensätze, bei denen die zu gruppierenden Daten bzw. Objekte jeweils nur zwei Werte bzw. Merkmale besitzen. Der Vorteil besteht darin, dass sich Datensätze und Ergebnisse der Clusteranalyse besonders einfach veranschaulichen lassen. Genauer werden wir insbesondere auf den k-Means-Algorithmus eingehen.