Die Hauptkomponentenanalyse (Principal Component Analysis oder kurz PCA) ist eine Möglichkeit, wie Datensätze basierend auf der Singulärwertzerlegung reduziert werden können. Weitere Hintergründe dazu befinden sich im folgenden Kurs:
Aber auch ohne den Kurs im Detail studiert zu haben, zeigen wir im Folgenden, was damit erreicht werden kann. Als Datensatz verwenden wir Strichzeichnungen des Scribble-Pakets:
Im folgenden Beispiel erzeugen wir eine Datenmatrix (Datensatz) bestehend aus 1000 Zeilen (Objekte) und 144 Spalten (Merkmale): Jede Zeile entspricht einer Strichzeichnung bestehend aus 12 x 12 Pixel.
Unter Verwendung einer Hauptkomponentenanalyse wird der Datensatz auf zwei Merkmale reduziert:
Anschließend lassen sich die auf zwei Merkmale transformierten Objekte als Punktwolke darstellen.