Grundlagen

Um zunächst zu verstehen, was eine Hauptkomponentenanalyse ist, erzeugen wir Datensätze, die sich zur Veranschaulichung geeignet darstellen lassen. Um genauer zu sein: Wir erzeugen eine Datenmatrix bestehend aus zwei Spalten, sodass jede Zeile einem Punkt in der Ebene entspricht. Im folgende Beispiel wird ein derartiger Datensatz unter Verwendung von Zufallszahlen generiert und dargestellt.

Der Quellcode zur Erzeugung der Datenmatrix muss nicht im Detail nachvollzogen werden.

Beispiel
Erzeugung und Darstellung eines Datensatzes, um nachfolgend eine Hauptkomponenten­analyse durchzuführen.

Die Datenmatrix besteht im Beispiel zuvor aus zwei Spalten, d.h., jeder Datensatz bzw. jede Zeile besitzt zwei Variablen. Entsprechend können zwei Hauptkomponenten bestimmt werden, die ähnlich wie bei der Singulärwertzerlegung absteigend sortiert werden. Um genauer zu sein, für Fortgeschrittene:

Die Hauptkomponenten sind Vektoren, die eine orthogonale Basis bilden. Dabei sind die Basisvektoren bzw. Hauptkomponenten bezüglich der Varianzen absteigend sortiert. Dies bedeutet, dass die ersten Hauptkomponenten den größten Anteil der Varianzen der gesamten Datenmatrix erklären.

Um zu visualisieren, was die Hauptkomponenten sind, dient die folgende Anwendung.

Anwendung
Zur Veranschaulichung der Hauptkomponenten: Die Vektoren der beiden Pfeile entsprechen den Hauptkomponenten (wobei die Länge jeweils in Abhängigkeit der zugehörigen Varianz gewählt wurde).

Unter Verwendung der Hauptkomponenten können die Daten nun entsprechend transformiert werden, was auch als Hauptachsentransformation bekannt ist (affine Transformation). Dadurch wird nochmals deutlich, dass vor allem die ersten Hauptkomponenten einen Großteil der Varianzen beinhalten: Im folgenden Beispiel besitzen die Werte der zweiten Hauptkomponente eine deutlich geringere Varianz im Vergleich zur ersten Hauptkomponente.

Beispiel
Erzeugung eines Datensatzes, Durchführung einer Hauptkomponenten­analyse und Transformation der Daten.

Am Beispiel zuvor können wir bereits erahnen, dass die Hauptkomponentenanalyse zur Daten- bzw. Dimensionsreduktion genutzt werden kann. Häufig reichen einige Hauptkomponenten bzw. Variablen aus, um die Datenmatrix ohne wesentliche Verluste beschreiben zu können. Auf diesem Prinzip basieren auch die Anwendungen, die wir in den folgenden Abschnitten vorstellen werden.

Quiz
Die Hauptkomponentenanalyse basiert auf der Singulärwertzerlegung.
Die Aussage ist wahr
Die Aussage ist falsch
Die Hauptkomponentenanalyse kann nur auf Datensätze (Tabellen) bestehend aus zwei Merkmalen (Spalten) angewandt werden.
Die Aussage ist wahr
Die Aussage ist falsch
Die Hauptkomponenten einer Datenmatrix sind eigentlich nichts anderes als Vektoren zur Beschreibung der Varianzen der Daten.
Die Aussage ist wahr
Die Aussage ist falsch
Analyse der Varianzen