Analyse der Varianzen

Bevor wir auf den wichtigsten Anwendungsfall der Hauptkomponentenanalyse genauer eingehen, nämlich der Dimensionsreduktion, untersuchen wir zunächst die Varianzen der Hauptkomponenten.

Wir haben bereits bemerkt, dass die Hauptkomponenten bezüglich der Varianzen absteigend sortiert werden. Um dies genauer zu verstehen, nutzen wir eine Datenmatrix aus dem Scribble-Paket:

Zur Referenz

Im folgenden Beispiel erzeugen wir eine Datenmatrix bestehend aus 2000 Zeilen und 144 Spalten: Jede Zeile entspricht einer Strichzeichnung bzw. einer Skizze bestehend aus 12 x 12 Pixeln, wobei die Pixel jeweils zeilenweise von oben links nach unten rechts angeordnet werden.

Bezüglich dieser Daten kann nun eine Hauptkomponentenanalyse durchgeführt werden. Die Funktion PrincipalComponents.compute liefert einen Rückgabewert, der die Varianzen der 144 Hauptkomponenten enthält:

Zur Referenz

Beispiel
Durchführung einer Hauptkomponentenanalyse mit einer Datenmatrix, die 144 Spalten besitzt: Ausgabe der Varianzen der 144 Hauptkomponenten.

Hauptkomponenten mit einer zugehörigen Varianz von null oder nahe null tragen also nicht oder vernachlässigbar wenig zum Informationsgehalt der gesamten Datenmatrix bei. Dies bedeutet, dass die Anzahl der Variablen reduziert werden kann, ohne dass mit einem nennenswerten Informationsverlust zu rechnen ist.

Deutlich wird dies, wenn die kumulierten Varianzen über der Anzahl der Hauptkomponenten aufgetragen werden, wie das folgende Beispiel veranschaulicht.

Beispiel
Durchführung einer Hauptkomponentenanalyse mit einer Datenmatrix, die 144 Spalten besitzt: Darstellung der kumulierten Varianzen über der Anzahl der Hauptkomponenten.

Die Darstellung aus dem Beispiel zuvor kann folgendermaßen interpretiert werden: Wenn die Datenmatrix unter Verwendung der ersten 40 Hauptkomponenten auf eine Matrix bestehend aus nur 40 Spalten bzw. Variablen transformiert wird, dann liegt der Informationsgehalt weiterhin bei über 90 Prozent im Vergleich zur Originalmatrix.

Quiz

Eine Analyse der kumulierten Varianzen einer Datenmatrix ergibt folgendes Ergebnis:

Aus wie vielen Merkmalen bzw. Spalten besteht die zugehörige Datenmatrix?
12
20
144
200
400
784
Wie viel Informationsgehalt bleibt behalten, wenn die Datenmatrix unter Verwendung der ersten 50 Hauptkomponenten transformiert bzw. reduziert wird?
ca. 25%
ca. 50%
ca. 75%
nahezu 100%
Wie viele Hauptkomponenten sollten zur Transformation bzw. Reduktion mindestens verwendet werden, damit weiterhin rund 90 Prozent des Informationsgehalts behalten bleiben?
100
200
300
400
Dimensionsreduktion