Dimensionsreduktion

Den wichtigen Anwendungsfall der Dimensionsreduktion möchten wir anhand des IrisFlower-Datenpaketes demonstrieren:

Zur Referenz

Dabei handelt es sich um Datensätze, die zur Klassifikation von Schwertlilien eingesetzt werden können. Wir nutzen die Trainingsdaten, um eine Datenmatrix bestehend aus 100 Zeilen und 4 Spalten zu erzeugen.

Beispiel
IrisFlower-Trainingsdaten als Datenmatrix aufbereiten.

Im folgenden Beispiel schauen wir uns auch dazu die kumulierten Varianzen an. Wir erkennen daran, dass unter Verwendung der ersten beiden Hauptkomponenten bereits über 97 Prozent des Informationsgehalts erklärt werden können.

Beispiel
IrisFlower-Trainingsdaten als Datenmatrix aufbereiten und kumulierten Varianzen darstellen.

Wir nutzen daher die Hauptkomponentenanalyse, um die Datenmatrix unter Verwendung der ersten beiden Hauptkomponenten auf zwei Variablen zu reduzieren. Dies hat den Vorteil, dass der gesamte Datensatz anschließend in einem Plot dargestellt werden kann.

Beispiel
IrisFlower-Trainingsdaten als Datenmatrix aufbereiten, transformieren und als Plot darstellen.

Noch interessanter wird die Situation, wenn wir berücksichtigen, dass es sich beim IrisFlower-Datenpaket um Trainings- und Testdaten einer Klassifikationsaufgabe handelt. Entsprechend kann bei der Transformation der Trainingsdaten auch das bekannte Klassifikationsergebnis in der Darstellung berücksichtigt werden, wie das folgende Beispiel veranschaulicht.

Aufgrund der Darstellung erkennen wir, dass sich auch die transformierten Daten zur Klassifikation eignen. Wie wir bei der Rauschunterdrückung noch sehen werden, sind die transformierten Daten teilweise sogar besser zur Lösung der Klassifikationsaufgabe geeignet, da ungewollte Störungen der Daten unterdrückt werden können.

Beispiel
IrisFlower-Trainingsdaten transformieren und samt Klassifikationsergebnis darstellen.
Quiz
Wenn der IrisFlower-Datensatz auf die ersten beiden Hauptkomponenten transformiert bzw. reduziert wird, bleibt der Informationsgehalt bei über 95 Prozent.
Die Aussage ist wahr
Die Aussage ist falsch
Wenn der IrisFlower-Datensatz auf die ersten beiden Hauptkomponenten transformiert bzw. reduziert wird, lässt sich die zugehörige Klassifikationsaufgabe weiterhin lösen.
Die Aussage ist wahr
Die Aussage ist falsch
Datenvisualisierung