Einführung

Ein Datensatz ist in der Regel nichts anderes als eine Tabelle von Daten, wobei jede Zeile einem Objekt und jede Spalte einem Merkmal des Datensatzes entspricht. Bei einer Dimensionsreduktion soll die Anzahl der Merkmale reduziert werden, sodass dennoch bedeutende Eigenschaften des Datensatzes erhalten bleiben. Was dies genau bedeutet, werden wir in diesem Kurs kennenlernen.

Eine Dimensionsreduktion besteht also darin, jedes (hochdimensionale) Objekt eines Datensatzes in ein niedrigdimensionales Objekt zu transformieren. Dabei ergeben sich unter anderem folgende Vorteile:

  1. Falls ein Datensatz auf zwei (bzw. drei) Merkmale reduziert wird, so kann dieser geeignet als Punktwolke in der Ebene (bzw. im Raum) visualisiert werden.
  2. Häufig sind im ursprünglichen Datensatz redundante Merkmale bzw. Werte vorhanden. Eine Dimensionsreduktion führt in diesen Fällen nicht dazu, dass Informationen verloren gehen. Der reduzierte Datensatz kann anschließend einfacher und effizienter verarbeitet werden.
  3. Falls im Datensatz (gleichverteilte) Störungen auftreten, dann kann eine Dimensionsreduktion dazu dienen, die Störungen (im Mittel) zu reduzieren. Eine Dimensionsreduktion kann also der Rauschunterdrückung dienen.

Wir werden in diesem Kurs drei unterschiedliche Verfahren der Dimensionsreduktion vorstellen. Zur Anwendung kommt dabei das DimensionReduction-Paket:

Zur Referenz

Alle drei Verfahren haben ihre Vor- und Nachteile, sodass nicht pauschal beantwortet werden kann, welches Verfahren das beste Ergebnis liefert. Dies hängt wie üblich mit der Struktur der Datensätze zusammen.

Quiz
Ein Vorteil der Dimensionsreduktion besteht darin, dass der reduzierte Datensatz effizienter verarbeitet werden kann.
Die Aussage ist wahr
Die Aussage ist falsch
Ein Vorteil der Dimensionsreduktion besteht darin, dass der reduzierte Datensatz stets als Punktwolke dargestellt werden kann.
Die Aussage ist wahr
Die Aussage ist falsch
Bei der Dimensionsreduktion gehen keine Informationen verloren.
Die Aussage ist wahr
Die Aussage ist falsch
Hauptkomponentenanalyse