Ein Datensatz ist in der Regel nichts anderes als eine Tabelle von Daten, wobei jede Zeile einem Objekt und jede Spalte einem Merkmal des Datensatzes entspricht. Bei einer Dimensionsreduktion soll die Anzahl der Merkmale reduziert werden, sodass dennoch bedeutende Eigenschaften des Datensatzes erhalten bleiben. Was dies genau bedeutet, werden wir in diesem Kurs kennenlernen.
Eine Dimensionsreduktion besteht also darin, jedes (hochdimensionale) Objekt eines Datensatzes in ein niedrigdimensionales Objekt zu transformieren. Dabei ergeben sich unter anderem folgende Vorteile:
- Falls ein Datensatz auf zwei (bzw. drei) Merkmale reduziert wird, so kann dieser geeignet als Punktwolke in der Ebene (bzw. im Raum) visualisiert werden.
- Häufig sind im ursprünglichen Datensatz redundante Merkmale bzw. Werte vorhanden. Eine Dimensionsreduktion führt in diesen Fällen nicht dazu, dass Informationen verloren gehen. Der reduzierte Datensatz kann anschließend einfacher und effizienter verarbeitet werden.
- Falls im Datensatz (gleichverteilte) Störungen auftreten, dann kann eine Dimensionsreduktion dazu dienen, die Störungen (im Mittel) zu reduzieren. Eine Dimensionsreduktion kann also der Rauschunterdrückung dienen.
Wir werden in diesem Kurs drei unterschiedliche Verfahren der Dimensionsreduktion vorstellen. Zur Anwendung kommt dabei das DimensionReduction-Paket:
Alle drei Verfahren haben ihre Vor- und Nachteile, sodass nicht pauschal beantwortet werden kann, welches Verfahren das beste Ergebnis liefert. Dies hängt wie üblich mit der Struktur der Datensätze zusammen.