Die Hauptkomponentenanalyse (Principal Component Analysis oder kurz PCA) ist eine der wichtigsten Methoden im Gebiet des Data Science. Es handelt sich dabei um ein Verfahren der Statistik mit dem Ziel, Datensätze bezüglich der Varianz der einzelnen Variablen zu bewerten.
Im Wesentlichen sieht die Hauptkomponentenanalyse vor, eine Singulärwertzerlegung der Kovarianzmatrix einer Datenmatrix zu bestimmen. Das Ergebnis liefert die Hauptkomponenten (Eigenvektoren) sowie die Varianzen der Variablen (Eigenwerte) absteigend sortiert.
Um das Verfahren anwenden zu können, werden wir in den folgenden Abschnitten insbesondere auf das PrincipalComponents-Paket zurückgreifen:
Die Hauptkomponentenanalyse ist damit eine Grundlage der Dimensionsreduktion, sie kann jedoch auch zur Datenvisualisierung oder Rauschunterdrückung eingesetzt werden. Was dies alles genau bedeutet und welche Anwendungsmöglichkeiten sich damit ergeben, werden wir im Folgenden vorstellen.
Die in diesem Kurs vorgestellten Verfahren und Anwendungen finden sich auf ähnliche Art und Weise (unter Verwendung von Python) auch in folgenden Lehrbüchern wieder:
J. VanderPlas. 2016. Python Data Science Handbook. O'Reilly Media, Inc. 1. Auflage.
A. Géron. 2019. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media. 2. Auflage.