Auch wenn die mathematischen Berechnungen der Hauptkomponentenanalyse zur Dimensionsreduktion nicht im Detail vorgestellt wurden, die Ergebnisse waren dennoch recht anschaulich. Nun stellen wir mit der metrischen multidimensionalen Skalierung ein zweites Verfahren vor, dass die Beobachtungen zuvor nochmals vertieft. Die metrische multidimensionale Skalierung (kurz MDS) ist eigentlich ein Verfahren der Statistik, dass aber auch im Data Science Verwendung findet.
Angenommen, es sind die Abstände zwischen je zwei Objekten eines Datensatzes bekannt. Diese Daten (in Form einer symmetrischen Distanzmatrix) werden der metrischen multidimensionalen Skalierung übergeben, um die Objekte derart in niedrigdimensionale Objekte zu überführen, sodass die Abstände zwischen den Objekten möglichst gleich bleiben. Ohne auch hier im Detail auf die genauen Berechnungen einzugehen, sei erwähnt, dass im Wesentlichen eine Eigenwertberechnung durchzuführen ist.
Die metrische multidimensionale Skalierung macht also genau das, was wir zuvor auch bei der Hauptkomponentenanalyse beobachtet haben: Die Abstände zwischen den Objekten bleiben relativ zueinander bestmöglichst erhalten. In anderen Worten:
Ähnliche Objekte eines Datensatzes weisen auch nach der Dimensionsreduktion unter Verwendung einer metrischen multidimensionalen Skalierung Ähnlichkeiten auf.
Offen bleibt die Frage, wie die Distanzmatrix bestimmt werden kann. Darauf gehen wir im nachfolgenden Abschnitt ein.