Methode der kleinsten Quadrate

Wie beschrieben besteht die Aufgabe der Regressionsanalyse darin, eine Funktion (Modellfunktion) zu finden, sodass die Funktion angewandt auf Eingangsdaten das zugehörige Ergebnis "möglichst gut" vorhersagen (approximieren) kann. Dabei gibt es grundsätzlich unterschiedliche Ansätze, wie das "möglichst gut" mathematisch formuliert werden kann. In der Regel verwendet man an dieser Stelle die Methode der kleinsten Quadrate (englisch: least squares), welche wir nun vorstellen möchten.

Im aller einfachsten Falle bestehen die Eingangsdaten aus nur einem Merkmal und zu bestimmen ist eine Gerade, die beschrieben werden kann durch ihre Steigung und ihren y-Achsenabschnitt :

Da Steigung und y-Achsenabschnitt zu bestimmen sind, schreiben wir die Funktion bewusst auch in Abhängigkeit dieser Unbekannten, also:

Nun sei ein Datensatz, wobei zu jedem Objekt des Datensatzes Eingangsdaten und Ergebnis (Zielvariable) gegeben sind:

Objekt 1ZahlenwertZahlenwert
Objekt 2ZahlenwertZahlenwert
.........
Objekt mZahlenwertZahlenwert

Die Methode der kleinsten Quadrate besteht nun darin, die Summe der quadrierten Abweichungen zwischen bekanntem Ergebnis und Vorhersage aufgrund der Modellfunktion zu minimieren:

Diese mathematische Formulierung lässt sich folgendermaßen dargestellen:

Die Abweichungen zwischen bekanntem Ergebnis und Vorhersage aufgrund der Modellfunktion werden durch die roten Linien veranschaulicht. Die Formel zuvor besagt nichts anderes als die Längen der roten Linien zu quadrieren und anschließend die Summe zu bilden. Dies entspricht dem Flächeninhalt aller hellroten Quadrate.

Wir erinnern uns, dass die Aufgabe der linearen Regression bedeutet, und passend zum Datensatz zu finden. Dies ist nichts anderes als Werte für und zu bestimmen, sodass die Zielfunktion oder Kostenfunktion

minimiert wird. Ohne an dieser Stelle auf die Details eingehen zu wollen:

Es handelt sich bei um eine quadratische Funktion und das (eindeutige) Minimum kann bestimmt werden, indem die (eindeutige) Nullstelle des Gradienten berechnet wird, also .

Zusammenfassend bedeutet dies, dass und eindeutig sind und vergleichsweise einfach in Abhängigkeit des Datensatzes bestimmt werden können. In anderen Worten:

Die gesuchte Modellfunktion der linearen Regression unter Verwendung der Methode der kleinsten Quadrate ist eindeutig und lässt sich in Abhängigkeit des Datensatzes recht einfach bestimmen.

Wie wir im nächsten Abschnitt sehen werden, gilt dies nicht nur für dein Speziallfall, dass die Eingangsdaten aus nur einem Merkmal bestehen, sondern auch für eine beliebige Anzahl an Merkmalen.

Quiz

Gegeben ist ein Datensatz bestehend aus 22 Objekten (blaue Punkte), um eine lineare Regression durchzuführen:

Welche der drei dargestellten Geraden liefert unter Verwendung der Methode der kleinsten Quadrate das beste Ergebnis?
Gerade A
Gerade B
Gerade C
Allgemeiner Fall