Wie beschrieben besteht die Aufgabe der Regressionsanalyse darin, eine Funktion (Modellfunktion) zu finden, sodass die Funktion angewandt auf Eingangsdaten das zugehörige Ergebnis "möglichst gut" vorhersagen (approximieren) kann. Dabei gibt es grundsätzlich unterschiedliche Ansätze, wie das "möglichst gut" mathematisch formuliert werden kann. In der Regel verwendet man an dieser Stelle die Methode der kleinsten Quadrate (englisch: least squares), welche wir nun vorstellen möchten.
Im aller einfachsten Falle bestehen die Eingangsdaten aus nur einem Merkmal und zu bestimmen ist eine Gerade, die beschrieben werden kann durch ihre Steigung und ihren y-Achsenabschnitt :
Da Steigung und y-Achsenabschnitt zu bestimmen sind, schreiben wir die Funktion bewusst auch in Abhängigkeit dieser Unbekannten, also:
Nun sei ein Datensatz, wobei zu jedem Objekt des Datensatzes Eingangsdaten und Ergebnis (Zielvariable) gegeben sind:
Objekt 1 | Zahlenwert | Zahlenwert |
Objekt 2 | Zahlenwert | Zahlenwert |
... | ... | ... |
Objekt m | Zahlenwert | Zahlenwert |
Die Methode der kleinsten Quadrate besteht nun darin, die Summe der quadrierten Abweichungen zwischen bekanntem Ergebnis und Vorhersage aufgrund der Modellfunktion zu minimieren:
Diese mathematische Formulierung lässt sich folgendermaßen dargestellen:
Die Abweichungen zwischen bekanntem Ergebnis und Vorhersage aufgrund der Modellfunktion werden durch die roten Linien veranschaulicht. Die Formel zuvor besagt nichts anderes als die Längen der roten Linien zu quadrieren und anschließend die Summe zu bilden. Dies entspricht dem Flächeninhalt aller hellroten Quadrate.
Wir erinnern uns, dass die Aufgabe der linearen Regression bedeutet, und passend zum Datensatz zu finden. Dies ist nichts anderes als Werte für und zu bestimmen, sodass die Zielfunktion oder Kostenfunktion
minimiert wird. Ohne an dieser Stelle auf die Details eingehen zu wollen:
Es handelt sich bei um eine quadratische Funktion und das (eindeutige) Minimum kann bestimmt werden, indem die (eindeutige) Nullstelle des Gradienten berechnet wird, also .
Zusammenfassend bedeutet dies, dass und eindeutig sind und vergleichsweise einfach in Abhängigkeit des Datensatzes bestimmt werden können. In anderen Worten:
Die gesuchte Modellfunktion der linearen Regression unter Verwendung der Methode der kleinsten Quadrate ist eindeutig und lässt sich in Abhängigkeit des Datensatzes recht einfach bestimmen.
Wie wir im nächsten Abschnitt sehen werden, gilt dies nicht nur für dein Speziallfall, dass die Eingangsdaten aus nur einem Merkmal bestehen, sondern auch für eine beliebige Anzahl an Merkmalen.