Im Allgemeinen ist ein Datensatz, der zur Regressionsanalyse verwendet werden soll, nichts anderes als eine Tabelle zur Beschreibung der einzelnen Objekte (Zeilen):
Merkmal 1 | Merkmal 2 | ... | Merkmal n | Zielvariable | |
Objekt 1 | Zahlenwert | Zahlenwert | ... | Zahlenwert | Zahlenwert |
Objekt 2 | Zahlenwert | Zahlenwert | ... | Zahlenwert | Zahlenwert |
... | ... | ... | ... | ... | |
Objekt m | Zahlenwert | Zahlenwert | ... | Zahlenwert | Zahlenwert |
Die Eingangsdaten eines Objekts sind die Zahlenwert der n Merkmale:
Das Ergebnis des Objekts ist der Zahlenwert der Zielvariablen (Wert in letzter Spalte). Die Aufgabe der linearen Regression besteht in diesem allgemeinen Fall nun darin, die Parameter
der linearen Funktion (Modellfunktion)
derart zu bestimmen, sodass die Zielfunktion (Kostenfunktion)
minimiert wird. Dabei ist die Summe wie zuvor über alle Objekte bzw. Zeilen des Datensatzes zu verstehen, wobei und zu jedem Objekt die Eingangsdaten und die Zielvariable beschreiben. Auch hier handelt es sich um eine quadratische Zielfunktion mit einem eindeutigen Minimum, welches mit einfachen Mitteln der linearen Algebra bestimmt werden kann. Die folgende Aussage gilt also auch im allgemeinen Falle:
Die gesuchte Modellfunktion der linearen Regression unter Verwendung der Methode der kleinsten Quadrate ist eindeutig und lässt sich in Abhängigkeit des Datensatzes recht einfach bestimmen.