Im Allgemeinen ist ein Datensatz, der einer logistischen Regression unterzogen werden soll, nichts anderes als eine Tabelle zur Beschreibung der einzelnen Objekte (Zeilen):
Merkmal 1 | Merkmal 2 | ... | Merkmal n | Zielvariable | |
Objekt 1 | Zahlenwert | Zahlenwert | ... | Zahlenwert | 0 oder 1 |
Objekt 2 | Zahlenwert | Zahlenwert | ... | Zahlenwert | 0 oder 1 |
... | ... | ... | ... | ... | |
Objekt m | Zahlenwert | Zahlenwert | ... | Zahlenwert | 0 oder 1 |
Die Eingangsdaten eines Objekts sind die Zahlenwerte der n Merkmale:
Das Ergebnis des Objekts ist der Zahlenwert der Zielvariablen (und dabei stets 0 oder 1). Die Aufgabe der logistischen Regression besteht darin, die Regressionskoeffizienten
der Modellfunktion
derart zu bestimmen, sodass sämtliche Objekte des Datensatzes "möglichst gut" approximiert werden. Wenn wir den gesamten Datensatz mit bezeichnen und und zu jedem Objekt die Eingangsdaten und die Zielvariable beschreiben, dann bedeutet dies, dass bestenfalls
für alle gilt. Bei der linearen Regression kommt an dieser Stelle die Methode der kleinsten Quadrate in Spiel, um das "möglichst gut approximiert" zu definieren. Dabei sind die Regressionskoeffizienten (Vektor ) derart zu bestimmen, sodass die Zielfunktion (oder Kostenfunktion)
minimiert wird.
Die Methode der kleinsten Quadrate wäre grundsätzlich auch bei der logistischen Regression denkbar, allerdings bringt diese einige Nachteile mit sich. Insbesondere wäre die Zielfunktion (anders als bei der linearen Regression) nicht konvex, sodass es schwierig ist, ein globales Minimum zu finden. Daher wird bei der logistischen Regression in der Regel auf eine andere Formulierung der Kostenfunktion zurückgegriffen.