Bei der Regressionsanalyse haben wir es mit Eingangsdaten (Objekte eines Datensatzes) zu tun, wobei ein Ergebnis (Zielvariable der Objekte) vorausgesagt werden soll.
Die logistische Regression behandelt den Spezialfall, bei dem die Zielvariable ausschließlich die Werte 0 und 1 annehmen kann. Es handelt es sich also um Aufgabenstellungen, bei denen eine Entscheidung zu treffen ist, zum Beispiel: wahr oder falsch, essbar oder giftig, gesund oder erkrankt. Der Fall, wenn die Eingangsdaten nur ein Merkmal besitzen, lässt sich schön veranschaulichen:
Beispielsweise könnte es sich beim Merkmal der Eingangsdaten (x-Achse mit Variable ) um die Größe eines Tumors handeln und bei der Zielvariablen (y-Achse) darum, ob dieser gutartig oder bösartig ist. Die Modellfunktion der logistischen Regression in diesem Falle lautet:
Damit liefert die Modellfunktion stets einen Wert zwischen 0 und 1 zurück. Die Aufgabe der Regressionsanalyse besteht nun darin, die Regressionskoeffizienten und anhand von Traingsdaten (blaue Punkte) geeignet zu wählen, beispielsweise mit folgendem Ergebnis:
In diesem Kurs werden wir folgende Fragestellungen beantwortet:
- Wie werden Modellfunktion und Kostenfunktion der logistischen Regression allgemein formuliert?
- Was bedeutet es, die Regressionskoeffizienten geeignet zu wählen?
- Wie kann eine Lösung bestimmt werden?
- Wie können (binäre) Klassifikationsaufgaben mittels logistischer Regression gelöst werden?