Typische Klassifikationsaufgaben bestehen darin, Eingangsdaten (Objekte eines Datensatzes) einer Klasse zuzuweisen. Ein gängiges Lehrbeispiel ist die Klassifikation handgeschriebener Ziffern: Die Objekte sind einzelne Bilder und es ist in die zehn Klassen 0 bis 9 zu kategorisieren.
Bei der Regressionsanalyse haben wir es ebenfalls mit Eingangsdaten (Objekte eines Datensatzes) zu tun, wobei nun ein Zahlenwert vorausgesagt werden soll. Ein gängiges Lehrbeispiel der Regression ist die Vorhersage von Immobilienpreisen: Anhand von Daten wie Größe der Wohnung, Anzahl der Zimmer etc. soll der Mietpreis pro Monat abgeschätzt werden.
Bei der linearen Regression wird die Annahme getroffen, dass es einen linearen Zusammenhang zwischen Eingangsdaten und der Zielvariablen (d.h. dem hervorzusagendem Zahlenwert) gibt. Der Spezialfall, wenn die Eingangsdaten nur ein Merkmal besitzen, lässt sich sehr schön veranschaulichen:
Beispielsweise könnte es sich beim Merkmal der Eingangsdaten (x-Achse) um die Größe einer Wohnung in Quadratmetern handeln und bei der Zielvariablen (y-Achse) um den monatlichen Mietpreis in Euro. Entsprechend sind die Daten von zehn Wohnungen dargestellt.
Die Aufgabe der linearen Regression besteht nun darin, eine lineare Funktion zu finden, sodass die Daten "möglichst gut" approximiert werden. Im einfachen Falle mit einem Merkmal ist dies eine Gerade:
Anhand des kleinen Beispiels drängen sich aber direkt einige Fragestellungen auf:
- Was bedeutet dabei, dass die Daten "möglichst gut" approximiert werden?
- Wie kann eine Lösung (lineare Modellfunktion) bestimmt werden? Ist diese eindeutig?
- Welche Aussagen (Fehlermetriken) gibt es, um die gefundene Lösung bezüglich ihrer Güte zu bewerten?
- Wann stößt die lineare Regression an ihre Grenzen?
Dieser und weiterer Fragen werden wir in diesem Kurs auf den Grund gehen.