Grenzen

Wir haben bereits mehrfach angedeutet, dass eine lineare Regression nur dann sinnvoll ist, wenn die Eingangsdaten tatsächlich lineare Abhängigkeiten bezüglich der Zielvariablen aufweisen. Dies ist aber natürlich nicht immer der Fall. Visuell deutlich werden die Grenzen der linearen Regression am Spezialfall, wenn die Eingangsdaten nur ein Merkmal besitzen. Das Beispiel der folgenden Abbildung zeigt einen Fall, bei dem die lineare Regression wenig zielführend ist.

Weitere Beispiele liefert das Anscombe-Quartett der folgenden Anwendung: Hierbei handelt es sich um vier Datensätze mit jeweils elf Objekten (rote Punkte). Die lineare Regression liefert als Modellfunktion für alle vier Datensätze eine nahezu identische Modellfunktion (blaue Gerade). Bezogen auf die Verteilung der elf Objekte ist die lineare Regression aber nur für Datensatz A eine geeignete Methode der Regressionsanalyse. Insbesondere ist es auch wichtig, Datensätze bezüglich sogenannter Ausreißer zu untersuchen. Dabei handelt es sich um Objekte, die (deutlich stärker als andere) "aus der Reihe tanzen". Zu beobachten ist dies im Anscombe-Quartett anhand der Datensätze C und D.

Anscombe-Quartett
Es wird eine lineare Regression auf unterschiedliche Datensätze angewandt, die jeweils aus elf Punkten bestehen.
Quiz
Hast du dich mit der Anwendung zuvor beschäftigt?
ja
nein
Projektaufgabe