Projektaufgabe
Für die folgende Projektaufgabe verwenden wir einen Datensatz, der Eigenschaften von Häuserblöcken in Kalifornien bereitstellt, die 1990 im Rahmen eines Zenus erhoben wurden:
Es stehen insgesamt acht Merkmale für jeden Häuserblock zur Verfügung, anhand derer der durchschnittliche Wert pro Haushalt des Häuserblocks in Tausend US-Dollar (Zielvariable) zu bestimmen ist:
Merkmal 1 | Längengrad des Häuserblocks |
Merkmal 2 | Breitengrad des Häuserblocks |
Merkmal 3 | Alter in Jahren |
Merkmal 4 | Anzahl der Zimmer insgesamt |
Merkmal 5 | Anzahl der Schlafzimmer |
Merkmal 6 | Anzahl der Bewohner insgesamt |
Merkmal 7 | Anzahl der Haushalte |
Merkmal 8 | mittleres Jahreseinkommen pro Haushalt in Tausend US-Dollar |
Zielvariable | durchschnittlicher Wert pro Haushalt in Tausend US-Dollar |
Verwende diesen Datensatz, um folgende Teilaufgaben zu bearbeiten:
- Analysiere zunächst die Merkmale bezüglich statistischer Eigenschaften sowie Abhängigkeiten zur Zielvariablen (explorative Datenanalyse).
- Führe eine lineare Regression anhand von Trainingsdaten durch und bewerte das Ergebnis anhand von Testdaten. Diskutiere, ob die lineare Regression die Zielvariable (im Durchschnitt) ausreichend genau vorhersagen kann. Was besagen die Fehlermetriken?
- Experimentiere, ob das Ergebnis verbessert werden kann, wenn nicht alle acht Merkmale berücksichtigt werden, sondern nur ein ausgewählter Teil davon.
- Visualisiere und dokumentiere deine Ergebnisse.