Projektaufgabe

Für die folgende Projektaufgabe verwenden wir einen Datensatz, der Eigenschaften von Häuserblöcken in Kalifornien bereitstellt, die 1990 im Rahmen eines Zenus erhoben wurden:

Zur Referenz

Es stehen insgesamt acht Merkmale für jeden Häuserblock zur Verfügung, anhand derer der durchschnittliche Wert pro Haushalt des Häuserblocks in Tausend US-Dollar (Zielvariable) zu bestimmen ist:

Merkmal 1Längengrad des Häuserblocks
Merkmal 2Breitengrad des Häuserblocks
Merkmal 3Alter in Jahren
Merkmal 4Anzahl der Zimmer insgesamt
Merkmal 5Anzahl der Schlafzimmer
Merkmal 6Anzahl der Bewohner insgesamt
Merkmal 7Anzahl der Haushalte
Merkmal 8mittleres Jahreseinkommen pro Haushalt in Tausend US-Dollar
Zielvariabledurchschnittlicher Wert pro Haushalt in Tausend US-Dollar

Verwende diesen Datensatz, um folgende Teilaufgaben zu bearbeiten:

  1. Analysiere zunächst die Merkmale bezüglich statistischer Eigenschaften sowie Abhängigkeiten zur Zielvariablen (explorative Datenanalyse).
  2. Führe eine lineare Regression anhand von Trainingsdaten durch und bewerte das Ergebnis anhand von Testdaten. Diskutiere, ob die lineare Regression die Zielvariable (im Durchschnitt) ausreichend genau vorhersagen kann. Was besagen die Fehlermetriken?
  3. Experimentiere, ob das Ergebnis verbessert werden kann, wenn nicht alle acht Merkmale berücksichtigt werden, sondern nur ein ausgewählter Teil davon.
  4. Visualisiere und dokumentiere deine Ergebnisse.
Beispiel
Darstellung der Häuserblöcke mit räumlichem Bezug in Kalifornien als mögliche Grundlage, um geeignete Ergebnisse zu visualisieren.
Quiz
Zur Übersicht