Projektaufgabe
Für die folgende Projektaufgabe verwenden wir einen Datensatz mit Eigenschaften von insgesamt 800 Usern (Nutzern) eines sozialen Netzwerks, denen ein spezieller Ad (Werbebanner) angezeigt wird:
Pro User stehen drei Merkmale zur Verfügung, anhand derer entschieden werden soll, ob der User auf den Ad geklickt hat oder nicht:
Merkmal 1 | Geschlecht (0: männlich, 1: weiblich) |
Merkmal 2 | Alter (in Jahren) |
Merkmal 3 | geschätztes Jahresgehalt (in 1000 EUR) |
Zielvariable | User hat auf Ad geklickt (0: nein, 1: ja) |
Verwende diesen Datensatz, um folgende Teilaufgaben zu bearbeiten:
- Analysiere zunächst die Merkmale bezüglich statistischer Eigenschaften sowie Abhängigkeiten zur Zielvariablen (explorative Datenanalyse).
- Führe eine logistische Regression anhand von Trainingsdaten durch und bewerte das Ergebnis anhand von Testdaten. Diskutiere, ob die logistische Regression die Zielvariable ausreichend genau vorhersagen kann. Schaue dir dazu auch die Konfusionsmatrix an.
- Visualisiere und dokumentiere deine Ergebnisse.