Projektaufgabe

Für die folgende Projektaufgabe verwenden wir einen Datensatz mit Eigenschaften von insgesamt 800 Usern (Nutzern) eines sozialen Netzwerks, denen ein spezieller Ad (Werbebanner) angezeigt wird:

Zur Referenz

Pro User stehen drei Merkmale zur Verfügung, anhand derer entschieden werden soll, ob der User auf den Ad geklickt hat oder nicht:

Merkmal 1Geschlecht (0: männlich, 1: weiblich)
Merkmal 2Alter (in Jahren)
Merkmal 3geschätztes Jahresgehalt (in 1000 EUR)
ZielvariableUser hat auf Ad geklickt (0: nein, 1: ja)

Verwende diesen Datensatz, um folgende Teilaufgaben zu bearbeiten:

  1. Analysiere zunächst die Merkmale bezüglich statistischer Eigenschaften sowie Abhängigkeiten zur Zielvariablen (explorative Datenanalyse).
  2. Führe eine logistische Regression anhand von Trainingsdaten durch und bewerte das Ergebnis anhand von Testdaten. Diskutiere, ob die logistische Regression die Zielvariable ausreichend genau vorhersagen kann. Schaue dir dazu auch die Konfusionsmatrix an.
  3. Visualisiere und dokumentiere deine Ergebnisse.
Beispiel
Möglichkeit zur Visualisierung zweier Merkmale des Datensatzes in einem Streudiagramm.
Quiz
Zur Übersicht