Im Bereich des Data Science besteht die Aufgabe in der Regel darin, Datensätze zu analysieren, um Informationen abzuleiten. Im ersten Schritt können und sollten daher grundlegende statistische Kennzahlen untersucht werden.
Um aber zunächst einige Begrifflichkeiten einzuführen bzw. zu wiederholen: Ein Datensatz ist nichts anderes als eine Tabelle, wobei jede Zeile einem Objekt und jede Spalte einem Merkmal entspricht:
Merkmal 1 | Merkmal 2 | ... | Merkmal n | |
Objekt 1 | Zahlenwert | Zahlenwert | ... | Zahlenwert |
Objekt 2 | Zahlenwert | Zahlenwert | ... | Zahlenwert |
... | ... | ... | ... | |
Objekt m | Zahlenwert | Zahlenwert | ... | Zahlenwert |
Beispielsweise kann ein Datensatz das Verhalten von Nutzern einer Webseite beschreiben. Jedes Objekt (Zeile) entspricht dann einem Nutzer und zu jedem Nutzer werden unterschiedliche Merkmale gespeichert, z.B. Geschlecht (Merkmal 1), Alter (Merkmal 2), Jahresgehalt (Merkmal 3).
Zusammenfassend ist jede Spalte eines Datensatzes nichts anderes als eine Reihe von Zahlen. Statistische Kennzahlen geben nun Auskunft über derartige Zahlenreihen.
Im folgenden Beispiel wird ein Datensatz bestehend aus 800 Objekten und vier Merkmalen ausgelesen und ausgegeben. Die genaue Referenz zum SocialAds-Datenpaket findest du hier: