Wertebereich der Merkmale

Im nächsten Schritt der Datenanalyse beginnen wir bereits mit der graphischen Darstellung. Um einen ersten Eindruck von der Bandbreite bzw. von dem Wertebereich einzelner Merkmale bzw. Spalten des Datensatzes zu erhalten, eignen sich folgende Möglichkeiten:

  • Box-Plot
  • Histogramm
  • Dichteverteilung

Wir schauen uns zunächst einen Box-Plot der Merkmale des IrisFlower-Datensatzes an. Um einzelne Spalten des Datensatzes als Zahlenreihe zu extrahieren, stellt dass Eda-Paket folgende Funktion zur Verfügung:

Die Funktion Eda.pick dient dazu, eine Spalte eines Datensatzes bzw. Tabelle als einzelne Zahlenreihe auszugeben.

Zur Referenz

Wie die Verwendung genau aussehen kann, zeigt das folgende Beispiel. Als kleine Hilfestellung fassen wir die Merkmale des Datensatzes auch hier nochmals zusammen:

Merkmal 1=Kelchblattlänge=erste Spalte des Datensatzes=Index 0
Merkmal 2=Kelchblattbreite=zweite Spalte des Datensatzes=Index 1
Merkmal 3=Kronblattlänge=dritte Spalte des Datensatzes=Index 2
Merkmal 4=Kronblattbreite=vierte Spalte des Datensatzes=Index 3
Merkmal 5=Art der Gattung=fünfte Spalte des Datensatzes=Index 4
Beispiel
Box-Plot einzelner Merkmale des IrisFlower-Datensatzes.
Quiz
Was ist der größte Wert für die Kronblattbreite im IrisFlower-Datensatz?
2.1
2.5
4.4
6.9
7.9
Welches Merkmal besitzt gemäß der Darstellung als Box-Plot Ausreißer?
Kelchblattlänge
Kelchblattbreite
Kronblattlänge
Kronblattbreite
Aufteilung in Klassen