Wertebereich der Merkmale
Im nächsten Schritt der Datenanalyse beginnen wir bereits mit der graphischen Darstellung. Um einen ersten Eindruck von der Bandbreite bzw. von dem Wertebereich einzelner Merkmale bzw. Spalten des Datensatzes zu erhalten, eignen sich folgende Möglichkeiten:
- Box-Plot
- Histogramm
- Dichteverteilung
Wir schauen uns zunächst einen Box-Plot der Merkmale des IrisFlower-Datensatzes an. Um einzelne Spalten des Datensatzes als Zahlenreihe zu extrahieren, stellt dass Eda-Paket folgende Funktion zur Verfügung:
Die Funktion Eda.pick dient dazu, eine Spalte eines Datensatzes bzw. Tabelle als einzelne Zahlenreihe auszugeben.
Wie die Verwendung genau aussehen kann, zeigt das folgende Beispiel. Als kleine Hilfestellung fassen wir die Merkmale des Datensatzes auch hier nochmals zusammen:
Merkmal 1 | = | Kelchblattlänge | = | erste Spalte des Datensatzes | = | Index 0 |
Merkmal 2 | = | Kelchblattbreite | = | zweite Spalte des Datensatzes | = | Index 1 |
Merkmal 3 | = | Kronblattlänge | = | dritte Spalte des Datensatzes | = | Index 2 |
Merkmal 4 | = | Kronblattbreite | = | vierte Spalte des Datensatzes | = | Index 3 |
Merkmal 5 | = | Art der Gattung | = | fünfte Spalte des Datensatzes | = | Index 4 |