Wie das Vorgehen einer explorativen Datenanalyse aussehen kann, erläutern wir in diesem Kurs anhand des IrisFlower-Datensatzes.
Der IrisFlower-Datensatz beinhaltet Daten, um Blumen der Gattung Schwertlilie (Iris) anhand der Größe der Blütenblätter hinsichtlich dreier Arten der Gattung zu klassifizieren. Dabei ist der Datensatz eigentlich nichts anderes als eine Tabelle bestehend aus fünf Spalten (Merkmalen) und 150 Zeilen (Objekten):
Kelchblattlänge | Kelchblattbreite | Kronblattlänge | Kronblattbreite | Art der Gattung | |
1 | Zahlenwert | Zahlenwert | Zahlenwert | Zahlenwert | 0, 1 oder 2 |
2 | Zahlenwert | Zahlenwert | Zahlenwert | Zahlenwert | 0, 1 oder 2 |
... | ... | ... | ... | ... | |
150 | Zahlenwert | Zahlenwert | Zahlenwert | Zahlenwert | 0, 1 oder 2 |
Die Angaben zur Länge bzw. Breite sind jeweils positive Zahl in cm und die Art der Gattung (fünfte Spalte) wird folgendermaßen definiert:
0 | = | Borsten Schwertlilie (Iris setosa) |
1 | = | Verschiedenfarbige Schwertlilie (Iris versicolor) |
2 | = | Virginische Schwertlilie (Iris virginica) |
Der IrisFlower-Datensatz wird über das IrisFlower-Datenpaket bereitgestellt. Die vollständige Dokumentation findest du hier:
In den folgenden Abschnitten besteht unser Ziel darin, den Datensatz anhand einer explorativen Datenanalyse kennenzulernen.