Unser erstes Anwendungsbeispiel besteht darin, anhand von zehn äußeren Merkmalen zu entscheiden, ob ein Pilz essbar ist oder nicht (giftig bzw. ungesund).
Mit der Skizze zuvor lassen sich die zehn Merkmale folgendermaßen beschreiben:
Merkmal 1 | Form des Hutes |
Merkmal 2 | Oberfläche des Hutes |
Merkmal 3 | Farbe des Hutes |
Merkmal 4 | Abstand der Lamellen |
Merkmal 5 | Farbe der Lamellen |
Merkmal 6 | Oberfläche des Stiels (oberhalb des Ringes) |
Merkmal 7 | Oberfläche des Stiels (unterhalb des Ringes) |
Merkmal 8 | Farbe des Stiels (oberhalb des Ringes) |
Merkmal 9 | Farbe des Stiels (unterhalb des Ringes) |
Merkmal 10 | Typ des Ringes |
Zielvariable | Pilz essbar (0) oder Pilz giftig (1) |
Wie genau die Merkmale als Zahlenwert beschrieben werden, kann dem PDF-Dokument entnommen werden:
Der zugehörige Datensatz samt ausführlicher Dokumentation befindet sich hier:
Der gesamte zur Verfügung stehende Datensatz wird in zwei Umfänge aufgeteilt:
- Trainingsdaten: Dieser Teil des Datensatzes wird verwendet, um eine logistische Regression durchzuführen (d.h., um die Parameter der Modellfunktion zu bestimmen).
- Testdaten: Anschließend kann dieser Teil genutzt werden, um das Ergebnis der Regression zu evaluieren (d.h., die Objekte der Testdaten werden von der Modellfunktion ausgewertet).
Wie dies genau aussehen kann, demonstrieren wir am folgenden Beispiel. Dort werden die Trainingsdaten verwendet, um eine logistische Regression durchzuführen bzw. um die Modellfunktion zu bestimmen. Anschließend wird ein zufälliges Objekt der Testdaten gewählt, um dieses an der Modellfunktion auszuwerten.