Als Anwendungsbeispiel verwenden wir einen Datensatz, der Eigenschaften von Weinen bereitstellt:
Pro Wein stehen elf Merkmale zur Verfügung, anhand derer die (gemessene) Qualität des Weines (als Wert zwischen 0 und 10) zu bestimmen ist:
Merkmal 1 | Säuregehalt (gesamt) |
Merkmal 2 | Essigsäuregehalt |
Merkmal 3 | Citronensäuregehalt |
Merkmal 4 | Restsüße |
Merkmal 5 | Chloridgehalt |
Merkmal 6 | Schwefeldioxidgehalt (frei) |
Merkmal 7 | Schwefeldioxidgehalt (gesamt) |
Merkmal 8 | Dichte |
Merkmal 9 | pH-Wert |
Merkmal 10 | Sulfatgehalt |
Merkmal 11 | Alkoholgehalt |
Zielvariable | Qualität (gemessen) als Wert zwischen 0 und 10 |
Der gesamte zur Verfügung stehende Datensatz wird in zwei Umfänge aufgeteilt:
- Trainingsdaten: Dieser Teil des gesamten Datensatzes wird verwendet, um eine lineare Regression durchzuführen (d.h. eine Modellfunktion zu bestimmen).
- Testdaten: Anschließend kann dieser Teil genutzt werden, um das Ergebnis der linearen Regression unter Verwendung der zuvor bestimmten Modellfunktion zu evaluieren.
Wie dies genau aussehen kann, demonstrieren wir am folgenden Beispiel. Dort werden die Trainingsdaten verwendet, um eine lineare Regression durchzuführen bzw. die Modellfunktion zu bestimmen. Anschließend wird ein zufälliges Objekt der Testdaten gewählt, um dieses an der Modellfunktion auszuwerten.