Allgemeine Bemerkungen

Abschließend fassen wir in diesem Abschnitt die wichtigsten Erfahrungen zusammen, die du beim Lesen bzw. bei der Bearbeitung der Aufgaben bislang gewonnen haben solltest.

Zunächst sei bemerkt, dass die Anzahl der Neuronen des Eingangssignals vom Bag-of-Words und damit vom Umfang der Trainingsdaten abhängt. Mit anderen Worten: Die Größe des Eingangssignals ist unabhängig von der Länge des zu klassifizierenden Textes. So oder so wird jedoch auch bei längeren Texten nur ein kleiner Anteil der Eingangsneuronen einen Wert größer als Null aufweisen.

Schließlich sollte deutlich geworden sein, dass auch bei der Sentimentanalyse (wie beim maschinellen Lernen üblich) große Mengen an Daten bzw. Texte benötigt werden. Zudem besteht die größte Herausforderung gar nicht beim Layout des neuronalen Netzes oder der Trainingsphase, sondern bei der Aufbereitung der Daten. Genauer ist die Erstellung des Bag-of-Words sowie das Regelwerk diesbezüglich von deutlich größerer Bedeutung.

Abschließend sei bemerkt, dass es diverse Techniken gibt, um die Anzahl der Eingangsneuronen zu reduzieren: Beispielsweise können mehrere seltene Wörter oder Token des Bag-of-Words zu einem Eingangsneuron zusammengefasst werden. Dadurch reduziert sich das Eingangssignal und damit der Speicherbedarf sowie die Rechenzeit der Trainingsphase.

Quiz
Projektaufgaben