Vektorisierung

Mit einem Regelwerk zur Tokenisierung ist eindeutig definiert, wie anhand von Texten ein Bag-of-Words erstellt werden kann. Wir haben auch schon gelernt, wie anschließend ein Text unter Verwendung des Bag-of-Words als Datenfeld (Vektor) beschrieben wird.

In diesem Abschnitt wollen wir nochmals genauer verstehen, wie nun ein Text als Eingangssignal eines neuronalen Netzes angesehen werden kann. Wir demonstrieren die Vorgehensweise anhand kurzer Quellcodes und beginnen mit der Ausgabe eines Bag-of-Words.

Zur Referenz

Quellcode
Erstellung und Ausgabe eines Bag-of-Words.

Unter Verwendung des Bag-of-Words kann ein beliebiger Text als Datenfeld (Vektor) kodiert werden, indem auch darauf die Tokenisierung angewandt und anschließend die Vorkommenshäufigkeit der Wörter (bzw. Token) des Bag-of-Words bestimmt wird. Als Beispiel anhand des Bag-of-Words

einfach, der, film, war, unglaublich, langweilig, unglaubliche, landschaftsaufnahmen, toll, nur, zum, einschlafen

hatten wir bereits die Kodierung der Aussage

Einfach unglaubliche Landschaftsaufnahmen 🌈 einfach toll 👍

durch folgendes Datenfeld (Vektor) besprochen:

[2, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0]

Um dieses Datenfeld als Eingangssignal eines neuronalen Netzes ansehen zu können, müssen sämtlich Einträge allerdings zwischen 0 und 1 sein. Um dies zu erreichen, teilen wir alle Einträge durch die größte Zahl, die als Eintrag vorhanden ist, im Beispiel also durch 2:

[1, 0, 0, 0, 0, 0, 0.5, 0.5, 0.5, 0, 0, 0]

Quellcode
Erstellung eines Bag-of-Words und Vektorisierung eines Textes.
Quiz
Neuronales Netz