.vectorize
Die Funktion Nlp.vectorize(s) erwartet folgende (verpflichtende) Argumente:
Argument | Datentyp | Hinweis |
s | Zeichenkette | - |
Die Zeichenkette bzw. der Satz s wird auf Grundlage des Bag-of-Words vektorisiert (als Vektor kodiert) und entsprechend als Datenfeld von Zahlen (Vektor) zurückgegeben.
Zudem kann folgende Option verwendet werden:
Variable | Datentyp | Hinweis | Default-Wert |
method | Zeichenkette | - | tf |
Mittels method kann die Art der Vektorisierung gewählt werden. Folgende Möglichkeiten stehen zur Verfügung:
tf | Normierte Vorkommenshäufigkeit (term frequency) |
binary | Binäres Vorkommen der Token |
tf.idf | Das Tf-idf-Maß |
Das Tf-idf-Maß ist dabei als Vorkommenshäufigkeit (term frequency) multipliziert mit der inversen Dokumenthäufigkeit (inverse document frequency) zu verstehen.