.vectorize

Die Funktion Nlp.vectorize(s) erwartet folgende (verpflichtende) Argumente:

ArgumentDatentypHinweis
sZeichenkette-

Die Zeichenkette bzw. der Satz s wird auf Grundlage des Bag-of-Words vektorisiert (als Vektor kodiert) und entsprechend als Datenfeld von Zahlen (Vektor) zurückgegeben.

Zudem kann folgende Option verwendet werden:

VariableDatentypHinweisDefault-Wert
methodZeichenkette-tf

Mittels method kann die Art der Vektorisierung gewählt werden. Folgende Möglichkeiten stehen zur Verfügung:

tfNormierte Vorkommenshäufigkeit (term frequency)
binaryBinäres Vorkommen der Token
tf.idfDas Tf-idf-Maß

Das Tf-idf-Maß ist dabei als Vorkommenshäufigkeit (term frequency) multipliziert mit der inversen Dokumenthäufigkeit (inverse document frequency) zu verstehen.

Beispiel
Anhand von drei kurzen Sätzen wird ein Bag-of-Words erstellt. Anschließend wird ein Satz vektorisiert.
Beispiel
Das gleiche Beispiel wie zuvor, wobei die Möglichkeiten der Vektorisierung verglichen werden.
Zur Übersicht