.init

Der Befehl Nlp.init(D) erwartet folgende (verpflichtende) Argumente:

ArgumentDatentypHinweis
DDatenfeldListe von Objekten

Der Befehl initialisiert das Nlp-Paket, indem ein Bag-of-Words anhand der Daten D erstellt wird (Tokenisierung). Dabei ist D eine Liste von Objekten, wobei jedes Objekt die folgende Variable beinhalten muss:

VariableDatentypHinweis
inputZeichenkette-

Zur Erstellung des Bag-of-Words werden folgende Regeln verwendet:

  1. Alle Texte werden grundsätzlich in Kleinschreibung umgewandelt. Dies gilt auch für Namen sowie für den Satzanfang.
  2. Sämtliche Sonderzeichen werden durch ein Leerzeichen ersetzt. Dies gilt insbesondere auch für Fragezeichen und Ausrufezeichen, Umlaute und Emoji.
  3. Es werden nur Wörter (sogenannte Token) ins Bag-of-Words aufgenommen, die aus mindestens zwei Zeichen bestehen.
Beispiel
Anhand von drei kurzen Sätzen wird ein Bag-of-Words erstellt. Anschließend wird dieses ausgegeben.
.bag_of_words