.init
Der Befehl Nlp.init(D) erwartet folgende (verpflichtende) Argumente:
Argument | Datentyp | Hinweis |
D | Datenfeld | Liste von Objekten |
Der Befehl initialisiert das Nlp-Paket, indem ein Bag-of-Words anhand der Daten D erstellt wird (Tokenisierung). Dabei ist D eine Liste von Objekten, wobei jedes Objekt die folgende Variable beinhalten muss:
Variable | Datentyp | Hinweis |
input | Zeichenkette | - |
Zur Erstellung des Bag-of-Words werden folgende Regeln verwendet:
- Alle Texte werden grundsätzlich in Kleinschreibung umgewandelt. Dies gilt auch für Namen sowie für den Satzanfang.
- Sämtliche Sonderzeichen werden durch ein Leerzeichen ersetzt. Dies gilt insbesondere auch für Fragezeichen und Ausrufezeichen, Umlaute und Emoji.
- Es werden nur Wörter (sogenannte Token) ins Bag-of-Words aufgenommen, die aus mindestens zwei Zeichen bestehen.