You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Die Grundformliste der ASV enthält eine Reihe aus dem Lateinischen stammende Eigennamen. Wenn diese wie bisher duch case normalization in ihrer kleine geschriebenen Form als Beispiele deutsche Wortformen interpretiert werden, kommt es zu viele false positives (eigentlich lat. Wörter, die als deutsch angesehen werden). Mögliche Lösungen sind:
-> auf case normilisation beim Abgleich mit der Liste verzichten (schmälert eventl. den recall für das Erkenne deutscher Worte, aber einfachere Lösung)
-> sobald Sprachklassifikatoren mittels n-gram Sprachmodellen verfügbar sind, semi-automatisch die Latein-artigen Wort(-grund-)formen aus der ASV-Liste tilgen
ergänzen von Sprachklassifikatoren mittels n-gram Sprachmodellen, die auch für nicht in Trainingsdaten vorkommende Wortformen Abschätzungen über ihre Zugehörigekeit zu einer Sprache liefern können.
einfache Infrastruktur einrichten, durch die wir anhand von Stichproben der Wortformen in den Wörterbucheinträgen Trainings-/Testdaten zur Evaluation und Verbessung der Spracherkennung erhalten
The text was updated successfully, but these errors were encountered:
-> auf case normilisation beim Abgleich mit der Liste verzichten (schmälert eventl. den recall für das Erkenne deutscher Worte, aber einfachere Lösung)
-> sobald Sprachklassifikatoren mittels n-gram Sprachmodellen verfügbar sind, semi-automatisch die Latein-artigen Wort(-grund-)formen aus der ASV-Liste tilgen
The text was updated successfully, but these errors were encountered: