Verbesserung von precision und recall der Sprachidentifikation #23

neradis · 2014-03-07T10:57:16Z

Die Grundformliste der ASV enthält eine Reihe aus dem Lateinischen stammende Eigennamen. Wenn diese wie bisher duch case normalization in ihrer kleine geschriebenen Form als Beispiele deutsche Wortformen interpretiert werden, kommt es zu viele false positives (eigentlich lat. Wörter, die als deutsch angesehen werden). Mögliche Lösungen sind:

-> auf case normilisation beim Abgleich mit der Liste verzichten (schmälert eventl. den recall für das Erkenne deutscher Worte, aber einfachere Lösung)

-> sobald Sprachklassifikatoren mittels n-gram Sprachmodellen verfügbar sind, semi-automatisch die Latein-artigen Wort(-grund-)formen aus der ASV-Liste tilgen
ergänzen von Sprachklassifikatoren mittels n-gram Sprachmodellen, die auch für nicht in Trainingsdaten vorkommende Wortformen Abschätzungen über ihre Zugehörigekeit zu einer Sprache liefern können.
einfache Infrastruktur einrichten, durch die wir anhand von Stichproben der Wortformen in den Wörterbucheinträgen Trainings-/Testdaten zur Evaluation und Verbessung der Spracherkennung erhalten

update

neradis self-assigned this Mar 7, 2014

andywer pushed a commit that referenced this issue Mar 18, 2014

Merge pull request #23 from BdMdesigN/Test

bde08c1

update

Provide feedback