Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Verbesserung von precision und recall der Sprachidentifikation #23

Open
neradis opened this issue Mar 7, 2014 · 0 comments
Open

Verbesserung von precision und recall der Sprachidentifikation #23

neradis opened this issue Mar 7, 2014 · 0 comments
Assignees

Comments

@neradis
Copy link
Owner

neradis commented Mar 7, 2014

  1. Die Grundformliste der ASV enthält eine Reihe aus dem Lateinischen stammende Eigennamen. Wenn diese wie bisher duch case normalization in ihrer kleine geschriebenen Form als Beispiele deutsche Wortformen interpretiert werden, kommt es zu viele false positives (eigentlich lat. Wörter, die als deutsch angesehen werden). Mögliche Lösungen sind:

    -> auf case normilisation beim Abgleich mit der Liste verzichten (schmälert eventl. den recall für das Erkenne deutscher Worte, aber einfachere Lösung)

    -> sobald Sprachklassifikatoren mittels n-gram Sprachmodellen verfügbar sind, semi-automatisch die Latein-artigen Wort(-grund-)formen aus der ASV-Liste tilgen
  2. ergänzen von Sprachklassifikatoren mittels n-gram Sprachmodellen, die auch für nicht in Trainingsdaten vorkommende Wortformen Abschätzungen über ihre Zugehörigekeit zu einer Sprache liefern können.
  3. einfache Infrastruktur einrichten, durch die wir anhand von Stichproben der Wortformen in den Wörterbucheinträgen Trainings-/Testdaten zur Evaluation und Verbessung der Spracherkennung erhalten
@neradis neradis self-assigned this Mar 7, 2014
andywer pushed a commit that referenced this issue Mar 18, 2014
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant