-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
adjectives missing some forms #94
Comments
@arademaker , outro caso parecido, agora só com duas entradas:
Na verdade, o lema seria cavalão. Outro caso:
Existe o lema roxo com 4 formas... |
@arademaker, está me parecendo que esses dados estranhos foram garimpados em corpus e incorporados sem o devido cuidado em um dos recursos que incorporamos. Muitos casos são de formas que existem como substantivos, o que me faz suspeitar de erros de etiquetagem automática. Veja:
Faz sentido manter esses adjetivos? De qualquer forma, há o problema apontado das lacunas de formas. Todo adjetivo do português deve ter 4 formas (2 números x 2 gêneros). Tendo agora a eliminar itens dessa lista, seguindo estes critérios:
Para os casos de prováveis adjetivos uniformes, como abacate citado acima, com apenas 3 formas, criamos a quarta forma faltante. |
Em 61c1043 resolvi os casos particulares listados acima. Desculpe, mas não ficou claro para mim @leoalenc a estratégia sugerida. Para O mesmo ocorre para roxo e cavalão, preciso ainda chegar as formas derivadas. Eu concordo que deveríamos evitar repetir como adjetivos o que não precisar ser repetido por estar como substantivo, mas quais serão os critérios para colocar ou não como adjetivo? distribucional? semântico (aceita ou não gradação)? |
E como sua sugestão aqui se contrasta com #90 (comment) ? |
@arademaker , trabalhando na integração, na PorGram, dos adjetivos do recurso, por meio da versão simplificada gerada pelo meu script em Python, deparei-me com o seguinte problema da versão original:
grep
-P "\tabacate+" adjectives-a*.dictEstá faltando a forma de masculino singular! Na verdade, na versão não simplificada do MorphoBr, a cada adjetivo, i.e., a cada lema adjetival, deve corresponder quatro entradas, excetuando aquelas com DIM e AUG.
Talvez haja outros casos como esse? A propósito, descobri essa lacuna por acaso, pois gerou algo estranho no TDL.
The text was updated successfully, but these errors were encountered: