Skip to content

Files

Latest commit

author
Fabricio Rosario
Oct 13, 2016
8daa7ed · Oct 13, 2016

History

History
This branch is 452 commits ahead of, 219 commits behind UniversalDependencies/UD_Portuguese-Bosque:master.

staging

UD Portuguese Corpus for CONLL 2017

O diretório sample contém

raw/

100 textos do Amazonia selecionados aleatoriamente. Nestes textos fiz as seguintes mudancas:

  • removi os caracteres ‘¶’;
  • substitui «» por “”;
  • converti de Latin-1 para UTF-8

split/

os mesmos textos “raw”, mas separados em sentencas (via Freeling 4.0). Isto porque o Syntaxnet nao faz sentence split.

sytaxnet/

os textos de split/ processados pelo Syntaxnet (Parsey Universal).

Nos tres casos o nome do arquivo e’ a ID do <ext> no arquivo overblog.txt que voce enviou + extensao.

Inclui tambem os scripts e programas usados para selecionar aleatoriamente os textos, limpa-los, separar as sentencas, e rodar o Syntaxnet caso alguem tenha curiosidade.

Ja’ antecipo alguns problemas encontrados: precisaremos enfrentar o problema da formatacao dos textos do Amazonia. Veja por exemplo o texto 1431.o-dragao-punk-na-terra-do-sol.ext.txt cuja quebra de linhas nao e’ consistente com os a maioria dos outros textos (onde a quebra de linha acontece no fim do paragrafo).

Temos muitos poemas tambem, como 2500.os-significados.ext.txt e 4684.evite-procrastinar.ext.txt. Nao sei se vale a pena comparar o PALAVRAS e o Syntaxnet para estes tipo de texto.

Podemos tentar consertar casos como o 1431 acima e excluir coisas como os poemas manualmente, mas como sao mais de 4000 textos, o trabalho sera’ grande. Ou podemos deixar como esta’.