forked from UniversalDependencies/UD_Portuguese-Bosque
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
Fabricio Rosario
committed
Oct 13, 2016
1 parent
04add9f
commit 8daa7ed
Showing
307 changed files
with
189,564 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,44 @@ | ||
#+Title: UD Portuguese Corpus for CONLL 2017 | ||
|
||
|
||
O diretório sample contém | ||
|
||
raw/ | ||
|
||
100 textos do Amazonia selecionados aleatoriamente. Nestes textos fiz | ||
as seguintes mudancas: | ||
|
||
- removi os caracteres '¶'; | ||
- substitui «» por ""; | ||
- converti de Latin-1 para UTF-8 | ||
|
||
split/ | ||
|
||
os mesmos textos "raw", mas separados em sentencas (via Freeling 4.0). | ||
Isto porque o Syntaxnet nao faz sentence split. | ||
|
||
sytaxnet/ | ||
|
||
os textos de split/ processados pelo Syntaxnet (Parsey Universal). | ||
|
||
Nos tres casos o nome do arquivo e' a ID do <ext> no arquivo | ||
overblog.txt que voce enviou + extensao. | ||
|
||
Inclui tambem os scripts e programas usados para selecionar | ||
aleatoriamente os textos, limpa-los, separar as sentencas, e rodar o | ||
Syntaxnet caso alguem tenha curiosidade. | ||
|
||
Ja' antecipo alguns problemas encontrados: precisaremos enfrentar o | ||
problema da formatacao dos textos do Amazonia. Veja por exemplo o | ||
texto 1431.o-dragao-punk-na-terra-do-sol.ext.txt cuja quebra de linhas | ||
nao e' consistente com os a maioria dos outros textos (onde a quebra | ||
de linha acontece no fim do paragrafo). | ||
|
||
Temos muitos poemas tambem, como 2500.os-significados.ext.txt e | ||
4684.evite-procrastinar.ext.txt. Nao sei se vale a pena comparar o | ||
PALAVRAS e o Syntaxnet para estes tipo de texto. | ||
|
||
Podemos tentar consertar casos como o 1431 acima e excluir coisas como | ||
os poemas manualmente, mas como sao mais de 4000 textos, o trabalho | ||
sera' grande. Ou podemos deixar como esta'. | ||
|
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1 @@ | ||
for f in sample/raw/*.ext.txt; do cat $f | sed -e 's/¶/\n/g' > /tmp/tmp && mv /tmp/tmp sample/raw/$f; done |
Large diffs are not rendered by default.
Oops, something went wrong.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,45 @@ | ||
(ql:quickload :xmls) | ||
(ql:quickload :alexandria) | ||
|
||
(defpackage :random-choice | ||
(:use :cl :alexandria)) | ||
|
||
(in-package :random-choice) | ||
|
||
;; ¶ | ||
(defparameter *overblog* | ||
(with-open-file (stream "overblog.xml") | ||
(xmls:xmlrep-children (xmls:parse stream :compress-whitespace t)))) | ||
|
||
(defparameter *exts* (make-hash-table :test #'equal)) | ||
|
||
(dolist (ext *overblog*) | ||
(let ((id (first (cdaadr ext))) | ||
(text (third ext))) | ||
(setf (gethash id *exts*) text))) | ||
|
||
(defparameter *keys* (hash-table-keys *exts*)) | ||
|
||
(defparameter *count* 100) | ||
|
||
;; http://stackoverflow.com/questions/158716/how-do-you-efficiently-generate-a-list-of-k-non-repeating-integers-between-0-and | ||
|
||
(defun sample (n sequence) | ||
(let ((length (length sequence)) | ||
(result (subseq sequence 0 n))) | ||
(loop | ||
with m = 0 | ||
for i from 0 and u = (random 1.0) | ||
do (when (< (* (- length i) u) | ||
(- n m)) | ||
(setf (elt result m) (elt sequence i)) | ||
(incf m)) | ||
until (= m n)) | ||
result)) | ||
|
||
(defun save-key (k) | ||
(with-open-file (stream (format nil "~a.ext.txt" k) :direction :output) | ||
(format stream (gethash k *exts*)))) | ||
|
||
(mapc (lambda (k) (save-key k)) (sample *count* *keys*)) | ||
|
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,3 @@ | ||
SYNTAXNET=~/repos/syntaxnet | ||
|
||
cat $1 | $SYNTAXNET/models/syntaxnet/syntaxnet/models/parsey_universal/tokenize.sh $SYNTAXNET/models/syntaxnet/Portuguese | $SYNTAXNET/models/syntaxnet/syntaxnet/models/parsey_universal/parse.sh $SYNTAXNET/models/syntaxnet/Portuguese |
7 changes: 7 additions & 0 deletions
7
staging/sample/raw/1022.pesquisa-da-usp-mapeia-cultura-livre-em-sao-paulo.ext.txt
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,7 @@ | ||
Uma pesquisa que está sendo realizada na Universidade de São Paulo tenta mapear as práticas de cultura livre na cidade de São Paulo. A pesquisa quer descobrir quem são os grupos e indivíduos que realizam atividades criativas que se encaixariam no conceito de cultura livre. A pesquisa também quer descobrir qual é o entendimento de cultura livre dos grupos, assim como os tipos de licença que utilizam. A pesquisadora Jhessica Reia, responsável pelo trabalho, está disponibilizando um questionário online com as perguntas da pesquisa até o dia 30 de outubro. O questionário se encontra no site www.gpopai.usp.br/pesquisacl e pode ser respondido por qualquer ator cultural da cidade. | ||
|
||
O termo cultura livre, que pauta a pesquisa, foi sugerido inicialmente por Lawrence Lessig no livro de mesmo nome lançado nos Estados Unidos no ano de 2004 (no Brasil foi lançado em 2005, pela Trama). Lessig se refere às práticas culturais cujas obras são disponibilizadas por licenças alternativas que permitem a livre reprodução e distribuição, podendo restringir o uso comercial e a criação de trabalhos derivados. Lessig buscou inspiração no movimento do Software Livre, criado na década de 1980 por Richard Stallman para permitir a livre execução, reprodução e modificação de programas de computador. Ele transpôs os princípios do Software Livre para outras práticas culturais com a criação da Creative Commons, uma ONG que oferece ao público um conjunto de licenças de direito autoral que permitem que os criadores autorizem o livre uso e reprodução das suas obras. | ||
|
||
A pesquisa da USP quer ver os efeitos do Software Livre, do Creative Commons e de outras iniciativas semelhantes na cultura paulistana. A pesquisa já indentificou mais de 200 manifestações que se aproximam do conceito de cultura livre, de grupos de programadores, até artistas plásticos, músicos e escritores. Este mapeamento da comunidade de cultura livre da cidade será depois disponibilizado na Internet para que todos tenham acesso aos resultados. | ||
|
||
Contato: Jhessica Reia, telefone 2646-7484/ 8644-3938, e-mail: [email protected] |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,15 @@ | ||
Você assiste a um telejornal e no momento em que aparece uma determinada pessoa na tela - um ministro, por exemplo - você clica nele. O telejornal congela e outro vídeo surge na tela, mostrando a biografia daquela pessoa. Quando termina de assistir, continua vendo o resto do jornal. Mais: você gostou da roupa usada pela apresentadora. Clica na roupa dela e acessa dados como preço, tamanho disponível, cores possíveis e onde comprar. Aliás, se quiser comprar na hora, é só clicar em outro botão, passar seus dados e esperar para receber em casa. | ||
|
||
Não se trata do amanhã, mas do ontem. A experiência da navegação em vídeo já era possível há algum tempo. No início de 2006 uma campanha de marketing da marca francesa de roupas Shaïwear lançou na rede vídeos que rapidamente se espalharam e foram baixados por 1 milhão de pessoas. Os vídeos foram muito comentados por dois aspectos: primeiro, eram vídeos de sexo explícito, produzidos por Marc Dorcel . | ||
|
||
Além disso, usavam, paralelamente, a tecnologia flash para que o espectador pudesse, ao clicar em cada peça de roupa que ia sendo tirada pelos modelos, parar o vídeo e ter mais informações sobre o produto. Inclusive preço, cores, onde e como comprar. Infelizmente, a campanha já saiu do ar e não acho o vídeo que eu tinha feito download para mostrar. Achei só umas imagens. Era muito, mas muuito bacana. Inclusive, houve quem falasse já em TV interativa . | ||
|
||
Um ano depois, tentamos algo semelhante na Agência Brasil - sem o sexo explícito, claro. Chamamos de reportagem especial multímidia Consumo Consciente . São cinco vídeos que tratam do assunto, e em cada um deles, em vários momentos, é possível interagir com a tela. Ao clicar em algumas imagens que aparecem, abrem-se outros vídeos, ou textos, relacionados ao assunto tratado naquele momento. É o mesmo conceito do hiperlink, ou hipertexto, aplicado ao vídeo. Pode-se chamar também de hipervídeo. O blog da Yasodara , a artista do projeto, mostra bem como foi desenvolvido. | ||
|
||
A possibilidade que se abre para o jornalismo na rede, ou futuramente na TV, é contar uma história curta, mas com profundidade, caso o telespectador se interesse por ela. Em três minutos pode-se apresentar a história principal, mas em cada momento, caso o telespectador queira, pode interromper a narrativa e abrir outra janela de conteúdo. Pode navegar entre os conteúdos livremente, assistindo ao programa da maneira como preferir, construindo, inclusive, sua própria narrativa da história, de maneira não-linear. | ||
|
||
Gostamos da experiência, devemos tentar novos vôos daqui em diante. Quem sabe - por que não? -, com sexo explícito. | ||
|
||
www.andredeak.com.br | ||
|
||
PS: O Overmundo foi, de certa forma, coadjuvante na construção do especial Consumo Consciente. A música Da Pesada, postada aqui, foi usada no fundo do menu interativo. Todo o especial, assim como a música, são licenciados em Creative Commons. |
19 changes: 19 additions & 0 deletions
19
staging/sample/raw/1120.por-que-mataram-o-musico-negro-lucky-dube.ext.txt
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,19 @@ | ||
Quem poderia me responder, por que os grandes revolucionários não duram muito tempo no planeta terra? | ||
|
||
Outra pergunta, qual o papel da arte no mundo? | ||
|
||
Vejam, foi assim que li ontem a nóticia no jornal A tarde Online de Salvador: | ||
|
||
O astro do reggae Lucky Dube foi morto a tiros nesta quinta-feira, 18, em Johannesburgo, na África do Sul. Segundo informações do site da BBC, o cantor sul-africano, que tinha 43 anos, foi vítima de uma tentativa de assalto e alvejado pelos ladrões que tentaram levar seu carro, da marca Chrysler. Ele foi morto por volta das 20h (horário local, 17h em Salvador) logo após deixar seu filho, que viu tudo e chamou a polícia. | ||
|
||
É preciso reflitir novamente na violência que está espalhada no mundo, principalmente nos países pobres.O grande músico Bob Marley já cantava África une-te! Dessa vez, o grande músico Lucky Dub foi vítima por questões políticas, algo sempre presente por aqueles que se sentem o poder,os donos do sistemas e super héróis do inferno. | ||
|
||
Como diz Lauren Hill: Alimente os pobres e desarme o mundo! | ||
|
||
Tiraram a vida de um grande artista, que fazia o povo sorrir,dançar,cantar e acreditar no novo amanhã. | ||
|
||
Nos meus efêmeros domingos lembarei de suas canções. | ||
|
||
Um grande salve ao músico negro/africano Lucky Dube. Que sua alma esteja em um bom lugar. | ||
|
||
Um axé da Bahia a todos que acreditam na revolução através da arte! |
27 changes: 27 additions & 0 deletions
27
staging/sample/raw/1225.impar-na-not-lame-power-pop-brasileiro-nos-eua.ext.txt
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,27 @@ | ||
O IMPAR é a primeira banda brasileira a ter um trabalho vendido pelo selo norte-americano Not Lame , o maior selo de Power Pop do mundo. O disco EP 2006 entrou no site deles no dia 7 de março de 2007, com direito a destaque na primeira página e resenha escrita pelo respeitado Bruce Brodeen, dono do selo que abriga artistas como The Shazam e Michael Carpenter. | ||
|
||
O IMPAR é uma banda de Power Pop contemporâneo formada em Belo Horizonte no final de 2004. Sua proposta é combinar a energia do Rock e a acessibilidade do Pop em canções diretas, guiadas pela melodia vocal e com arranjos bem elaborados. | ||
|
||
A intenção de Marcelo Mercedo (voz e guitarra) era juntar um grupo que pudesse reproduzir "ao vivo" as músicas que vinha compondo e gravando em sua casa. Para isso, foram convidados os amigos músicos Bruno Faria (bateria), Yan Vasconcellos (baixo e voz) e Marcos Rosa (guitarra e voz). | ||
|
||
As influências vão de clássicos como Beach Boys e Beatles até artistas menos conhecidos como Jason Falkner e Jon Brion. | ||
|
||
A banda já lançou um EP , três videoclipes e se apresentou nos principais espaços da cena alternativa independente no Brasil. | ||
|
||
O EP foi destaque, entre outros veículos, nas revista Bizz e MTV, nos jornais Estado de Minas e Diário do Pará e nos sites Trama Virtual e BScene. | ||
|
||
O primeiro clipe (A+B) entrou na programação da MTV e venceu o Prêmio London Burning 2005. | ||
|
||
O segundo (Melhor Aqui) foi indicado a melhor vídeo do ano na edição 2006 do mesmo prêmio e no canal Multishow, da TV Globo. | ||
|
||
Os shows passaram por Minas Gerais, São Paulo, Rio de Janeiro, Paraná, Brasília, Goiânia e Natal. | ||
|
||
Em Natal, a banda foi a convite do Festival MADA, em sua edição de 2006. | ||
|
||
O trabalho está sendo bem aceito fora do país também. | ||
|
||
A banda anda recebendo boas resenhas da mídia especializada na Espanha e nos Estados Unidos. | ||
|
||
As canções estão sendo tocadas em rádios espanholas como Onda Madrid. | ||
|
||
E depois de sua parceria com o selo Not Lame, o IMPAR foi convidado se apresentar na edição 2007 do IPO International Pop Overtrhown , tradicional festival de Power Pop que acontece há oito anos em Los Angeles, California. |
17 changes: 17 additions & 0 deletions
17
staging/sample/raw/1277.divagando-pela-consciencia.ext.txt
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,17 @@ | ||
O sim pelo não. O não pelo sim. Assim eu prefiro: tudo subvertido. Para o senso comum, que não entende as entrelinhas, mais pareço uma aberração. Minhas idéias e concepções a despeito da sociedade em que vivo não coincidem com as de pessoas que vivem uma vida ao sabor do acaso -- não tão acaso assim -- da decisão alheia sobre o que é certo ou errado. Eu prefiro caminhar com minhas pernas, guiadas por minhas escolhas pessoais, agüentando firme a conseqüência de minha opção. Fujo do caminho tradicional, abrindo a golpes de facão uma nova trilha em meio a consciência da humanidade. Ignoro os caminhos deixados no chão. Essas trilhas são seguras demais pra mim. Aliás, eu prefiro caminhos sem chão, sem noção de espaço, sem noção de tempo. Odeio a pressa sem sentido da cidade. | ||
|
||
Onde as pessoas geralmente encontram a certeza eu só vejo dúvida. O que as torna feliz, me entedia. Onde normalmente procuram proteção eu sinto solidão. Suas respostas surgem como fonte dos meus maiores questionamentos. Mas essa vontade que as pessoas têm de ser mais do mesmo, de seguir tradições, também não é problema, apesar de não servir como solução para os meus problemas. A escolha de parâmetros para a vida deve ser pessoal e não cabe a ninguém julgar tais preferências. Deve-se viver e deixar viver. Ser e deixar ser. Esse é o fato que me impulsiona a buscar o diferente, o não convencional e os conseqüentes desafios que suscitam. Com a liberdade que todos podem usufruir. | ||
|
||
Quando descubro novas alamedas, por mais tortuosos que pareçam esses caminhos, eu me sinto mais íntimo de mim mesmo. Algo auto-afirmativo, às vezes doloroso, mas sempre recompensador. As diferenças entre eu e os outros fortalecem o meu eu. É como se eu estivesse lapidando minha alma, manufaturando um diamante do mais alto valor. Não esse valor monetário que estimula a concorrência ambiciosa, fetichista dos gananciosos miseráveis. Trata-se de um outro valor, muito mais significativo e enriquecedor, escondido nas pequenas coisas da vida, na satisfação dos gostos pessoais. Como aquela que sinto ao admirar as verdadeiras obras de arte, expressões tão claras da alma humana. Cada nova abstração, cada sensação, cada interpretação, cada descoberta afinal. | ||
|
||
São milhões e milhões de opções espalhadas em cada alma ao redor do planeta e, apesar dos códigos comuns da linguagem humana, cada alma é uma. E só uma. Cada ser humano é um universo isolado dentro de si. Por outro lado o contato social direto possibilita novas descobertas com a transmissão de impressões e concepções, que cada indivíduo acumula dentro de si, adaptando-as a seu próprio entendimento e logo as retransmitindo com um novo formato. Entender e aceitar essas diferenças e o que elas somam a nossa alma é o fator essencial do espírito coletivo e social humano. A chave de uma vida mais justa para todos. E esse reconhecimento é que possibilita a criação de laços entre grupos. E a formação de grupos é primordial para a busca do espaço a que todos têm direito desde seu nascimento. | ||
|
||
Contudo, vejo que a verdade não está na palavra, instrumento de interligação entre indivíduos. A verdade está no corpo biológico, nas vísceras. As palavras causam medo, geralmente mentem, distorcem e não são suficientes para refletir toda a substância da alma, dos sentimentos. Eu prefiro as mensagens misteriosas escondidas atrás das pupilas, esses buracos negros, caminhos intransponíveis para dentro desses diferentes universos. O calor do corpo. O odor. As vibrações do coração, ora lentos e sensíveis, ora arrebatadores. Assim como a respiração, o ar que toma os pulmões e volta pra atmosfera, a sensação de pertencer a natureza. A massa trêmula de prazer, de medo, de alegria. A ansiedade que esmaga o estômago. O âmago. As entranhas. Nas reações naturais do corpo está a verdade do ser, que ao mesmo tempo carrega o mistério maior, a pulga atrás da orelha da razão humana. E não há como desvendar esse mistério gerador da incerteza, tão boa de sentir. Geradora dos mitos! As reflexões despertadas pela dúvida sobre a dádiva. | ||
|
||
Nasce a confusão mental provocada pelas idéias racionais humanas e suas mais variadas concepções, desde as mais autoritárias, fascistas, que tentam impor verdades padronizadas até as mais libertadoras e tolerantes. A viagem do pensamento bombardeado por disputas ideológicas, imagens, sons, lembranças, esperanças, propagandas. Não há como existir paz no meio de tantas perspectivas bloqueadas pela concentração do conhecimento, a manutenção da ignorância. O saber parece não ter força para pular os muros das Universidades (Universidades?). O pensamento não deve ser limitado, delimitado, padronizado. | ||
|
||
As alternativas pessoais, que não têm como objetivo prejudicar os semelhantes, mas apenas a própria satisfação e o prazer, não podem ser classificados como certo ou errado. Falta reflexão sobre o conhecimento e as possibilidades revolucionárias esmagadas pela ignorância dos falsos intelectuais, pop stars que vivem no interior da Academia, necessitados de reconhecimento inútil. Falsos comunistas, falsos socialistas, falsos liberais! As ideologias que sustentam essas utopias aparentam ser as maiores mentiras já inventadas pela razão humana em nome e a serviço da busca e manutenção do poder. Ninguém pode mais que ninguém! Na verdade uns mentem mais que outros, apoiados por suas próprias verdades ignorantes e miseráveis. | ||
|
||
Os homens ainda vão entender que não são mais que manifestações da vida da terra. Que todo o alimento vem da terra. Que tudo que ingerimos volta pra terra. Que todos os seres vivos vem da terra e voltarão pra terra. Mesmo que as mãos e as habilidades humanas modifiquem quase tudo que tocam, tudo vem da terra. Essa que nos cospe e depois nos suga. Da terra nos alimentamos e dela somos o alimento. A energia não pára em nós. A energia passa por nós. Por isso, ainda serão os homens capazes de entender que não há necessidade de escravidão, de trapaça, de mentira. O verdadeiro conhecimento que liberta deve estar disponível a todos, sem exceção. | ||
|
||
Leonardo André é estudante da Escola de Sociologia e Política de São Paulo e colaborador do Pula o Muro . |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1 @@ | ||
Hoje eu ri, chorei, me emocionei, fiquei cansada, fiquei triste, fiquei feliz de novo, fiquei tranquila e continuo cansada...nossa que sábado! |
Oops, something went wrong.