Skip to content

Latest commit

 

History

History
67 lines (46 loc) · 2.44 KB

README.md

File metadata and controls

67 lines (46 loc) · 2.44 KB

Jessie, a case of study

Jessie was developed as a tool to help students and data analists from Brasil that want to process data from Twitter. It is meant to work as a step by step guide to the use of NLTK to tag tweet text.

In this source repository you will find a guideline in Portuguese (I intend to add English translations later) to the steps I used in my course final project.

Identificação de entidades mencionadas para análise de sentimentos em microblogs


Discente: Jessica Caroline Alves Nunes Temporal Número USP: 7547611 [email protected]

Orientador: Evandro Eduardo Seron Ruiz [email protected]

Co-Orientador: Mateus Tarcinalli Machado [email protected]


Tese de Conclusão de Curso

O meu TCC pode ser encontrado aqui.

E os slides da minha apresetaço estão aqui.

Pipeline de processamento

A pipeline segue os seguintes passos:

  • Preparar o seu ambiente
  • Buscar dados no servidor da faculdade e armazená-los localmente
  • Pré-processar esses dados
  • POS-Tagging
  • Anotar as frequências de termos candidatos usando o algoritmo FREQ Baseline
  • Anotar as frequências de termos candidatos usando o algoritmo de Hu e Liu

Como Usar

Cada script dentro do módulo Jessie, pode ser importado a partir do console Python. Cada script possui dois arquivos markdown. O primeiro deles traz as informações sobre como aquele script funciona e qual o resultado esperado ao fim dele. E o segundo, traz informações sobre como funciona o código escrito naquele script. Assim você poderá também entender o que cada função e cada objeto faz.

Como mencionado anteriormente, o primeiro passo é preparar o seu ambiente. Vá para o markdown configuration, e siga os passos descritos lá =)

Dúvidas, sugestões, discussões e contribuições

O canal oficial para issues, dúvidas e sugestões são o sistema de issues aqui desta plataforma.

Contribuições

Caso queira contribuir, faça um fork do projeto e depois um pull request. Se tiver dúvidas quanto à isso, pode abrir uma issue que ficarei feliz em ajudar =)

Eventualmente o projeto será integrado com uma ferramenta de CI e um dos checkpoints será o falke8, então fique atento a isso para agilizar o processo de aceitar PRs.