Construção de um Corpus etiquetado morfologicamente do português não padrão

Autores

  • Paulo H. dos Santos
  • Lucas L. Cunha
  • Caroline S. R. Rauta
  • Andrei de S. Inácio

Resumo

Resumo. Um corpus linguístico facilita os estudos sobre a língua, já que possibilita ao pesquisador acesso a um grande volume de dados. Esse trabalho descreve o desenvolvimento de um corpus etiquetado morfologicamente do português brasileiro não padrão. Atualmente, o corpus possui cerca de 5 milhões de palavras etiquetadas morfologicamente e pretende-se na próxima etapa avaliar essa ferramenta junto a especialistas da área.
Abstract. A linguistic corpus helps researchers, since it allows them access to a vast amount of data. This work describes the development of morphologically labeled corpus of non-standard Brazilian Portuguese. Currently, the corpus has about 5 million morphologically labeled words and we plan to evaluate this tool with specialists in the linguistic area as a future work.
Palavras-chave: Corpus, Etiquetador, Processamento de Linguagem Natural.

Downloads

Publicado

2018-11-20

Edição

Seção

Poster