Red de Bibliotecas Virtuales de Ciencias Sociales en
América Latina y el Caribe

logo CLACSO

Por favor, use este identificador para citar o enlazar este ítem: https://biblioteca-repositorio.clacso.edu.ar/handle/CLACSO/244189
Título : Recognition of the vocabulary of popular Brazilian newspapers with a freely available computational dictionary
Reconhecimento do vocabulário de jornais populares brasileiros por um dicionário computacional de acesso livre
Palabras clave : Popular newspapers;Lexic;Vocabulary;Computational dictionary;Lexical coverage;Recognition of words;Brazilian Portuguese;Jornais populares;Léxico;Vocabulário;Dicionário computacional;Cobertura lexical;Reconhecimento de palavras;Português brasileiro
Editorial : UNESP
Descripción : We report an experiment of checking the identification of a set of words in popular Portuguese written text with two versions of a computational dictionary of Brazilian Portuguese, DELAF PB 2004 and DELAF PB 2015. This computational dictionary is freely available for use in linguistic analyses of Brazilian Portuguese and other research, which gives reasons for undertaking a critical study. The set of words comes from the PorPopular corpus, composed of popular newspapers, the Diário Gaúcho (DG) and the Bahian newspaper Massa! (MA). From DG, we studied a set of texts with 984,465 words (tokens), published in 2008, in the spelling used before the Orthographic Agreement of the Portuguese Language adopted in 2009. From MA, we examined a vocabulary of 215,776 words (tokens), from papers published in 2012, 2014 and 2015 in the new spelling. The verification involved: a) generating lists of unique words used in DG and MA; b) comparing these lists with the entry lists of the two versions of DELAF PB; c) assessing the coverage of this vocabulary; d) proposing ways of including the items not covered. The results showed that an average of 19% of the types in the DG corpus were unknown by the DELAF PB 2004 and 2015. In the MA sample, this average was 13%. The version of the dictionary impacted slightly on item recognition performance.
Relata-se um experimento de verificação da identificação de um universo de palavras do português popular escrito por duas versões de um dicionário computacional do português brasileiro (PB), DELAF PB 2004 e DELAF PB 2015. Esse dicionário computacional é gratuitamente acessível para ser utilizado em análises linguísticas do Português do Brasil e em outras pesquisas, o que justifica um estudo crítico. O universo vocabular provém do corpus PorPopular, composto por jornais populares, o Diário Gaúcho (DG) e o jornal baiano Massa! (MA). Do DG, partiu-se de um conjunto de textos com 984.465 palavras (tokens), publicados em 2008, com ortografia desatualizada frente ao Acordo Ortográfico da Língua Portuguesa adotado em 2009. Do MA, examinou-se um universo com 215.776 palavras (tokens), em publicações de 2012, 2014 e 2015, com todo o material na nova ortografia. A verificação envolveu: a) gerar listas de palavras diferentes empregadas em DG e MA; b) comparar essas listas com as listas de entradas das duas versões do DELAF PB; c) avaliar a cobertura desse vocabulário; d) propor modos de inclusão de itens não cobertos. Os resultados do trabalho mostraram, no DG, uma média de 19% de palavras diferentes (types) desconhecidas pelos DELAF PB 2004 e 2015. No MA, essa média ficou em 13%. A versão do dicionário repercutiu ligeiramente sobre o desempenho do reconhecimento de itens.
URI : https://biblioteca-repositorio.clacso.edu.ar/handle/CLACSO/244189
Otros identificadores : https://periodicos.fclar.unesp.br/alfa/article/view/11234
10.1590/1981-5794-1904-3
Aparece en las colecciones: Faculdade de Ciências e Letras-Unesp - FCL/CAr - Cosecha

Ficheros en este ítem:
No hay ficheros asociados a este ítem.


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.