Repositorio Dspace

Recognition of the vocabulary of popular Brazilian newspapers with a freely available computational dictionary

Mostrar el registro sencillo del ítem

dc.creator Finatto, Maria José Bocorny
dc.creator Vale, Oto Araújo
dc.creator Laporte, Éric
dc.date 2019-04-15
dc.date.accessioned 2023-03-28T19:51:55Z
dc.date.available 2023-03-28T19:51:55Z
dc.identifier https://periodicos.fclar.unesp.br/alfa/article/view/11234
dc.identifier 10.1590/1981-5794-1904-3
dc.identifier.uri https://biblioteca-repositorio.clacso.edu.ar/handle/CLACSO/244189
dc.description We report an experiment of checking the identification of a set of words in popular Portuguese written text with two versions of a computational dictionary of Brazilian Portuguese, DELAF PB 2004 and DELAF PB 2015. This computational dictionary is freely available for use in linguistic analyses of Brazilian Portuguese and other research, which gives reasons for undertaking a critical study. The set of words comes from the PorPopular corpus, composed of popular newspapers, the Diário Gaúcho (DG) and the Bahian newspaper Massa! (MA). From DG, we studied a set of texts with 984,465 words (tokens), published in 2008, in the spelling used before the Orthographic Agreement of the Portuguese Language adopted in 2009. From MA, we examined a vocabulary of 215,776 words (tokens), from papers published in 2012, 2014 and 2015 in the new spelling. The verification involved: a) generating lists of unique words used in DG and MA; b) comparing these lists with the entry lists of the two versions of DELAF PB; c) assessing the coverage of this vocabulary; d) proposing ways of including the items not covered. The results showed that an average of 19% of the types in the DG corpus were unknown by the DELAF PB 2004 and 2015. In the MA sample, this average was 13%. The version of the dictionary impacted slightly on item recognition performance. en-US
dc.description Relata-se um experimento de verificação da identificação de um universo de palavras do português popular escrito por duas versões de um dicionário computacional do português brasileiro (PB), DELAF PB 2004 e DELAF PB 2015. Esse dicionário computacional é gratuitamente acessível para ser utilizado em análises linguísticas do Português do Brasil e em outras pesquisas, o que justifica um estudo crítico. O universo vocabular provém do corpus PorPopular, composto por jornais populares, o Diário Gaúcho (DG) e o jornal baiano Massa! (MA). Do DG, partiu-se de um conjunto de textos com 984.465 palavras (tokens), publicados em 2008, com ortografia desatualizada frente ao Acordo Ortográfico da Língua Portuguesa adotado em 2009. Do MA, examinou-se um universo com 215.776 palavras (tokens), em publicações de 2012, 2014 e 2015, com todo o material na nova ortografia. A verificação envolveu: a) gerar listas de palavras diferentes empregadas em DG e MA; b) comparar essas listas com as listas de entradas das duas versões do DELAF PB; c) avaliar a cobertura desse vocabulário; d) propor modos de inclusão de itens não cobertos. Os resultados do trabalho mostraram, no DG, uma média de 19% de palavras diferentes (types) desconhecidas pelos DELAF PB 2004 e 2015. No MA, essa média ficou em 13%. A versão do dicionário repercutiu ligeiramente sobre o desempenho do reconhecimento de itens. pt-BR
dc.format application/pdf
dc.format application/pdf
dc.language por
dc.language eng
dc.publisher UNESP pt-BR
dc.relation https://periodicos.fclar.unesp.br/alfa/article/view/11234/8182
dc.relation https://periodicos.fclar.unesp.br/alfa/article/view/11234/8178
dc.rights Copyright (c) 2019 ALFA: Revista de Linguística pt-BR
dc.source ALFA: Revista de Linguística; v. 63 n. 1 (2019) pt-BR
dc.source 1981-5794
dc.subject Popular newspapers en-US
dc.subject Lexic en-US
dc.subject Vocabulary en-US
dc.subject Computational dictionary en-US
dc.subject Lexical coverage en-US
dc.subject Recognition of words en-US
dc.subject Brazilian Portuguese en-US
dc.subject Jornais populares pt-BR
dc.subject Léxico pt-BR
dc.subject Vocabulário pt-BR
dc.subject Dicionário computacional pt-BR
dc.subject Cobertura lexical pt-BR
dc.subject Reconhecimento de palavras pt-BR
dc.subject Português brasileiro pt-BR
dc.title Recognition of the vocabulary of popular Brazilian newspapers with a freely available computational dictionary en-US
dc.title Reconhecimento do vocabulário de jornais populares brasileiros por um dicionário computacional de acesso livre pt-BR
dc.type info:eu-repo/semantics/article
dc.type info:eu-repo/semantics/publishedVersion


Ficheros en el ítem

Ficheros Tamaño Formato Ver

No hay ficheros asociados a este ítem.

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Buscar en DSpace


Búsqueda avanzada

Listar

Mi cuenta