Please use this identifier to cite or link to this item:
http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913
Title: | Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca. |
Authors: | VAZ, G. J.![]() ![]() VEIGA, P. H. R. da C. da ![]() ![]() CALDAS, R. G. ![]() ![]() VIDAL, W. C. L. ![]() ![]() ASSIS, C. P. de ![]() ![]() CORREA, J. L. ![]() ![]() MOURA, M. F. ![]() ![]() |
Affiliation: | GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA. |
Date Issued: | 2023 |
Citation: | Revista Ibero-americana de Ciência da Informação, v. 16, n. 2, p. 311-328, maio/ago. 2023. |
Description: | Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários. |
NAL Thesaurus: | Information retrieval Information dissemination |
Keywords: | Curadoria digital Recuperação da informação Processamento de texto Disseminação da informação Indexação Livros digitais Digital curation Text processing Indexing Digital books |
ISSN: | 1983-5213 |
DOI: | https://doi.org/10.26512/rici.v16.n2.2023.42740 |
Type of Material: | Artigo de periódico |
Access: | openAccess |
Appears in Collections: | Artigo em periódico indexado (CNPTIA)![]() ![]() |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
AP-Tratamento-texto-2023.pdf | 812,63 kB | Adobe PDF | ![]() View/Open |