Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: http://tede.ucpel.edu.br:8080/jspui/handle/tede/220
Tipo do documento: Dissertação
Título: Comportamento de Metricas de Inteligibilidade Textual em Documentos Recuperados naWeb
Título(s) alternativo(s): THE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETER
Autor: Londero, Eduardo Bauer 
Primeiro orientador: Loh, Stanley
Resumo: Textos recuperados da Internet por interm´edio de consultas ao Google e Yahoo s ao analisados segundo uma m´etrica simples de avaliac¸ ao de inteligibilidade textual. Tais m´etricas foram criadas para orientar a produc¸ ao textual e recentemente tamb´em foram empregadas em simplificadores textuais autom´aticos experimentais para leitores inexperientes. Nesse trabalho aplicam-se essas m´etricas a texto originais livres, recuperados da Internet, para buscar correlacionar o grau de inteligibilidade textual com a relev ancia que lhes ´e conferida pelos buscadores utilizados. A premissa inicial a estimular a comparac¸ ao entre inteligibilidade e relev ancia ´e o enunciado conhecido como Princ´ıpio de Occam, ou princ´ıpio da economia. Observa-se uma tend encia centralista que ocorre a partir do pequeno afastamento m´edio dos grupos de arquivos melhor colocados no ranking em relac¸ ao `a m´edia da categoria a que pertencem. ´E com a medida do afastamento m´edio que se consegue verificar correlac¸ ao com a posic¸ ao do arquivo no ranking e ´e tamb´em com essa medida que se consegue registrar diferenc¸as entre o m´etodo de calcular a relev ancia do Google e do Yahoo. Um experimento que decorre do primeiro estudo procura determinar se a medida de inteligibilidade pode ser empregada para auxiliar o usu´ario da Internet a escolher arquivos mais simples ou se a sua indicac¸ ao junto `a listagem de links recuperados ´e ´util e informativa para a escolha e navegac¸ ao do usu´ario. Em um experimento final, embasado no conhecimento previamente obtido, s ao comparadas as enciclop´edias Brit anica eWikip´edia por meio do emprego da m´etrica de inteligibilidade Flesch-Kincaid Grade Level
Abstract: Text retrieved from the Internet through Google and Yahoo queries are evaluated using Flesch-Kincaid Grade Level, a simple assessment measure of text readability. This kind of metrics were created to help writers to evaluate their text, and recently in automatic text simplification for undercapable readers. In this work we apply these metrics to documents freely retrieved from the Internet, seeking to find correlations between legibility and relevance acknowledged to then by search engines. The initial premise guiding the comparison between readability and relevance is the statement known as Occam s Principle, or Principle of Economy. This study employs Flesch-Kincaid Grade Level in text documents retrieved from the Internet through search-engines queries and correlate it with the position. It was found a centralist trend in the texts recovered. The centralist tendency mean that the average spacing of groups of files from the average of the category they belong is meaningfull. With this measure is possible to establish a correlation between relevance and legibility, and also, to detect diferences in the way both search engines derive their relevance calculation. A subsequent experiment seeks to determine whether the measure of legibility can be employed to assist him or her choosing a document combined with original search engine ranking and if it is useful as advance information for choice and user navigation. In a final experiment, based on previously obtained knowledge, a comparison between Wikipedia and Britannica encyclopedias by employing the metric of understandability Flesch-Kincaid
Palavras-chave: Recuperação de Informações Textuais
Recuperação de Informaçoes Textuais na WEB
Processamento de Linguagem Natural
Google, Yahoo, Coh-Metrix, Relevance, Readability, Information Retrieval, Natural Language Processing, Flesch-KinCaid Grade Level, Wikipedia, Britannica
Área(s) do CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: BR
Instituição: Universidade Catolica de Pelotas
Sigla da instituição: Ucpel
Departamento: Informática
Programa: Mestrado em Ciência da Computação
Citação: LONDERO, Eduardo Bauer. THE BEHAVIOR OF READABILITY METRICS IN DOCUMENTS RETRIEVED IN INTERNET AND ITS USE AS AN INFORMATION RETRIEVAL QUERY PARAMETER. 2011. 94 f. Dissertação (Mestrado em Informática) - Universidade Catolica de Pelotas, Pelotas, 2011.
Tipo de acesso: Acesso Aberto
URI: http://tede.ucpel.edu.br:8080/jspui/handle/tede/220
Data de defesa: 29-Mar-2011
Aparece nas coleções:Biblioteca Digital de Teses e Dissertações

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertacao_Eduardo_Revisado.pdf3,41 MBAdobe PDFThumbnail

Baixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.