Usted está aquí: Inicio Ingeniería Informática Recuperación y Acceso a la Información Material de clase

Material de clase

Acciones de Documento
  • Marcadores (bookmarks)
Autor: (course_default)
MC-F-001.2. Fundamentos de la Recuperación en Internet
En este primer módulo veremos conceptos básicos de recuperación documental en la Web. La Web es actualmente el principal medio de recuperación de información, si bien los principios que se pueden ver en la misma son aplicables en cualquier red. La Web no obstante presenta unas características especiales: obsolescencia de localización y contenido, alto grado de repetición de contenidos, público y contenidos heterogéneos, sitios inseguros, etc. Inicialmente nos centraremos en los distintos tipos de buscadores Web y su tipología. Todos los tipos de buscadores mencionados tienen una aplicación actual, si bien algunos como los directorios tuvieron su apogeo en los años 90. El interés de utilizar un buscador u otro depende básicamente de la importancia testimonial del documento, de su naturaleza única y de la audiencia a la que va dirigido. La Web más ampliamente utilizada tiene, no obstante, deficiencias. No todos los contenidos son accesibles por los buscadores, por lo que se han desarrollado buscadores especiales. Así veremos los buscadores especializados en contenido multimedia. Estos buscadores por su naturaleza no están adaptados a los buscadores tradicionales. Tampoco lo está la llamada web invisible. Es decir recursos que, por estar tras un formulario o por no tener texto, no pueden ser accedidos automáticamente por una aplicación. En este caso también existen estrategias y buscadores especializados en estos contenidos. La Web también evoluciona hacía una mayor capacidad semántica, una importancia creciente de los datos sobre los documentos, importancia de la personalización y la ubicuidad. En el futuro, estos desarrollos darán lugar a una Web no basada en páginas web solamente.
MC-F-002.2. Posicionamiento y Optimización Web
En un curso en el que el acceso a la información es una pieza central, el posicionamiento web presenta una ilustración palpable de los mecanismos que entran en juego en los sistemas de recuperación. La optimización web consiste en una serie de estrategias para poner en valor el contenido de nuestra página web o red social accesible para los buscadores y usuarios. Si una página se posiciona mejor, esto es si es mostrada como más relevante por los motores de búsqueda, tendremos más lectores y una mayor difusión. En el curso se han dividido estos factores de mejora de posicionamiento en factores directos e indirectos. Los directos son los que supuestamente son considerados por el buscador directamente. Los indirectos son aquellos que, al aumentar la accesibilidad, aumentan el tráfico de la página y por ende el posicionamiento. Hay que tener en cuenta que muchos de los factores directos son dependientes del tráfico de la página, bien porque aumenten la posibilidad de tener más enlaces o porque permitan optimizar los términos de consulta por los que los usuarios acceden al sitio. Entre los factores indirectos se mostrarán estrategias para mejora de la redacción y el contenido, la legibilidad, la interoperabilidad, la credibilidad, la usabilidad y la accesibilidad. Por último, existen factores de penalización. Responden a una eliminación de algunos resultados por los motores de búsqueda, para evitar la manipulación de su algoritmo de posicionamiento. Para ayudar al análisis de estos factores existen herramientas específicas, denominadas SEO. Se analizarán los tipos y herramientas principales para el análisis. Por último, se mostrarán ejemplos de lo que supone un buen y un mal diseño. Se propone un ejercicio consistente en diseñar una página con el objetivo de conseguir el mejor posicionamiento posible en Google. Su corrección depende del posicionamiento recibido por este buscador y por la presencia de los factores mencionados en la literatura.
MC-F-006.2. Modelos de Recuperación
Los modelos de recuperación de información son fundamentales para calcular la similitud y grado de relevancia entre la consulta y los documentos que están en el repositorio. Los modelos clásicos son: el modelo booleano, el vectorial y el probabilístico. Se han propuesto numerosas mejoras a estos modelos, con algoritmos. Desde la inteligencia artificial a las mejoras propuestas para la Web. A lo largo del tema se muestran alternativas en la aplicación de estos algoritmos, estas alternativas tratan de mostrar cómo, dependiendo del caso, se pueden aplicar estos algoritmos con ligeras modificaciones. En este tema también se examinan diversos métodos para determinar el peso de los términos, tanto de la consulta como del documento, a la hora de aplicar el modelo. Hay que tener en mente que no todos los términos de la consulta o del documento tienen el mismo poder discriminante, a la hora de determinar cuál debe ser el documento más relevante a la necesidad de información. Por último, se muestran algunos de los problemas comunes a estos algoritmos y se facilita un ejercicio para que el alumno se familiarice con su aplicación.
MC-F-003.2. Sistemas de Recuperación de Información: Crawlers
Los motores de recuperación constituyen los principales sistemas de recuperación en la Web. En este tema se verá la arquitectura básica de un motor de recuperación en la Web. Concretamente, el tema se centra en los Crawlers o arañas. Un crawler en una aplicación diseñada para visitar recursivamente la Web. Los crawler se diseñan para visitar hiperenlaces de forma sistemática, de forma eficiente e, idealmente, aplicando una política de acceso respetuosa con los deseos de los propietarios de los sitios web. Se muestran, además, distintos conceptos básicos relacionados con los crawlers. Como los ficheros robots.txt y sitemaps.txt. El crawler es el paso previo al almacenamiento de la información. Esto se realiza, típicamente, descargando el texto y metadatos de la página y almacenándolos en una base de datos, para su posterior consulta. Finalmente, se facilitan enlaces, en distintos lenguajes de programación, para implementar un motor de recuperación.
MC-F-007.2. Evaluación en Recuperación de Información
Toda implementación debe ser validada para comprobar la eficacia del diseño. En este tema se revisarán las principales métricas aplicadas a los sistemas de información para comprobar su idoneidad. El marco para validar los sistemas de recuperación de información más popular ha sido el paradigma Cranfield. Básicamente, se trata de un conjunto de consultas que se comparan con un conjunto predefinido de documentos, y manualmente se establece la relevancia entre ambos. Hasta la aparición de las competiciones TREC, este fue el principal marco de evaluación de sistemas de recuperación. El paradigma Cranfield se basaba en pocos resultados, con una relevancia independiente del usuario y del tiempo. Las métricas aplicadas también estaban basadas inicialmente en un modelo simple. Estás métricas con el tiempo fueron teniendo en cuenta otros factores como: grado de relevancia (no tan solo de forma binaria), teniendo en cuenta el orden en que los documentos se recuperan y el grado en que la relevancia altera la relevancia conforme consulta documentos. El paradigma Cranfield presenta el problema de su adecuación a Internet. En Internet la relevancia de cada uno de los documentos no es factible, ni siquiera la aplicación de algunas medidas clásicas como la recall. Por último, se verán las medidas utilizadas en las competiciones TREC y posteriores marcos de evaluación.
MC-F-008.2. Técnicas de Procesamiento del Lenguaje Natural en Sistemas de Recuperación
El procesamiento del Lenguaje Natural (PLN) permite mejorar la precisión de la recuperación de información. Se debe tener en mente que, en la mayoría de los buscadores, las consultas son vistas como un conjunto de cadenas de texto que deben coincidir, en el mayor grado posible, con las cadenas de texto de un documento para ser este considerado relevante. El análisis del lenguaje permite mejoras a este sistema, ya que se puede reconocer la categoría gramatical de los términos de la consulta o documento (p.e. no es lo mismo Camino, como verbo, sustantivo o como nombre propio). Además las reglas de flexión, tanto de género como de número, pueden ser aplicadas de forma más pertinente si se tiene en cuenta la categoría gramatical. Una aplicación de determinar la categoría gramatical, es la posibilidad de dar menos peso (o ninguno) a las palabras vacías. Una palabra vacía es un término que tiene menor poder discriminante que otros. Por ejemplo, un sustantivo tiene generalmente mayor poder discriminante que un determinante o una preposición (así “sobre” como sustantivo es más discriminante que como preposición, aunque obviamente depende de la consulta). Al igual que ocurre con la categoría gramatical se puede extender el razonamiento a fragmentos más complejos del texto. Reconociendo frases, patrones u oraciones, o resolviendo las anáforas y otros referentes entre sentencias. Por último se analizan algunas aplicaciones software de procesamiento del lenguaje natural, junto con comparativas de su aplicación. También se muestra una herramienta de minería de datos, con el fin de poder aplicarlo para estimar el peso de los términos en casos concretos.
MC-F-009.2. Extracción de la Información
Durante los últimos treinta años, la extracción de información, se ha convertido en una de las principales áreas de investigación en el área de la gestión de la información. A diferencia de la recuperación de información tradicional, en la que el objetivo es recuperar un documento que sea relevante a la respuesta de una pregunta dada. La extracción de información trata de obtener la respuesta directamente de los documentos. Los datos no tienen por qué estar escritos, solamente, en lenguaje natural, sino que podrían estar en metadatos, tablas u otro soporte. Puesto como ejemplo, a la pregunta quién escribió El Quijote, un sistema tradicional devolvería documentos que son relevantes para saber la autoría de la obra, un sistema de extracción debería responder solamente “Miguel de Cervantes”. Y asi, una tarea típica, sería rellenar un formulario asociado a un documento, cuyos campos puedan ser, por ejemplo, autor, título y fecha de edición. Dado el bajo rendimiento que tenían estos sistemas en los primeros años, se decidió reducir el tipo de consultas a las que se podía dar respuesta. Básicamente, estos tipos básicos fueron responder al Quién (quién es el autor o entidad responsable del dato o qué personas o entidades se mencionan en relación a un evento), Dónde (qué lugares o emplazamientos son mencionados en relación a un evento o un dato) o Cuando (qué fechas o marcadores temporales se mencionan). Además, se incluyen algunos Qué, en relación a qué tema o artefacto se menciona en cierto tipo de documentos. Para todas estas tareas reducir la ambigüedad propia del lenguaje natural es un objetivo. Los elementos por los que se recupera suelen estar representados por una denominación con un bajo grado de ambigüedad. A estos elementos se les ha denominado “nombre de entidades”, “entidades nombradas” o “named entities”. Estas entidades son habitualmente nombres propios, es decir la designación no ambigua de una persona en el lenguaje natural suele hacerse con su nombre y apellidos, ya que utilizar en una conversación habitual el número de identificador no es práctico. Un problema asociado sería la designación múltiple de la misma entidad: “M. de Cervantes”, “Cervantes” o “Cervantes Saavedra, M.” Una vez se identifican estas entidades, la siguiente tarea es encontrar relaciones entre las mismas. Por ejemplo, <entidad: Miguel de Cervantes><fue_el_autor_de_la_novela><entidad: El Quijote>. Asi entre las dos entidades podemos determinar que existe una relación de autoría. Por supuesto el lenguaje tiene problemas adicionales debido a su ambigüedad, por ejemplo, uso de sinónimos, términos polisémicos, pronombres o anáforas de todo tipo. Este es uno de los motivos por los que estos sistemas utilizan tanto análisis del lenguaje (PLN) como tesauros y ontologías. La técnica fundamental para extraer la información es detectar patrones. Esto es identificar una secuencia de términos o categorías gramaticales que asocian entidades, p.e. <fue_el_autor_de_la_novela> se podría interpretar como una asociación de tipo “autoría”. Puede haber elementos opcionales, p.e. <fue_el_autor_de > conduce a la misma relación. Para estimar la relevancia de estos patrones se suele utilizar una carga variable de etiquetado a mano, con el fin de aprender. Y otra carga variable de aprendizaje estadístico, con el fin de detectar los patrones relevantes. Sobre el resultado se estimará el ruido y silencio, vistos en anteriores temas. Como sistema para comparar la eficacia de los sistemas se establecieron competiciones, esto es, foros en los que se proponen un conjunto de tareas para ejecutar sobre un conjunto de documentos y comparar la eficacia con unas métricas predefinidas.
MC-F-010.2. Realimentación y expansión de consultas
Como los temas anteriores, de extracción de información y PLN, este tema propone mejoras aplicables a los sistemas de recuperación de información. En concreto el tema analiza dos enfoques. El primero es realimentación de consultas (“relevance feedback”). Este sistema trata de que el usuario indique los documentos que, a su juicio, son más relevantes para responder una pregunta dada. Con esta información se volvería a ejecutar la pregunta, dando más importancia a los términos de los documentos relevantes, y menos a los de los documentos irrelevantes. El siguiente enfoque trata de mejorar, previamente, la formulación de la consulta por parte del usuario. Esto se puede hacer bien eliminando posibles errores gramaticales, o buscando sinónimos y términos asociados en vocabularios especializados. Estos vocabularios especializados suelen tener un componente muy destacado de representación semántica. Los más populares son los tesauros. Un sistema que junto al término, muestra sinónimos, términos más específicos o genéricos, y términos con una semántica relacionada. En concreto veremos una red léxica denominada WordNet.
MC-F-004.2. Acceso y recuperación de datos en la Web
En los últimos años, Internet ha evolucionado de un almacén de documentos a un repositorio de datos. Los procesos para aprovechar esta web de datos son analizados en este tema. A diferencia de las páginas web, en la web de datos la necesidad de valorar la calidad de los datos para un fin determinado, saber interpretar los datos a capturar y manipularlos para optimizar su rendimiento es básica. En este tema veremos el ciclo de vida asociado a la captura y gestión de estos datos. Este ciclo de vida es, en esencia, similar a otros ciclos de vida asociados a la gestión de información. Esto es, ir asignando relaciones y restricciones a los datos, de manera que se pueda obtener nueva información. Estos datos por sus características, tienen similitudes con varias disciplinas, como son: BigData, Web Semántica y los sistemas de gestión de la información. En este tema se verán las distintas etapas de estos datos: planificación, captura de datos y su calidad, limpieza y normalización, y enriquecimiento e integración con otras fuentes. Las siguientes fases, es decir el análisis estadístico, quedan fuera de los objetivos del tema. Las distintas serializaciones, en la que se pueden encontrar los datos que encontramos en la Web, serán ejemplificadas en la presentación. Especial énfasis será puesto a la limpieza de datos. En esta limpieza y en la normalización de datos se pueden aplicar distintas técnicas: algoritmos de similitud de cadenas (p.e. distancia de Levenshtein), similitud fonética, validación mediante recursos externos, crowdsourcing, análisis estadístico, etc.
MC-F-005.2. Adquisición de datos en la Web Semántica
Debido a su importancia, la Web Semántica, con cientos de millones de hechos disponibles en la Web, merece un lugar especial en la adquisición de datos en la Web. En este subtema nos centraremos en mostrar el formato de datos básico de la Web Semántica. Las dimensiones de los datos disponibles en Internet, y por último, como se pueden recuperar estos datos. Para ver como se recuperan estos datos, mostraremos el lenguaje SPARQL. Un lenguaje especializado en recuperar datos de algunos dataset de la Web Semántica.
Introducción al tema
Reutilizar Curso
Descargar este curso