Recuperación y Acceso a la Información: Material de clase

_____________________________________________________________________________________

BLOQUE 1. RECUPERACIÓN EN INTERNET

1.2 Tema 1. Fundamentos de Recuperación en Internet (PDF).

En este primer módulo veremos conceptos básicos de recuperación documental en la Web. La Web es actualmente el principal medio de recuperación de información, si bien los principios que se pueden ver en la misma son aplicables en cualquier red. La Web no obstante presenta unas características especiales: obsolescencia de localización y contenido, alto grado de repetición de contenidos, público y contenidos heterogéneos, sitios inseguros, etc.

2.1 Presentación del tema (PDF).

2.2. Tema 2. Posicionamiento de recursos en Internet (PDF).

La optimización web consiste en una serie de estrategias para poner en valor el contenido de nuestra página web o red social accesible para los buscadores y usuarios. Si una página se posiciona mejor, esto es si es mostrada como más relevante por los motores de búsqueda, tendremos más lectores y una mayor difusión.

3.1 Presentación del tema (PDF).

3.2. Tema 3. Sistemas de Recuperación. Crawlers (PDF).

Un crawler en una aplicación diseñada para visitar recursivamente la Web. Los crawler se diseñan para visitar hiperenlaces de forma sistemática, de forma eficiente e, idealmente, aplicando una política de acceso respetuosa con los deseos de los propietarios de los sitios web.

4.1 Presentación del tema (PDF).

4.2. Tema 4. Acceso y Recuperación de datos en la Web (PDF).

En este tema veremos el ciclo de vida asociado a la captura y gestión de estos datos. Este ciclo de vida es, en esencia, similar a otros ciclos de vida asociados a la gestión de información. Esto es, ir asignando relaciones y restricciones a los datos, de manera que se pueda obtener nueva información. Estos datos por sus características, tienen similitudes con varias disciplinas, como son: Big Data, Web Semántica y los sistemas de gestión de la información.

5.1 Presentación del tema (PDF).

5.2. Tema 5. Adquisición de datos en la Web Semántica (PDF).

Debido a su importancia, la Web Semántica, con cientos de millones de hechos disponibles en la Web, merece un lugar especial en la adquisición de datos en la Web. En este tema nos centraremos en mostrar el formato de datos básico de la Web Semántica. Las dimensiones de los datos disponibles en Internet, y por último, cómo se pueden recuperar estos datos.

BLOQUE 2. MODELOS Y EVALUACIÓN DE LA RECUPERACIÓN

6.1 Presentación del tema (PDF).

6.2. Tema 6. Modelos de Recuperación de Información (PDF).

Los modelos de recuperación de información son fundamentales para calcular la similitud y grado de relevancia entre la consulta y los documentos que están en el repositorio. Los modelos clásicos son: el modelo booleano, el vectorial y el probabilístico. Se han propuesto numerosas mejoras a estos modelos, con algoritmos. Desde la inteligencia artificial a las mejoras propuestas para la Web.

7.1 Presentación del tema (PDF).

7.2 Tema 7. Evaluación de la recuperación de información (PDF).

El marco para validar los sistemas de recuperación de información más popular ha sido el paradigma Cranfield. Básicamente, se trata de un conjunto de consultas que se comparan con un conjunto predefinido de documentos, y manualmente se establece la relevancia entre ambos. Hasta la aparición de las competiciones TREC, este fue el principal marco de evaluación de sistemas de recuperación. En este tema se estudiarán las principales métricas para medir la idoneidad de la recuperación de la información.

BLOQUE 3. TÉCNICAS AVANZADAS DE RECUPERACIÓN

8.1 Presentación del tema (PDF).

8.2 Tema 8. Técnicas de Procesamiento del Lenguaje Natural (PDF).

El procesamiento del Lenguaje Natural (PLN) permite mejorar la precisión de la recuperación de información. Se debe tener en mente que, en la mayoría de los buscadores, las consultas son vistas como un conjunto de cadenas de texto que deben coincidir, en el mayor grado posible, con las cadenas de texto de un documento para ser este considerado relevante.

9.1 Presentación del tema (PDF).

9.2 Tema 9. Extracción de información (PDF).

A diferencia de la recuperación de información tradicional, en la que el objetivo es recuperar un documento que sea relevante a la respuesta de una pregunta dada. La extracción de información trata de obtener la respuesta directamente de los documentos. Los datos no tienen por qué estar escritos, solamente, en lenguaje natural, sino que podrían estar en metadatos, tablas u otro soporte.

10.1 Presentación del tema (PDF).

10.2 Tema 10. Realimentación de consultas (PDF).

Como los temas anteriores, de extracción de información y PLN, este tema propone mejoras aplicables a los sistemas de recuperación de información. En concreto el tema analiza dos enfoques. El primero es realimentación de consultas (“relevance feedback”). El segundo, trata de expandir las consultas con términos relacionados conceptualmente.

Last modified: Friday, 13 May 2022, 11:56 AM