Usted está aquí: Inicio Ingeniería Informática Recuperación y Acceso a la Información Material de clase

Material de clase

Acciones de Documento
  • Vista de contenidos
  • Marcadores (bookmarks)
  • Exportación de LTI
Autores: Jorge Morato, Vicente Palacios
En esta sección encontraremos ficheros de transparencias, de audio, de video y con orientaciones que el profesor da en clase.

BLOQUE 1. RECUPERACIÓN EN INTERNET

  • MC-F-001.1 Presentación al tema (PDF). MC-F-001.2 Tema 1. Fundamentos de Recuperación en Internet (PDF).

    En este primer módulo veremos conceptos básicos de recuperación documental en  la Web. La Web es actualmente el principal medio de recuperación de información, si bien los principios que se pueden ver en la misma son aplicables en cualquier red. La Web no obstante presenta unas características especiales: obsolescencia de localización y contenido, alto grado de repetición de contenidos, público y contenidos heterogéneos, sitios inseguros, etc.

  • MC-F-002.1 Presentación al tema (PDF). MC-F-002.2. Tema 2. Posicionamiento de recursos en Internet (PDF).

    La optimización web consiste en una serie de estrategias para poner en valor el contenido de nuestra página web o red social accesible para los buscadores y usuarios. Si una página se posiciona mejor, esto es si es mostrada como más relevante por los motores de búsqueda, tendremos más lectores y una mayor difusión.

  • MC-F-003.1 Presentación al tema (PDF). MC-F-003.2. Tema 3. Sistemas de Recuperación. Crawlers (PDF).

    Un crawler en una aplicación diseñada para visitar recursivamente la Web. Los crawler se diseñan para visitar hiperenlaces de forma sistemática, de forma eficiente e, idealmente, aplicando una política de acceso respetuosa con los deseos de los propietarios de los sitios web.

  • MC-F-004.1 Presentación al tema (PDF). MC-F-004.2. Tema 4. Acceso y Recuperación de datos en la Web (PDF).

    En este tema veremos el ciclo de vida asociado a la captura y gestión de estos datos. Este ciclo de vida es, en esencia, similar a otros ciclos de vida asociados a la gestión de información. Esto es, ir asignando relaciones y restricciones a los datos, de manera que se pueda obtener nueva información. Estos datos por sus características, tienen similitudes con varias disciplinas, como son: BigData, Web Semántica y los sistemas de gestión de la información.

  • MC-F-005.1 Presentación al tema (PDF). MC-F-005.2. Tema 5. Adquisición de datos en la Web Semántica (PDF).

    Debido a su importancia, la Web Semántica, con cientos de millones de hechos disponibles en la Web, merece un lugar especial en la adquisición de datos en la Web. En este tema nos centraremos en mostrar el formato de datos básico de la Web Semántica. Las dimensiones de los datos disponibles en Internet, y por último, como se pueden recuperar estos datos.

  •  

    BLOQUE 2. MODELOS Y EVALUACIÓN DE LA RECUPERACIÓN

  • MC-F-006.1 Presentación al tema (PDF). MC-F-006.2. Tema 6. Modelos de Recuperación de Información (PDF).

    Los modelos de recuperación de información son fundamentales para calcular la similitud y grado de relevancia entre la consulta y los documentos que están en el repositorio. Los modelos clásicos son: el modelo booleano, el vectorial y el probabilístico. Se han propuesto numerosas mejoras a estos modelos, con algoritmos. Desde la inteligencia artificial a las mejoras propuestas para la Web.

  • MC-F-007.1 Presentación al tema (PDF). MC-F-007.2 Tema 7. Evaluación de la recuperación de información (PDF).

    El marco para validar los sistemas de recuperación de información más popular ha sido el paradigma Cranfield. Básicamente, se trata de un conjunto de consultas que se comparan con un conjunto predefinido de documentos, y manualmente se establece la relevancia entre ambos. Hasta la aparición de las competiciones TREC, este fue el principal marco de evaluación de sistemas de recuperación. En este tema se estudiarán las principales métricas para medir la idoneidad de la recuperación de la información.

  •  

    BLOQUE 3. TÉCNICAS AVANZADAS DE RECUPERACIÓN

  • MC-F-008.1 Presentación al tema (PDF). MC-F-008.2 Tema 8. Técnicas de Procesamiento del Lenguaje Natural (PDF).

    El procesamiento del Lenguaje Natural (PLN) permite mejorar la precisión de la recuperación de información. Se debe tener en mente que, en la mayoría de los buscadores, las consultas son vistas como un conjunto de cadenas de texto que deben coincidir, en el mayor grado posible, con las cadenas de texto de un documento para ser este considerado relevante.

  • MC-F-009.1 Presentación al tema (PDF). MC-F-009.2 Tema 9. Extracción de información (PDF).

    A diferencia de la recuperación de información tradicional, en la que el objetivo es recuperar un documento que sea relevante a la respuesta de una pregunta dada. La extracción de información trata de obtener la respuesta directamente de los documentos. Los datos no tienen por qué estar escritos, solamente, en lenguaje natural, sino que podrían estar en metadatos, tablas u otro soporte.

  • MC-F-010.1 Presentación al tema (PDF). MC-F-010.2 Tema 10. Realimentación de consultas (PDF).

    Como los temas anteriores, de extracción de información y PLN, este tema propone mejoras aplicables a los sistemas de recuperación de información. En concreto el tema analiza dos enfoques. El primero es realimentación de consultas (“relevance feedback”). El segundo, trata de expandir las consultas con términos relacionados conceptualmente.

  • Reutilizar Curso
    Descargar este curso