Programa

Acciones de Documento
  • Vista de contenidos
  • Marcadores (bookmarks)
  • Exportación de LTI
Autores: Jorge Morato, Vicente Palacios
A continuación figura el programa de la asignatura. Se encuentra dividido en nueve módulos. Los nueve módulos muestran desde las bases de búsqueda en la Web, tanto de documentos como de datos, hasta las técnicas de procesamiento del lenguaje natural, expansión de consultas y métricas para evaluar la recuperación de información. Se presentan ejercicios ilustrativos de los modelos de recuperación y su aplicación en la implementación de un motor de búsqueda.

El curso se distribuye en 10 temas:

Bloque 1. Recuperación en Internet

Tema 1. Fundamentos de Recuperación en Internet

    • Buscadores Web
    • Tipología
    • Internet invisible
    • Otros tipos de buscadores
    • Tendencias en Internet

 

Tema 2. Posicionamiento de recursos en Internet

  • ¿Qué es posicionamiento web?
    • Introducción: Qué es y para qué sirve
    • Factores directos e indirectos
    • Penalizaciones
  • Factores indirectos
    • Redacción y Legibilidad
    • Interoperabilidad
    • Credibilidad
    • Usabilidad
    • Accesibilidad
  • Herramientas SEO de evaluación

Tema 3. Sistemas de recuperación de la información. Crawlers

  • Componentes de un motor de recuperación
  • Crawler
  • Ficheros y Base de datos


Tema 4. Acceso y Recuperación de datos en la Web

  • Ciclo de Vida de la Información
  • Fuentes de la Información
  • Estructuración y Saneamiento de los datos: la coherencia
  • Limpieza e Integración de fuentes

 

Tema 5. Adquisición de datos en la Web

  • Linked Data y Web Semántica
  • SPARQL

 

Bloque 2. Modelos de recuperación e evaluación

Tema 6. Modelos de recuperación de Información

  • Conceptos básicos de la recuperación de información
  • Modelos clásicos de recuperación
  • Modelo Booleano
  • Modelo Vectorial
  • Modelo Probabilístico


Tema 7. Evaluación en la recuperación de la información

  • Necesidad de evaluar
  • Cranfield y métricas básicas
  • Otras métricas
  • TREC


Bloque 3. Técnicas Avanzadas de Recuperación

Tema 8. Técnicas de Procesamiento de Lenguaje Natural

  • Proceso de recuperación
  • Búsqueda por campos
  • Búsqueda por frase
  • Preprocesamiento de documentos y consultas
  • Tokenización
  • Filtrados
  • Palabras vacías
  • Ley de Zipf
  • Normalización
  • Stemming y lematización
  • Análisis morfo-sintáctico
  • Software para PLN
  • Peso de los términos


Tema 9. Extracción de Información

  • Extracción de información
  • Reconocimiento de Entidades de Nombre (Named Entities)
  • Competiciones
  • Clasificaciones
  • Aplicaciones
  • Atributos
  • Técnicas
  • Problemas


Tema 10. Realimentación de consultas

  • Mejora de las consultas
  • Relevance Feedback
  • Query Reformulation
  • Query Expansion
  • Wordnet

 

Ejercicios y prácticas.

- Práctica 1. Posicionamiento Web (Tema 1, 2 y 4)

- Ejercicio y práctica sobre el modelo vectorial (Tema 6)

- Ejercicio de Métricas de Evaluación (Tema 7)

- Práctica 1, parte 1. Implementación de un motor de búsqueda (Temas 3 al 8)

- Práctica 2, parte 2. Extensión de un motor de búsqueda (Temas 9 y 10)

Reutilizar Curso
Descargar este curso