Usted está aquí: Inicio Ingeniería Informática Recuperación y Acceso a la Información Material de clase MC-F-003.2. Sistemas de Recuperación de Información: Crawlers

MC-F-003.2. Sistemas de Recuperación de Información: Crawlers

Acciones de Documento
  • Marcadores (bookmarks)
Autores: Jorge Morato, Vicente Palacios
Los motores de recuperación constituyen los principales sistemas de recuperación en la Web. En este tema se verá la arquitectura básica de un motor de recuperación en la Web. Concretamente, el tema se centra en los Crawlers o arañas. Un crawler en una aplicación diseñada para visitar recursivamente la Web. Los crawler se diseñan para visitar hiperenlaces de forma sistemática, de forma eficiente e, idealmente, aplicando una política de acceso respetuosa con los deseos de los propietarios de los sitios web. Se muestran, además, distintos conceptos básicos relacionados con los crawlers. Como los ficheros robots.txt y sitemaps.txt. El crawler es el paso previo al almacenamiento de la información. Esto se realiza, típicamente, descargando el texto y metadatos de la página y almacenándolos en una base de datos, para su posterior consulta. Finalmente, se facilitan enlaces, en distintos lenguajes de programación, para implementar un motor de recuperación.

MC-F-003.2.pdf — PDF document, 728 kB (746456 bytes)

Reutilizar Curso
Descargar este curso