Revista Digital Universitaria
10 de julio de 2005 Vol.6, No.7 ISSN: 1607 - 6079
Publicación mensual

 
     

RDU

 

 

 

 

Los buscadores y la indización tradicional

 

 

Al realizar una búsqueda simple en muchos de los buscadores utilizados en Internet utilizando una única palabra observamos que el número de respuestas es elevadísimo. En Google con la palabra FOTOGRAFIA se obtienen 4.550.000 páginas web: la tercera referencia que ofrece es, por cierto, una página en catalán sobre microfotografía de insectos. El ejemplo ilustra que los buscadores pueden devolver un enorme caudal de información irrelevante porque cuentan con pocos medios para distinguir entre palabras importantes y palabras incidentales en los documentos de texto. Si la búsqueda se puede dirigir a palabras que realmente se están utilizando como términos significantes habrá una mejora en la precisión. Si podemos dirigir la búsqueda hacia palabras y frases cuyo rol esté correctamente identificado igualmente reduciremos el ruido: es decir, si puedo precisar que "Blanco" es el apellido del autor cuyos documentos busco no me aparecerá la ciudad de Blanco (Texas) o la página web de El Caballo Blanco, una especie de parque de vacaciones con cocodrilos en Australia. Este es el papel que pueden jugar a la perfección los metadatos que son capaces de especificar e identificar la información clave de un recurso de información: el autor, el título, la materia, el editor, etc. En otras palabras, la estructura propia de los metadatos es fundamental para una adecuada recuperación.

Los buscadores poseen una importante capacidad para decidir la importancia de los temas que componen un documento, lo que podríamos asimilar a la indización tradicional, y tecnológicamente es factible obtener la materia de los mismos documentos mediante técnicas de clasificación automática. Sin embargo existen muchas otras formas de ofrecer información sobre un documento (lo que en el ámbito de la documentación entenderíamos por catalogación) que ningún sistema parece hoy día ser capaz de ofrecer. En palabras de Eva Méndez:

...a diferencia de los indizadores humanos, estas aplicaciones, en general, no identifican características de un documento como la materia de la que trata, el autor, la fecha de publicación, el tipo de documento o las condiciones de acceso (no pueden distinguir, por ejemplo, si un documento es un poema o un informe científico)11.

Esta “información catalográfica” se podría ofrecer como parámetros de búsqueda decisivos a la hora de recuperar un documento. Esta información requiere de su inserción manual (salvo contadas y parciales excepciones12) por parte de los autores, ya que el proceso en conjunto no parece ser automatizable el día de hoy. Pero al margen de su obtención manual o automática, la forma de hacer útiles estos metadatos es explicitándolos de forma estructurada y legible por máquinas, un asunto que trataremos algo después.

 

 
 
D.R. © Coordinación de Publicaciones Digitales
Dirección General de Servicios de Cómputo Académico-UNAM
Ciudad Universitaria, México D.F.
Se autoriza la reproducción total o parcial de los artículos aquí presentados,
siempre y cuando se cite la fuente completa y su dirección electrónica.