|
Los
buscadores y la indización tradicional
Al
realizar una búsqueda simple en muchos
de los buscadores utilizados en Internet utilizando
una única palabra observamos que el número
de respuestas es elevadísimo. En Google
con la palabra FOTOGRAFIA se obtienen 4.550.000
páginas web: la tercera referencia que
ofrece es, por cierto, una página en catalán
sobre microfotografía de insectos. El ejemplo
ilustra que los buscadores pueden devolver un
enorme caudal de información irrelevante
porque cuentan con pocos medios para distinguir
entre palabras importantes y palabras incidentales
en los documentos de texto. Si la búsqueda
se puede dirigir a palabras que realmente se están
utilizando como términos significantes
habrá una mejora en la precisión.
Si podemos dirigir la búsqueda hacia palabras
y frases cuyo rol esté correctamente identificado
igualmente reduciremos el ruido: es decir, si
puedo precisar que "Blanco" es el apellido
del autor cuyos documentos busco no me aparecerá
la ciudad de Blanco (Texas) o la página
web de El Caballo Blanco, una especie de parque
de vacaciones con cocodrilos en Australia. Este
es el papel que pueden jugar a la perfección
los metadatos que son capaces de especificar e
identificar la información clave de un
recurso de información: el autor, el título,
la materia, el editor, etc. En otras palabras,
la estructura propia de los metadatos es fundamental
para una adecuada recuperación.
Los
buscadores poseen una importante capacidad para
decidir la importancia de los temas que componen
un documento, lo que podríamos asimilar a
la indización tradicional, y tecnológicamente
es factible obtener la materia de los mismos documentos
mediante técnicas de clasificación
automática. Sin embargo existen muchas otras
formas de ofrecer información sobre un documento
(lo que en el ámbito de la documentación
entenderíamos por catalogación) que
ningún sistema parece hoy día ser
capaz de ofrecer. En palabras de Eva Méndez:
...a
diferencia de los indizadores humanos, estas
aplicaciones, en general, no identifican características
de un documento como la materia de la que trata,
el autor, la fecha de publicación, el
tipo de documento o las condiciones de acceso
(no pueden distinguir, por ejemplo, si un documento
es un poema o un informe científico)11.
Esta
“información catalográfica”
se podría ofrecer como parámetros
de búsqueda decisivos a la hora de recuperar
un documento. Esta información requiere de
su inserción manual (salvo contadas y parciales
excepciones12)
por parte de los autores, ya que el proceso en conjunto
no parece ser automatizable el día de hoy.
Pero al margen de su obtención manual o automática,
la forma de hacer útiles estos metadatos
es explicitándolos de forma estructurada
y legible por máquinas, un asunto que trataremos
algo después.
|
|