Optimización de la Recuperación de Información: Indización de Documentos con Tesauros

Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 4,89 KB

Introducción

La indización de documentos se realiza en sistemas de información que elaboran bases de datos, registrando documentos científicos y/o técnicos con vistas a su recuperación. Cada documento se refleja en un registro de la base de datos. Este registro se compone de varios campos que recogen información importante del mismo: autor, título, fuente, materias, resumen, texto completo, etc. Los campos pueden diferir dependiendo de la estructura que se haya dado a la base de datos en concreto. Será en el campo destinado específicamente a los términos que identifiquen los temas o materias de los documentos donde debemos introducir los descriptores obtenidos tras haber realizado el proceso de indización de cada documento.

El Proceso de Indización de Documentos

Según la Norma ISO 5963-1985, durante la indización los conceptos se extraen del documento mediante un proceso de análisis intelectual y después se transforman en términos de indización.

La indización consta de tres etapas:

  1. Examen del documento: Se extrae toda la información útil que contiene. En los documentos impresos, debe hacerse examinando: el título, el resumen, el sumario o tabla de contenidos, la introducción, los párrafos iniciales de los distintos capítulos o apartados, las conclusiones, las ilustraciones, diagramas o tablas y su leyenda o explicación, y las palabras o frases destacadas mediante una tipografía diferente o subrayadas.
  2. Identificación de conceptos: Tras el examen del documento, el indizador debe fijarse en las nociones sobre las que el documento aporta información útil para el posible usuario, y también las nociones implícitamente contenidas en el documento, aunque no se mencionen de forma explícita. Esta identificación de conceptos debe atenerse a dos características: exhaustividad y especificidad.
  3. Selección de los términos de indización: Consiste en la traducción de los conceptos extraídos del documento al lenguaje documental que se utilice: el tesauro. Al traducir estos conceptos del lenguaje natural a términos del tesauro, se pueden dar tres casos:
    • Que la expresión del concepto corresponda a un descriptor o término preferente que lo representa. En este caso, se indiza por ese descriptor.
    • Que la expresión del concepto coincida con un no-descriptor. Este nos reenvía al descriptor correcto, y con él representamos el concepto.
    • Que no exista una entrada por descriptor ni por no-descriptor que corresponda exactamente a ese concepto que queremos representar. En este caso: o bien intentamos encontrar otro término para formular dicha idea; o bien definimos la clase o grupo a la que pertenecería el concepto, consultamos la presentación en grupos del tesauro, revisamos los descriptores de ese grupo y escogemos el que más se aproxime a la representación de ese concepto. Puede ser un descriptor específico o bien uno más genérico donde debiera englobarse.

Una vez escogidos los descriptores que reflejan el contenido del documento, estos se pondrán en el campo correspondiente del registro de dicho documento en la base de datos. Estos descriptores servirán para poder recuperar el documento en búsquedas de información que se hagan posteriormente.

Búsqueda de Información Mediante el Tesauro

Hay que tener en cuenta que el tesauro adecuado para realizar la búsqueda debe ser el mismo que se ha utilizado en la indización de los documentos que queremos recuperar.

El proceso de búsqueda consta de los siguientes pasos:

  1. Aclaración de la pregunta: Debemos aclarar cuál(es) son los conceptos sobre los que se quiere obtener información. Determinar cuáles son los intereses esenciales de la persona que busca informarse es vital para encontrar información útil y pertinente de la forma más rápida posible.
  2. Identificación de conceptos clave: El indizador debe identificar los conceptos esenciales de dicha demanda de información, de forma exhaustiva y específica.
  3. Traducción a lenguaje documental: Traducir dichos conceptos a términos del lenguaje documental que se utilice, es decir, a descriptores de un tesauro.

Tras localizar los descriptores que reflejan mejor la demanda de información en la que estamos trabajando, buscaremos en la base de datos adecuada aquellos registros que contengan, en el campo de materias, esos descriptores. El resultado será la obtención de información pertinente, con poco silencio documental (documentos pertinentes no encontrados) y escaso ruido documental (documentos no pertinentes).

Entradas relacionadas: