Recuperación de Información en Bases de Datos: Estrategias y Herramientas

Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 15,66 KB

Fundamentos de Recuperación de la Información: Gestión de la Información en Trabajo Social

Bases de Datos

Colección de elementos discretos denominados registros cuyo contenido puede ser tan variado como tipos de información existen. Según la información contenida podemos hablar de bases de datos biográficas, de citas bibliográficas (tanto de revistas como de monografías), de bancos de datos terminológicos, de patentes, etc. Según el tipo de registros que recojan tendremos bases de datos referenciales, de texto completo, etc.

Bases de Datos Bibliográficas

  • Se producen en bibliotecas y centros de documentación mediante la operación del análisis documental.
  • Los datos son introducidos por los especialistas que describen los documentos física y temáticamente.
  • El proceso de descripción física se denomina catalogación, mientras que el temático es la indización y clasificación.
  • La finalidad de estos procesos es facilitar la recuperación de los documentos.

RECUERDA: BASES DE DATOS BIBLIOGRÁFICAS

Son un conjunto de referencias bibliográficas almacenadas en soporte electrónico y estructuradas de forma que puedan ser recuperadas automáticamente. Las bases de datos especializadas tienen su origen en las bibliografías especializadas, son producidas por organismos nacionales e internacionales.

Tipología de las Bases de Datos

Según el Tipo de Información Almacenada

  1. Textuales
  2. Referenciales
  3. Factuales

Según el Lenguaje Adoptado

  1. Lenguaje documental
  2. Lenguaje natural
  3. Mixtas

Según su Ubicación

  1. CD-ROM/DVD
  2. Online

BD textuales: incorporan el texto completo de los documentos, o unos extractos suficientemente amplios y representativos del mismo, permitiendo a los usuarios obtener una completa información sobre sus contenidos sin necesidad de tener que recurrir a los documentos originales.

BD referenciales: permiten la localización de los documentos que incluyan datos relacionados con un tema o aspecto previamente determinado, remitiendo a dichos documentos para la obtención de la información completa de su contenido.

BD factuales: contienen series numéricas o conjuntos de datos que van actualizándose permanentemente, permitiendo el conocimiento de datos concretos (IPC, datos registrales, estadísticas, etc.) en forma directa.

Según el Lenguaje Adoptado en el Almacenamiento

BD de lenguaje natural: el almacenamiento y transmisión de la información se realiza mediante sistemas que permiten localizar e introducir diferentes aplicaciones informáticas, utilizando las palabras del título, texto, resumen, sin ningún tratamiento documental añadido a dicha información.

BD de lenguaje documental: predominan las aplicaciones informáticas que tienden a recuperar y tratar la información en ellas almacenada utilizando términos documentales (palabras clave, descriptores, etc.) elaborados a partir del análisis de su contenido, siendo accesorias a efectos de recuperación las aplicaciones utilizadas sobre las partes que mantienen un lenguaje natural (título, notas, etc.).

BD mixtas: combinan las aplicaciones informáticas desarrolladas sobre el lenguaje natural con aquellas otras elaboradas para el tratamiento de lenguajes controlados, pudiéndose utilizar las primeras o las segundas, según los casos y necesidades de los usuarios.

Con Respecto a su Ubicación

CD-ROM / DVD: Ambos sistemas de almacenamiento óptico de la información permiten acumular gran cantidad de información de todo tipo que puede ser leída pero no modificada. La localización y recuperación de la información se hace de manera sencilla y rápida.

Online: En la actualidad se utiliza preferentemente Internet. El acceso a este tipo de bases de datos tiene como principales ventajas el hecho de la actualización (es más frecuente que en las de CD-ROM/DVD) así como la gran cantidad de documentación anexa a la que se puede acceder.

La Búsqueda y la Recuperación

Debemos de ser conscientes de que tenemos un vacío de conocimiento o necesidad de información. Esta concienciación provoca lo que se denomina fase de conceptualización, es decir, debemos de buscar en nuestra mente conceptos que representen lo más fielmente posible aquello que queremos buscar y expresarlo mediante términos.

Rara vez el objeto de una búsqueda puede expresarse mediante un término simple.

La Búsqueda y la Recuperación (2)

Lo más frecuente es que se necesiten términos compuestos para formar una ecuación que describa el tema de la búsqueda. Los términos compuestos son necesarios por diversos motivos, y en todos los casos habrá que recurrir a los operadores booleanos y a los de proximidad.

Cuando se utilicen estos operadores para la realización de la ecuación de búsqueda habrá que respetar los correspondientes anidamientos.

Lenguajes de Interrogación y Operadores

Operadores Booleanos o Lógicos

Para la recuperación de la información contamos con tres operadores lógicos que permiten relacionar los conceptos para formular la ecuación de búsqueda. Son:

  • El operador unión
  • El operador intersección
  • El operador negación

Operador de Unión (OR)

Su uso es obligado cuando se trata de unir conceptos y/o términos en una única ecuación de búsqueda. El uso de este operador es necesario en dos casos:

  • Cuando se desea recuperar documentos que traten, al menos, de uno de los conceptos expuestos: Cervantes OR Quijote
  • Cuando se desea recuperar todos los documentos que utilicen cualquiera de los sinónimos o cuasi sinónimos representantes de un concepto: depósito OR contenedor

En ambos casos es fundamental su empleo a fin de no perder exhaustividad.

Operador de Intersección (AND)

El uso de este operador está reservado para aquellos casos en los que se trata de hacer una intersección entre dos o más conceptos. Supongamos que queremos obtener todos los documentos de la base de datos relativos a la contaminación del agua. Se trata de interseccionar dos conceptos: el concepto contaminación y el concepto agua, y recuperar todos los documentos que contengan ambos simultáneamente.

Operador de Negación (NOT) I

Usaremos este operador para indicar aquellos conceptos que no deben ser recuperados y evitar así documentos no pertinentes. Este operador debe utilizarse con mucho cuidado. Supongamos que interesa información sobre contaminación de los ríos pero no sobre contaminación de los lagos, aparentemente bastaría con formular la ecuación:

  1. contaminación de los ríos (contaminación AND ríos)
  2. contaminación de los lagos (contaminación AND lagos)
  3. 1 NOT 2

Operador de Negación (NOT) II

Esta ecuación, así formulada, corre el riesgo de perder mucha exhaustividad. En todos aquellos registros en los que aparezca, bien en el título, bien en el resumen, una expresión del estilo de esta: “…se estudia el efecto de la contaminación de las aguas a excepción de lagos interiores en la población piscícola…” quedaría fuera de la masa documental recuperada, cuando en realidad es plenamente pertinente.

Así pues, el operador negación nunca puede ser usado en los campos de búsqueda de texto libre su uso debe reducirse a los campos controlados: descriptores, códigos temáticos, autores, fecha, fuente, lengua, etc. Resultaría muy útil, por ejemplo, si quisiéramos recuperar bibliografía sobre leche en cualquier idioma menos el alemán.

Operadores de Proximidad

Algunos sistemas de recuperación de la información disponen del recurso de los operadores de proximidad. Se utilizan en las búsquedas en que interesa recuperar documentos que contengan una intersección de conceptos en un determinado orden. Con ello se aumenta el grado de precisión y se reduce el ruido.

El recurso de los operadores de proximidad presenta muchas variantes según los sistemas de recuperación de la información y las bases de datos.

Operadores de Proximidad

Mientras que algunos sistemas de recuperación de la información son muy ricos en posibilidades otros ni tan siquiera lo contemplan. Entre los más frecuentes se encuentran:

  • La adyacencia simple: los términos seleccionados deben ser adyacentes y estar en el orden especificado. Por ejemplo: líneas () aéreas
  • La adyacencia con grados de libertad: en este caso, los términos seleccionados pueden estar separados entre sí por un número dado de términos, si bien manteniendo el orden especificado. Por ejemplo: cepillo (1) dientes
  • Coincidencia en un mismo campo o frase: el grado de libertad es mayor. La única condición es que los términos seleccionados estén en el mismo campo o en la misma frase, pero pueden aparecer en cualquier orden. Por ejemplo: áridos (s) composición

Anidamiento

Cuando en una ecuación de búsqueda se utilizan varios operadores, siempre existe un orden de prelación en la ejecución de las operaciones. Por defecto, este orden es el siguiente:

  1. Ejecución de operadores de proximidad, adyacencia simple, adyacencia con grados de libertad, coincidencia en el mismo campo o sentencia.
  2. Ejecución de los operadores de intersección.
  3. Ejecución de los operadores de negación.
  4. Ejecución de los operadores de unión.

Anidamiento

Cuando interesa alterar este orden, que es lo más frecuente, se recurre al empleo de paréntesis. En una búsqueda sobre coles de Bruselas o lechugas y fungicidas en cualquier lengua excepto japonés será necesario el empleo de paréntesis para llegar a la ecuación.

(coles (1) Bruselas OR lechugas) AND fungicida (NOT la=jp)

De esta manera, los pasos que seguirá el sistema serán:

Truncamiento

Truncar un término de búsqueda significa utilizar un carácter establecido al efecto por el sistema de recuperación de la información para que, escribiendo sólo el trozo de una palabra, se recuperen todos los documentos en los que aparezca esa palabra o cualquiera de sus variantes. El truncado es un recurso orientado a aumentar la exhaustividad de las búsquedas.

El símbolo establecido generalmente es el asterisco (*) o la interrogación (?).

Las posibles posiciones para efectuar un truncado son:

  • Por la derecha
  • En el interior de la palabra
  • Por la izquierda
  • Por un número indeterminado o determinado de caracteres

Truncamiento

Por la derecha: Buscando por naranj* recuperaría: naranja, naranjas, naranjada, naranjal, naranjo.

En el interior de la palabra: sirve para recuperar variantes de deletreo: wom?n recuperaría woman y women.

Por la izquierda: *father recuperaría father y grandfather.

Por un número indeterminado de caracteres a truncar. La búsqueda por un número determinado aumenta la precisión: child* recuperaría los documentos en los que apareciera, entre otros: child, childbirth, childhood, childlike, children, childplay.

Por un número determinado de caracteres. En el caso de que sólo interesara child y su plural children, con el truncado de un número indeterminado de caracteres se habría obtenido mucho ruido. El truncado por un número concreto de caracteres child??? Recuperaría un número muy reducido de documentos.

Otras Opciones de Consulta

  • Búsqueda en campos y en texto libre
  • Hipertexto
  • Delimitación de una búsqueda
  • Ordenación
  • Visualización de registros
  • Revisión y análisis de los resultados

Búsqueda en Campos y en Texto Libre

La división del registro en campos permite su recuperación a partir de búsquedas efectuadas en todo el registro considerado como una unidad o bien en campos. Cuando en una sentencia no se especifica en qué campos debe efectuarse la búsqueda, el sistema de recuperación de la información, por defecto, asume que debe buscar en el índice básico formado por el título, el resumen y las palabras clave. Pero en ocasiones convendrá que la consulta se realice en un campo concreto. Por ejemplo para aumentar la precisión, puede efectuarse la búsqueda limitándola al campo de los descriptores. O bien para buscar un autor, habrá que ir al campo de autores. En otros casos interesará limitarla a una lengua dada.

Hipertexto

Nos permite establecer encadenamientos entre documentos a partir de términos comunes. Partiendo de un documento visualizado se puede continuar la búsqueda de otros documentos seleccionando un término de deberá aparecer en éstos. De esta forma, una ecuación inicial de búsqueda puede ir derivando, a partir de otros términos, que los registros hallados hacen intuir como más satisfactorios. En las bases de datos, este recurso nunca se utiliza a través de la pantalla de búsqueda, sino desde la de visualización de registros. Requiere por tanto, una ecuación de búsqueda de partida.

Delimitación de una Búsqueda

Las bases de datos cuentan con los llamados campos delimitadores. Se trata de unos campos indizados que pueden aceptar un número relativamente pequeño de valores. Sirven para delimitar una búsqueda estableciendo una relación de igualdad, desigualdad o un rango. Para las delimitaciones se suelen emplear los campos: fecha, lengua, tipo de publicación y, en menor medida, códigos de clasificación.

Las delimitaciones posibles son:

En algunos sistemas de recuperación de la información la delimitación se puede realizar sobre la búsqueda que se piensa hacer. En otros, se exige que la búsqueda ya esté formulada.

Ordenación

Una vez obtenido un conjunto documental a partir de una ecuación, es posible proceder a su ordenación. Por defecto, suele ser sobre el campo de fecha con criterio descendente, pero esto se puede alterar. Se puede, incluso, hacer sobre varios campos al mismo tiempo.

Visualización de los Registros

Confirmará la adecuación de cada registro al perfil de intereses del usuario. La mayoría de sistemas de recuperación de la información brindan distintas opciones de visualización con formatos más o menos extensos. Algunos sistemas de recuperación de la información permiten marcar los documentos interesantes a medida que se visualizan.

Exportación de los Registros

Algunas bases de datos permiten exportar registros o descargar los resultados en distintos formatos de:

  • Texto (txt, pdf, xml, rtf)
  • Gestores de referencia bibliográficas (Procite, RefWorks, Reference Manager o EndNote)

Incluso algunos nos permiten enviárnoslo por correo electrónico.

Asignatura: Gestión de la Información en Trabajo Social 01/10/2010 Profesora: Dra. Ana Mª Muñoz Muñoz

Entradas relacionadas: