Tipos y Uso de Bases de Datos Bibliográficas: Optimización de Búsquedas

Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 12,48 KB

Bases de Datos

Colección de elementos discretos denominados registros cuyo contenido puede ser tan variado como tipos de información existen. Según la información contenida hablamos de bases de datos biográficas, de citas bibliográficas (revistas y monografías), de bancos de datos terminológicos, de patentes, etc. Según el tipo de registros que recojan tendremos BDD referenciales, de texto completo, etc.

Bases de Datos Bibliográficas

Se producen en bibliotecas y centros de documentación mediante la operación del análisis documental. Los datos son introducidos por especialistas que describen los documentos física y temáticamente. El proceso de descripción física se denomina catalogación, el temático es indización y clasificación. Finalidad: facilitar la recuperación de documentos. BD Bibliografías: conjunto de referencias bibliográficas almacenadas en soporte electrónico y estructuradas de forma que puedan ser recuperadas automáticamente. Las BD especializadas tienen su origen en bibliografías especializadas, producidas por organismos nacionales e internacionales.

Tipología de las Bases de Datos

Según el Tipo de Información Almacenada

  • BD Textuales: incorporan el texto completo de los documentos o extractos amplios y representativos del mismo, permitiendo a los usuarios obtener completa información sobre los contenidos sin tener que recurrir a los documentos originales.
  • BD Referenciales: permiten la localización de documentos que incluyan datos relacionados con un tema o aspecto determinado, remitiendo a dichos documentos para la obtención de la información completa del contenido.
  • BD Factuales: contienen series numéricas o conjuntos de datos que van actualizándose permanentemente, permitiendo el conocimiento de datos concretos (IPC, datos registrales, estadísticas, etc.) en forma directa.

Según el Lenguaje Adoptado

  • BD de Lenguaje Natural: el almacenamiento y la transmisión de la información se realiza mediante sistemas que permiten localizar e introducir diferentes aplicaciones informáticas, utilizando palabras del título, texto, resumen, sin tratamiento documental añadido a la información.
  • BD de Lenguaje Documental: predominan aplicaciones informáticas que tienden a recuperar y tratar la información en ellas almacenada utilizando términos documentales (palabras clave, descriptores, etc.) elaborados a partir del análisis de su contenido, siendo accesorias a efectos de recuperación las aplicaciones utilizadas sobre las partes que mantienen el lenguaje natural (título, notas, etc.).
  • BD Mixtas: combinan aplicaciones informáticas desarrolladas sobre el lenguaje natural con aquellas otras elaboradas para el tratamiento de lenguajes controlados, pudiéndose utilizar las primeras o las segundas, según los casos y las necesidades de los usuarios.

Según su Ubicación

  • CD-ROM/DVD: ambos sistemas de almacenamiento óptico de información permiten acumular cantidad de información de todo tipo que puede ser leída pero no modificada. La localización y recuperación de información se hace de manera sencilla y rápida.
  • Online: en la actualidad se utiliza Internet. El acceso a estas BD tiene como ventajas la actualización (es más frecuente que en las de CD-ROM/DVD) así como la cantidad de documentación a la que se puede acceder.

Búsqueda y Recuperación

Tenemos un vacío de conocimiento o necesidad de información. Esta concienciación provoca la fase de conceptualización, debemos buscar conceptos que representen aquello que queremos buscar y expresarlo con términos. Rara vez el objeto de búsqueda puede expresarse mediante un término simple. Lo más frecuente es que se necesiten términos compuestos para formar una ecuación que describa el tema de la búsqueda. Los términos compuestos son necesarios por diversos motivos, y habrá que recurrir a operadores booleanos y de proximidad. Cuando se utilicen para la realización de la ecuación de búsqueda habrá que respetar los correspondientes anidamientos.

Lenguajes de Interrogación y Operadores

Operadores Booleanos/Lógicos

Para la recuperación de información hay 3 operadores que permiten relacionar conceptos para formular la ecuación de búsqueda. Son:

  • Operador de Unión (OR): uso obligado cuando se trata de unir conceptos y/o términos en una ecuación de búsqueda. El uso es necesario cuando se desea recuperar documentos que traten de conceptos expuestos: Cervantes OR Quijote. Cuando se recuperan documentos que utilicen sinónimos o cuasi sinónimos de un concepto: depósito OR contenedor. En ambos es fundamental su empleo a fin de no perder exhaustividad.
  • Operador de Intersección (AND): el uso está reservado para casos en los que se trata de hacer intersección entre dos o más conceptos.
  • Operador de Negación (NOT): indicar conceptos que no deben ser recuperados y evitar documentos no pertinentes, debe utilizarse con mucho cuidado. Este nunca puede ser usado en campos de búsqueda de texto libre, su uso debe reducirse a campos controlados: descriptores, códigos temáticos, autores, fecha, fuente, lengua.

Operadores de Proximidad

Algunos sistemas de recuperación de la información disponen del recurso de los operadores de proximidad. Se utilizan en las búsquedas en que interesa recuperar documentos que contengan una intersección de conceptos en un determinado orden. Con ello se aumenta el grado de precisión y se reduce el ruido. El recurso de los operadores de proximidad presenta muchas variantes según los sistemas de recuperación de la información y las bases de datos.

Operadores de proximidad: se utilizan en búsquedas en que interesa recuperar documentos que contengan intersección de conceptos en un determinado orden. Con ello se aumenta el grado de precisión y se reduce el ruido. Los sistemas de recuperación de la información son ricos en posibilidades, otros ni tan siquiera lo contemplan. Los más frecuentes:

  • La Adyacencia Simple: los términos seleccionados deben ser adyacentes y estar en el orden especificado.
    p. ej.: líneas()aéreas.
  • La Adyacencia con Grados de Libertad: los términos seleccionados pueden estar separados por un número dado de términos, si bien manteniendo el orden especificado.
    p. ej.: cepillo(1)dientes.
  • Coincidencia en un Mismo Campo o Frase: el grado de libertad es mayor. La única condición es que los términos seleccionados estén en el mismo campo o frase, pero pueden aparecer en cualquier orden.
    p. ej.: áridos(s)composición.

Anidamiento

Cuando en la ecuación de búsqueda se utilizan varios operadores, existe un orden de prelación en la ejecución de las operaciones. Este orden es el siguiente:

  1. Ejecución de operadores de proximidad, adyacencia simple, adyacencia con grados de libertad, coincidencia en el mismo campo o sentencia.
  2. Ejecución de operadores de intersección.
  3. Ejecución de operadores de negación.
  4. Ejecución de operadores de unión.

Cuando interesa alterar este orden, se recurre al empleo de paréntesis. Los pasos que seguirá el sistema serán:

Truncamiento

Utilizar un carácter establecido al efecto por el sistema de recuperación de información para que, escribiendo el trozo de una palabra, se recuperen todos los documentos en los que aparezca esa palabra o sus variantes. El truncado es un recurso orientado a aumentar la exhaustividad de las búsquedas. El símbolo establecido generalmente es el asterisco (*) o la interrogación (?). Las posibles posiciones para efectuar un truncado son:

  • Por la derecha
  • En el interior de la palabra
  • Por la izquierda
  • Por un número indeterminado o determinado de caracteres
Truncamiento
  • Por la derecha: Buscando por naranj* recuperaría: naranja, naranjas, naranjada, naranjal, naranjo.
  • En el interior de la palabra: sirve para recuperar variantes de deletreo: wom?n recuperaría woman y women.
  • Por la izquierda: *father recuperaría father y grandfather.
  • Por un número indeterminado de caracteres a truncar. La búsqueda por un número determinado aumenta la precisión: child* recuperaría los documentos en los que apareciera, entre otros: child, childbirth, childhood, childlike, children, childplay.
  • Por un número determinado de caracteres. En el caso de que sólo interesara child y su plural children, con el truncado de un número indeterminado de caracteres se habría obtenido mucho ruido. El truncado por un número concreto de caracteres child??? Recuperaría un número muy reducido de documentos.
Otras Opciones de Consulta
  • Búsqueda en campos y en texto libre
  • Hipertexto
  • Delimitación de una búsqueda
  • Ordenación
  • Visualización de registros
  • Revisión y análisis de los resultados
Búsqueda en Campos y en Texto Libre

La división del registro en campos permite su recuperación a partir de búsquedas efectuadas en todo el registro considerado como una unidad o bien en campos. Cuando en una sentencia no se especifica en qué campos debe efectuarse la búsqueda, el sistema de recuperación de la información, por defecto, asume que debe buscar en el índice básico formado por el título, el resumen y las palabras clave. Pero en ocasiones convendrá que la consulta se realice en un campo concreto. Por ejemplo, para aumentar la precisión, puede efectuarse la búsqueda limitándola al campo de los descriptores. O bien para buscar un autor, habrá que ir al campo de autores. En otros casos interesará limitarla a una lengua dada.

Hipertexto

Nos permite establecer encadenamientos entre documentos a partir de términos comunes. Partiendo de un documento visualizado se puede continuar la búsqueda de otros documentos seleccionando un término que deberá aparecer en éstos. De esta forma, una ecuación inicial de búsqueda puede ir derivando, a partir de otros términos, que los registros hallados hacen intuir como más satisfactorios. En las bases de datos, este recurso nunca se utiliza a través de la pantalla de búsqueda, sino desde la de visualización de registros. Requiere por tanto, una ecuación de búsqueda de partida.

Delimitación de una Búsqueda

Las bases de datos cuentan con los llamados campos delimitadores. Se trata de unos campos indizados que pueden aceptar un número relativamente pequeño de valores. Sirven para delimitar una búsqueda estableciendo una relación de igualdad, desigualdad o un rango. Para las delimitaciones se suelen emplear los campos: fecha, lengua, tipo de publicación y, en menor medida, códigos de clasificación. Las delimitaciones posibles son: En algunos sistemas de recuperación de la información la delimitación se puede realizar sobre la búsqueda que se piensa hacer. En otros, se exige que la búsqueda ya esté formulada.

Ordenación

Una vez obtenido un conjunto documental a partir de una ecuación, es posible proceder a su ordenación. Por defecto, suele ser sobre el campo de fecha con criterio descendente, pero esto se puede alterar. Se puede, incluso, hacer sobre varios campos al mismo tiempo.

Visualización de los Registros

Confirmará la adecuación de cada registro al perfil de intereses del usuario. La mayoría de sistemas de recuperación de la información brindan distintas opciones de visualización con formatos más o menos extensos. Algunos sistemas de recuperación de la información permiten marcar los documentos interesantes a medida que se visualizan.

Exportación de los Registros

Algunas bases de datos permiten exportar registros o descargar los resultados en distintos formatos de:

  • Texto (txt, pdf, xml, rtf)
  • Gestores de referencia bibliográficas (Procite, RefWorks, Reference Manager o Ednote)

Incluso algunos nos permiten enviárnoslo por correo electrónico.

Entradas relacionadas: