Recuperación de la Información: Conceptos y Modelos

Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 189,15 KB

¿Qué es la recuperación de la información?

Es proporcionar información relevante al usuario para satisfacer una necesidad de información. Pero de manera más genérica podemos decir que la recuperación de la información intenta resolver el problema de 'encontrar y rankear documentos más relevantes que satisfagan la necesidad de información de un usuario, expresada en un determinado lenguaje de consulta'

¿Qué es rankear?

Es posicionar algo que este más buscando actualmente.

¿Cuáles son las problemáticas de la recuperación de la información?

El problema puede ser estudiado desde 2 puntos de vistas: el computacional y el humano.

  • Computacional, tiene que ver con la construcción de estructuras de datos y algoritmos eficientes que mejoren la calidad de las respuestas.
  • Humano, al estudio del comportamiento y de las necesidades del usuario.

¿Qué es el sistema de recuperación de la información (SRI)?

Son herramientas informáticas que permiten recuperar información específica que se encuentra almacenada, organizada e indexada con anterioridad. Estas herramientas le permiten al usuario encontrar la información mediante la utilización de claves y combinaciones de campos o caracteres booleanos.

¿Qué es la información y dato?

  • Dato, una representación simbólica de alguna situación o conocimiento, sin ningún sentido semántico, describiendo situaciones u hechos 'Sin transmitir mensaje alguno'. Puede ser número, letra o un hecho
  • Información, es un conjunto de datos, los cuales son procesados, para de esta manera puedan proveer 'un mensaje' que contribuya a la toma de decisión a la hora de resolver un problema, además de incrementar el conocimiento, en los usuarios que tiene acceso a dicha información.

Dibuje el esquema de la problemática de recuperación de la información

Imagen

Explique y dibuje la arquitectura básica de un SRI

Imagen

El usuario a través de una interfaz consulta una búsqueda, lo cual esa consulta lo vuelve en un algoritmo de búsqueda la cual pasa por un proceso [de colección Corpus (conjunto de doc. De Inf.) Hace una representación lógica, lo indexa (dar punteros a cada elemento) se registra en una BD] del cual usa esos índices y procede a rankear y generar una respuesta saliendo por la interfaz y proporcionándoselo al usuario.

¿Qué tópicos abarca la Recuperación de la Información?

Explique cada una de ellas.

  • Modelos de recuperación
  • Filtrado y ruteo
  • Clasificación
  • Agrupamiento (Clustering)
  • Sumarización
  • Detección de novedades
  • Respuestas a preguntas
  • Extracción de información
  • Recuperación Cross-Lenguage
  • Búsqueda WEB
  • RI Distribuida
  • Modelado de usuarios
  • RI Multimedia

¿Cuáles son las diferencias entre SGBD y SRI?

Imagen

¿Qué es la ciencia de datos?

Es un campo científico interdisciplinario en el que se analizan e interpretan grandes cantidades de datos (Big Data). Se basa en conocimientos propios del sector estadístico, análisis de datos, machine learning (aprendizaje automático), métodos científicos, procesos, sistemas y algoritmos. Con finalidad de extraer información relevante e implementarla en distintas industrias y tecnologías

¿De qué forma interactúa el usuario con el SRI?

La tarea de RI se puede dar de varias formas, de acuerdo a como interactúa el usuario la cual está dividida en 2 partes:

  • Recuperación inmediata, donde el usuario plantea su necesidad de información y a continuación obtiene referencias a los documentos que el sistema ve relevante.
  • Recuperación diferida, donde el usuario especifica sus necesidades y el sistema entregará de forma continua los nuevos documentos que le lleguen y concuerden con esta. Esta modalidad se lo llama 'filtrado y ruteo' y la necesidad del usuario define un perfil de los documentos buscados.

Explique las 2 modalidades de Recuperación inmediata

a) Búsqueda (propiamente dicha) o recuperación 'ad-hoc', es donde el usuario formula una consulta en un lenguaje y el sistema la evalúa y responde. Aquí el usuario tiene suficiente comprensión de su necesidad y sabe cómo expresar una consulta al sistema. Ej.: Buscador de google. b) Navegación o Browsing, Aquí el usuario utiliza un enfoque diferente al anterior, donde el sistema ofrece una interface con temas donde el usuario 'navega' por dicha estructura y obtiene referencia a documentos relacionados. Lo cual facilita la búsqueda a usuarios que no pueden definir claramente como comenzar una consulta, definiendo sus necesidades a medida que observan diferentes documentos. Ej.: Proyecto Open Directory.

¿Cómo funciona un 'perfil' en Recuperación diferida?

Nótese que un perfil es como un query y puede ser tratado como tal, cada vez que un documento arriba al sistema se compara con el perfil y si es relevante, se envía al usuario.

¿A qué se refiere el concepto de Relevancia en RI?

Se plantea relevancia como similitud. En que 'un documento es relevante a una consulta si son similares', donde la medida de similitud puede estar basada en criterios como: coincidencia de términos, significado de estos, frecuencia de aparición de términos y distribución de vocabulario.

¿Qué es un modelo en RI?

Es la representación abstracta de un proceso, en el cual describe los procesos humanos y computacionales involucrados en la recuperación. Ya sea en el comportamiento de la persona que intenta recuperar información, la forma en que se rankean los documentos y los componentes del sistema (como usuarios, necesidades de información consultas, documentos, etc.)

¿Qué permiten los modelos y que especifica?

Los modelos permiten estudiar propiedades, sacar conclusiones y hacer predicciones. Donde la calidad de conclusiones dependerá de que tanto el modelo se ajuste a la realidad. Los Modelos en RI especifican lo siguiente: La representación de documentos, de consultas y la función de recuperación.

¿A qué se refiere el Matching exacto y el Matching aproximado?

-El matching exacto, la consulta especifica un criterio de recuperación preciso donde el documento puede coincidir o no con la consulta, y el resultado es el conjunto de documentos (usualmente sin orden). - El matching aproximado, la consulta describe un criterio de recuperación de los documentos deseados, en donde cada documento tiene un grado de coincidencia con la consulta, el resultado es una lista ordenada de documentos, el primero es el 'mejor'

Mencione los modelos clásicos de RI

- Modelo Booleano (Teoría de conjuntos) - Modelo probabilístico (Teoría de probabilidades) - Modelo de espacio de vectores (algebraico / estadístico)

Mencione algunas características que creas importante sobre los modelos clásicos de RI

Podríamos mencionar las siguientes: - Cada documento está representado por un conjunto de Keywords o términos indexados. - Los buscadores asumen que todas las palabras son términos indexables (full text representation). - No todos los términos son igualmente útiles para representar el contenido de un documento. - La importancia de los términos indexados está representado por el peso que se asocia a ellos: Ki es un término indexado, dj es un documento, Wij es el peso asociado con Ki en dj

¿Cómo es la clasificación de los modelos de los SRI?

Los SRI toman un conjunto de documentos (colección) para procesar y luego poder responder consultas, entonces se clasifican en documentos estructurados y no estructurados.

Imagen

¿De qué se trata el modelo Booleano?

Está basado en la teoría de conjuntos y algebra de Boole, en este modelo, cada documento se representa por un conjunto de términos, donde cada uno se trata como variable booleana que se instancia en verdadero si el término está presente en el documento y en falso por lo contrario.

¿Cómo es la representación de documentos en el modelo booleano?

Se representa sobre una matriz binaria documento-término, donde los términos han sido extraídos manualmente o automáticamente de los documentos y representan el contenido de los mismos.

Imagen

Explique los diferentes operadores usados en el modelo Booleano

Podemos ver los siguientes tipos de operadores: - Operador AND, es el encargado de intersectar o especificar que 2 condiciones, premisas o términos tienen que cumplirse obligatoriamente, simultáneamente o a la vez. - Operador OR, esto implica unión, alternativa o adición. Significa que 2 conjuntos conectados por OR se sumarán o unirán y si constan elementos comunes, estos también se recogerán. -Operador NOT, esto implica resta, diferencia, reducción o sustracción. Esto es restar a un conjunto de documentos aquellos que contengan el término B (EJ: A NOT B). - Operador XOR, se utiliza para seleccionar todos los elementos complementarios de los conjuntos. Dicho de otra forma evita las intersecciones.

Indique las ventajas y desventajas del modelo Booleano

Entre las ventajas tenemos las siguientes: *Consultas simples y fáciles de entender. *Implementación relativamente sencilla. Desventajas: *No ofrece ranking de los documentos (Se usa orden cronológico). *La formulación de consultas en forma de expresiones lógicas puede ser dificultosa para usuarios inexpertos. *Las consultas devuelven muchos documentos o muy pocos para una consulta del usuario.

¿De qué se trata el modelo Probabilístico?

Captura el problema de RI en un marco probabilístico, donde dada una consulta q y un documento d en la colección, el modelo estima la probabilidad de que el usuario evalúe el documento d como relevante.

¿Cómo responde el modelo probabilístico dado una consulta?

Responde de 2 maneras: documentos relevantes o irrelevantes. Entonces asume que existe un subconjunto R de la colección que contiene solo los documentos relevantes. Y la respuesta ideal debería ser R que maximiza la probabilidad de relevancia.

¿Cómo funciona el modelo probabilístico?

Se recupera un conjunto de documentos inicial con algún otro método (booleano), el usuario inspecciona los documentos buscando aquellos relevantes (10 o 20 primeros), el sistema IR usa esta información para refinar la descripción del conjunto ideal y repite el proceso para mejorar tal descripción. La descripción del conjunto ideal se modela en términos probabilísticos.

¿Cuándo se recupera un documento en el modelo Probabilístico?

Un documento se recupera si la probabilidad de pertenecer al conjunto de documentos relevantes es mayor que de la pertenecer a los no relevantes. P (Rel|d) > P (noRel|d) Similitud de un documento a una consulta:

Menciona las ventajas y desventajas del Modelo Booleano

Entre las ventajas: *Los documentos se rankean en base a la probabilidad de ser relevante. Desventajas: *La necesidad de una separación inicial de los documentos en relevantes e irrelevantes. *No toma en cuenta la frecuencia de los términos. *Asume independencia entre las palabras.

¿A qué se refiere el Modelo de Espacio de Vectores?

Es un modelo de matching aproximado, donde asume que cualquier objeto textual puede representarse mediante un vector de términos (documentos, consultas, etc.) y donde la similitud se determina mediante la distancia en el espacio de vectores.

¿Qué es la medida de similitud y de qué manera influye entre consulta-documento?

Es una función que permite calcular el grado de cercanía de dos vectores en el espacio. Usar la medida de similitud entre una consulta y un documento permite: *Ordenar documentos recuperados de acuerdo a su relevancia. *Controlar el número de documentos recuperados mediante el uso de un umbral.

¿Cuándo se recupera un documento en el modelo de espacio de Vectores?

Un documento se recupera aun cuando coincida solo parcialmente con los términos de consulta. La similitud entre un documento D y una consulta Q puede calcularse:

Entradas relacionadas: