Web Semántica y Minería de Datos: Conceptos y Herramientas Clave

Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 3,7 KB

La Web Semántica: Definición y Componentes Clave

La Web Semántica es una extensión de la Web en la que cualquier usuario puede encontrar respuestas a sus preguntas de forma rápida y sencilla. Se caracteriza por:

  • Información mejor definida.
  • Se apoya en lenguajes universales.
  • El software es capaz de procesar su contenido, razonar con este, combinarlo y realizar deducciones lógicas para resolver problemas cotidianos automáticamente.

Tecnologías Fundamentales de la Web Semántica

Nota: Facebook no es una tecnología fundamental de la web semántica, es un ejemplo de aplicación.

  • XML (Extensible Markup Language): Aporta la sintaxis superficial para los documentos estructurados, pero sin imponer restricciones sobre el significado.
  • XML Schema: Es un lenguaje para definir la estructura y el tipo de datos de los documentos XML.
  • RDF (Resource Description Framework): Es un modelo de datos para describir recursos y las relaciones entre ellos. Proporciona una semántica básica para este modelo de datos, que puede representarse mediante XML.
  • RDF Schema: Es un vocabulario para describir las propiedades y clases de los recursos RDF, con una semántica para establecer jerarquías de generalización entre dichas propiedades y clases.
  • OWL (Web Ontology Language): Añade vocabulario adicional para describir propiedades y clases, como relaciones entre clases (por ejemplo, disyunción), cardinalidad (por ejemplo, "únicamente uno"), igualdad, tipologías de propiedades más complejas, caracterización de propiedades (por ejemplo, simetría) o clases enumeradas.

Minería de Datos: Extracción de Conocimiento

La minería de datos es el proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil a partir de grandes volúmenes de datos. Su objetivo es preparar, sondear y explorar los datos para extraer la información oculta en ellos.

Procesos de la Minería de Datos

  1. Selección del conjunto de datos: Se define el conjunto de datos a analizar, incluyendo las variables dependientes, las variables objetivo y, posiblemente, el muestreo de los registros disponibles.
  2. Análisis de las propiedades de los datos: Se examinan las propiedades de los datos, incluyendo histogramas, diagramas de dispersión, la presencia de valores atípicos y la ausencia de datos (valores nulos).
  3. Transformación del conjunto de datos: Se transforma el conjunto de datos de entrada de diversas formas, en función del análisis previo, con el objetivo de prepararlo para la aplicación de la técnica de minería de datos más adecuada.
  4. Selección y aplicación de la técnica de minería de datos: Se construye el modelo predictivo, de clasificación o segmentación.
  5. Evaluación de los resultados: Se evalúan los resultados, contrastándolos con un conjunto de datos previamente reservado para validar la generalidad del modelo.

Protocolo CRISP-DM (Cross-Industry Standard Process for Data Mining)

CRISP-DM es un protocolo estándar para proyectos de minería de datos, que define las siguientes fases:

  1. Comprensión del negocio y del problema que se quiere resolver.
  2. Determinación, obtención y limpieza de los datos necesarios.
  3. Creación de modelos matemáticos.
  4. Validación, comunicación y presentación de los resultados obtenidos.
  5. Integración, si procede, de los resultados en un sistema transaccional o similar.

Entradas relacionadas: