Fundamentos del Proceso KDD y Minería de Datos: Conceptos y Metodología

Enviado por Programa Chuletas y clasificado en Magisterio

Escrito el en español con un tamaño de 3,2 KB

Definición de KDD

El KDD (Knowledge Discovery in Databases) se define como un proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos (Extracción del Conocimiento).

La Minería de Datos (DM) como Fase del KDD

La minería o prospección de datos (DM) es una fase fundamental del KDD:

  • Integra métodos de aprendizaje automático y estadísticos para obtener hipótesis de patrones y modelos.
  • Al ser la fase de generación de hipótesis, frecuentemente se asimila el KDD con la DM.
  • Las connotaciones de aventura y rentabilidad del término “minería de datos” han consolidado su uso como identificador del área.
  • Aunque el analista mantiene la capacidad de proponer modelos, el sistema encuentra y sugiere modelos de forma autónoma.

Ventajas de la Minería de Datos

  • Eficiencia: Generar un modelo requiere menos esfuerzo manual y permite evaluar cantidades ingentes de datos.
  • Optimización: Se pueden evaluar múltiples modelos generados automáticamente, aumentando la probabilidad de encontrar una solución óptima.
  • Accesibilidad: El analista requiere menos formación técnica especializada en la construcción de modelos.

Fases del Proceso KDD

  • Recogida de Datos: Se realiza en bases de datos y otras fuentes diversas, tanto internas como externas. Muchas de estas fuentes son las utilizadas para el trabajo transaccional.
  • Selección, Limpieza y Transformación de Datos.
  • Minería de Datos.

Desafíos en la Aplicación de Técnicas

Más allá del gran volumen, las técnicas de aprendizaje automático y estadística no siempre son directamente aplicables debido a:

  • Almacenamiento: Los datos residen en el disco y no pueden escanearse múltiples veces.
  • Compatibilidad: Algunas técnicas de muestreo no son compatibles con algoritmos no incrementales.
  • Dimensionalidad: Se presenta una muy alta dimensionalidad (gran cantidad de campos).
  • Calidad: Presencia de evidencia positiva y datos imperfectos.

Adaptación y Descubrimiento de Patrones

El interés en la investigación de la minería de datos reside en la adaptación de técnicas según el conocimiento que se desea extraer:

  • Una vez recogidos los datos, el explorador define el tipo de patrón a descubrir.
  • El objetivo marca la técnica de minería a utilizar.
  • Según la naturaleza de la búsqueda, distinguimos entre:
    • Directed data mining: Se conoce claramente el objetivo, generalmente predecir datos o clases específicas.
    • Undirected data mining: No se conoce el objetivo final; se trabaja con los datos hasta extraer información relevante.

Entradas relacionadas: