Fundamentos y Aplicaciones de la Minería de Datos
Enviado por Chuletator online y clasificado en Francés
Escrito el en
español con un tamaño de 4,82 KB
Data Mining
Data Mining: Se define como la extracción de información comprensible, útil y previamente desconocida desde grandes cantidades de datos almacenados en diferentes formatos.
Tipos de modelos
1. Modelos descriptivos
Identifican patrones que explican o resumen los datos.
- a. Reglas de asociación: Expresan patrones de comportamiento en los datos.
- b. Clustering: Agrupación de los casos homogéneos.
2. Modelos predictivos
Estiman valores de variables de interés a partir de otras variables.
- a. Regresión: Variable a predecir continua.
- b. Clasificación supervisada: Variable a predecir discreta.
Reconocimiento de patrones
Clasificación supervisada
Dadas N instancias caracterizadas por sus variables predictoras y una etiqueta variable clase, el objetivo es transformar esos datos en un modelo de clasificación capaz de predecir con alta fiabilidad la clase de un nuevo ejemplo.
Clasificación no supervisada
Dadas N instancias caracterizadas por sus atributos y sin etiquetas, el objetivo es obtener grupos con alta variabilidad entre los clusters y con baja variabilidad dentro de los mismos.
Clasificación semi-supervisada
Surge con el problema de que no todos los ejemplos están etiquetados; de hecho, la mayoría no lo están. Por ejemplo, en la web tenemos ejemplos positivos (páginas en las que estamos interesados), ejemplos negativos (páginas que no nos interesan) y ejemplos no etiquetados (páginas que no conocemos).
Clasificación parcialmente supervisada
Por ejemplo, descubriendo instancias (genes) asociadas a una enfermedad (variable clase). Se conoce que algunos genes están asociados a esa enfermedad (instancias positivas), pero del resto de los genes no se puede asegurar que estén asociados a dicha enfermedad (instancias negativas).
Tipos de datos
- Bases de datos relacionales.
- Bases de datos espaciales.
- Bases de datos temporales.
- Bases de datos documentales.
- Bases de datos multimedia.
- WWW (World Wide Web).
Knowledge Discovery from Databases (KDD)
El proceso KDD consta de los siguientes pasos:
- Integración y recopilación de datos: Procesamiento, decisiones estratégicas y almacenamiento.
- Selección, limpieza y transformación: Calidad de los datos, detección de anomalías, presencia de datos perdidos, selección de variables relevantes, construcción aleatoria de nuevas variables, discretización de variables y selección de casos aleatorios.
- Minería de datos: Aplicación de modelos predictivos y descriptivos.
- Evaluación e interpretación: Validación simple, validación cruzada (técnicas de validación), reglas de asociación, clustering y regresión.
- Difusión y uso: Medir la evolución del modelo a largo plazo para reevaluarlo, reentrenarlo y reconstruirlo.
Paradigmas de la minería de datos
1. Paradigmas de la clasificación supervisada
- a. Árboles de clasificación: Pueden expresarse en forma de reglas, poseen alta transparencia y son cercanos a la manera en la que los humanos estructuran el dominio.
- b. K-NN (IBL, Lazy Learning, CBR): Método simple e intuitivo, fácil de implementar.
- c. Regresión logística:
- i. Variable clase binaria: Modelo discriminativo en el cual los parámetros son estimados por máxima verosimilitud.
- d. Redes bayesianas:
- i. Naïve Bayes: Variables predictoras condicionalmente independientes.
- ii. K-DB.
2. Paradigmas de la clasificación no supervisada
- a. Cluster particional: Evolución de las K-medias.
Campos de aplicación de la minería de datos
- Tarjetas de crédito (no supervisado).
- Concesión de crédito.
- Fidelización de clientes (supervisado).
- Análisis de la cesta de la compra (no supervisado).
- Segmentación de clientes (no supervisado).
- Gestión de clientes.
- Educación (estudiantes ya clasificados).
- Diagnóstico de enfermedades.
- Microarrays de ADN.
- Predicción de la estructura de las proteínas (supervisado).
- Detección de Spam.
- Filtrado corporativo (podría ser supervisado).
- Éxito de las canciones.
- Predicción de lesiones deportivas.
- Quinielas.