Data Mining: Conceptos, Técnicas y Procesos Fundamentales
Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 4,83 KB
Data Mining: Conceptos Fundamentales y Procesos
El Data Mining es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
Fases del Proceso de Data Mining
Selección y Limpieza de Datos
Esta fase comprende dos pasos cruciales:
- Selección: La selección de los datos de acuerdo con criterios específicos.
- Limpieza: La eliminación de información que se considera innecesaria y que puede ralentizar las consultas. El resultado es un conjunto de datos consistente.
Transformación de Datos
Consiste en hacer los datos útiles y significativos. Incluye:
- Discretización: Transformación de datos numéricos a nominales (Numérico → Nominal).
- Normalización: Ajuste de valores a un rango específico, por ejemplo, [0,1].
Aprendizaje (Learning)
Consiste en la extracción de patrones a partir de los datos, un proceso fundamental en el Machine Learning.
Interpretación y Evaluación
Esta fase se divide en:
- Interpretación: Los patrones identificados por el sistema se interpretan para generar conocimientos que luego pueden ser utilizados para apoyar la toma de decisiones humanas (human decision-making).
- Evaluación: Para determinar qué técnicas utilizar, se emplean métodos como la Cross-validation o el cost-sensitive learning.
Técnicas de Data Mining
Técnicas de Clasificación
El objetivo principal de estas técnicas es predecir situaciones futuras.
- Árboles de Decisión (Decision Trees): Se basan en la ganancia del atributo (gain(atributo)), que mide la calidad de un atributo para dividir los datos en ramas. Depende del número de "sí" y "no" en las decisiones.
- Reglas de Clasificación (Classification Rules).
Diferencias Clave entre Algoritmos de Clasificación
Existen diferencias fundamentales en cómo operan:
- El algoritmo Divide-and-conquer elige un atributo para maximizar la ganancia de información (information gain).
- Los algoritmos Covering eligen un par atributo-valor para maximizar la probabilidad de la clasificación deseada.
Técnicas de Asociación
El objetivo es identificar la frecuencia de asociación entre elementos. Estas técnicas pueden predecir cualquier atributo, no solo la clase, lo que les otorga la libertad de predecir combinaciones de atributos.
Reglas de Asociación (Association Rules)
Descubren las relaciones entre las variables en grandes bases de datos, encontrando patrones y tendencias interesantes.
Métricas Clave en Reglas de Asociación
- Soporte (Support): Es el número de instancias en las que un patrón predice correctamente.
- Confianza (Confidence): Es el número (expresado en porcentaje) de instancias en las que un patrón predice correctamente.
Clustering (Agrupamiento)
El Clustering es la asignación de objetos en grupos (llamados clusters), de modo que los objetos de un mismo cluster son más similares entre sí que los objetos de diferentes grupos. Se aplican cuando no existe una clase predefinida, sino cuando las instancias se deben dividir en grupos naturales.
Tipos de Clustering
- Clustering Particional (Partitional Clustering): Implica la división de los datos en clusters.
- Clustering Jerárquico (Hierarchical Clustering): Organiza las agrupaciones como un árbol jerárquico.
Algoritmo K-means
Un algoritmo popular de clustering particional con las siguientes características:
- Cada grupo está asociado con un centroide.
- Cada punto se asigna al cluster con el centroide más cercano.
- Se debe especificar el número de clusters, K.
Lógica Difusa (Fuzzy Logic)
La Lógica Difusa (Fuzzy Logic) es un enfoque para el razonamiento que es aproximado en lugar de fijo y exacto. Su proceso típico es:
Input → Fuzzification → Rules → Defuzzification