Minería de Datos: Conceptos Clave y Aplicaciones Prácticas

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 4,79 KB

Clasificación del Conocimiento en los Datos

El conocimiento contenido en los datos se puede clasificar en las siguientes categorías:

  • Conocimiento Evidente: Información fácilmente recuperable mediante una simple consulta SQL.
  • Conocimiento Multidimensional: Nivel de abstracción que considera los datos con una cierta estructura.
  • Conocimiento Oculto: Información no evidente, desconocida a priori y potencialmente útil.
  • Conocimiento Profundo: Información que está almacenada en los datos, pero que resulta imposible de recuperar a menos que se disponga de alguna clave que oriente la búsqueda.

¿Qué es la Minería de Datos?

La minería de datos analiza los datos para encontrar patrones ocultos usando medios automatizados. Su objetivo principal es crear un proceso automatizado que toma como punto de partida los datos y finaliza con la ayuda en la toma de decisiones.

Disciplinas Relacionadas con la Minería de Datos

Algunas disciplinas relacionadas con la minería de datos son:

  • Tecnología de Base de Datos
  • Estadística
  • Matemáticas
  • Ciencias de la Información
  • Visualización

¿Por qué usar Minería de Datos?

La minería de datos se ha vuelto esencial debido a la gran cantidad de datos que se generan y almacenan diariamente. Esto incluye datos de la web, comercio electrónico, compras, transacciones bancarias y de tarjetas de crédito, entre otros.

Clasificación de las Tareas de la Minería de Datos

Las tareas de la minería de datos se pueden clasificar en:

  • Descriptivas: OLAP, Clustering, Métodos Factoriales (ACP, AFC).
  • Predictivas: Series de Tiempo, Regresión, Árboles de Decisión.

KDD e Inteligencia de Negocios

  • KDD (Knowledge Discovery in Databases): Es el proceso de encontrar información y patrones útiles en los datos.
  • Inteligencia de Negocios (Business Intelligence): Parte de la gestión empresarial encargada de la recogida, procesamiento y presentación de información relevante que facilite la toma de decisiones.

La Pirámide del Conocimiento

La pirámide del conocimiento representa una jerarquía en la gestión de datos e información. Comienza con el DBA (Administrador de Base de Datos), seguido por el Analista de Datos, el Analista de Negocios y, finalmente, el Usuario Final.

Ciclo de un Proyecto de Minería de Datos

Los pasos del ciclo de un proyecto de minería de datos son:

  1. Aprender sobre el negocio.
  2. Recolectar los datos.
  3. Limpieza y transformación de datos.
  4. Definir la meta del proyecto.
  5. Elegir el algoritmo que permita optimizar el modelo.
  6. Generar reportes.
  7. Generar predicciones.
  8. Aplicar los resultados en el negocio.
  9. Actualizar el modelo.

Modelos Predictivos

  • Funcionamiento: Primero se entrena el sistema usando datos existentes. Periódicamente, se realiza un proceso de estimación de comportamientos.
  • Desarrollo: Se crea usando datos de los clientes en un proceso denominado entrenamiento.
  • Uso: Con los datos de un usuario, se puede predecir el comportamiento esperado del cliente, lo que se conoce como scoring.

Clustering

El clustering consiste en encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos.

Aplicaciones del Clustering

  • Reconocimiento de formas.
  • Mapas temáticos (GIS).
  • Marketing: Segmentación de clientes.
  • Clasificación de documentos.
  • Análisis de web logs (patrones de acceso similares).

Requisitos del Algoritmo de Clustering Perfecto

  • Escalabilidad.
  • Manejo de distintos tipos de datos.
  • Identificación de clusters con formas arbitrarias.
  • Número mínimo de parámetros.

Tipos de Algoritmos de Clustering

  • Agrupamiento por particiones.
  • Clustering jerárquico.
  • Métodos basados en densidad.

Árboles de Decisión

Los árboles de decisión son uno de los algoritmos clasificadores más conocidos y usados en las tareas de Data Mining. Su objetivo es segmentar la población para encontrar grupos homogéneos según una cierta variable de respuesta.

Tablas de Decisión

Las tablas de decisión son la forma más simple y rudimentaria para representar la salida de la máquina de aprendizaje.

Entradas relacionadas: