Data Mining y Big Data: Técnicas y Aplicaciones

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 4,77 KB

Data Mining

Data Mining: obtener información implícita: patrones de comportamiento de clientes, asociaciones de productos, relaciones entre variables como el precio y el nivel de consumo.

Ámbitos de aplicación:

  • Generación de perfiles de clientes
  • Análisis de desviaciones
  • Análisis de tendencias

Etapas de la metodología:

  1. Muestreo
  2. Exploración: determinar las tendencias principal, rango de las variables clave, frecuencia de valores
  3. Modificación/Filtrado según requisitos
  4. Modelización del comportamiento: redes neuronales, árboles de decisión
  5. Evaluación: validar
  6. Presentación gráfica

Aplicaciones del Data Mining:

  • Análisis de las asociaciones de productos y análisis de afinidades. Determinar patrones de compra.
  • Segmentación y agrupamiento de clientes (clustering). Grupos de clientes con patrones de compra similares.
  • Clasificación de clientes. Identificar el grupo a que pertenece el cliente.
  • Rentabilidad del cliente.
  • Análisis de riesgos.
  • Prevención del fraude.
  • Predicción del comportamiento de los clientes.
  • Web mining.

Big Data

En la integración de datos ahora nos encontramos con ELT (Extract Load Transform) mediante carga batch, carga en tiempo real como CDC (Change Data Capture) y carga masiva como Streaming.

La nueva arquitectura diseñada para el Big Data denominada Unified Data Architecture puede clasificarse en 6 bloques principales:

  1. Tenemos diversas fuentes como Audio, Sensores, Web, CRM o ERP.
  2. Esta se adquieren mediante ingesta de datos como Batch o en tiempo real.
  3. El Data engine es la composición que permite el Big Data compuesto por 7 partes:
    • El Data Lake es un repositorio de almacenamiento con datos en bruto, utiliza arquitectura plana y con los datos en cualquier formato.
    • El Data Warehouse tradicionalmente tiene sistema schema-on-write, esto obliga a definir un modelo de datos que defina qué vamos a querer hacer con los datos antes de cargarlos.
    • El Virtual Query comprende el lenguaje de consulta, se busca un lenguaje que facilite consultas complejas y que a la vez permita consultas normales o sencillas. VQL es el candidato.
    • El NotOnlySQL es una BBDD no relacional, distribuida y de alto rendimiento. Sin esquemas en el registro de datos que permiten consultas Map-Reduce las cuales fraccionan los datos y los procesan en paralelo.
    • In Memory son BBDD que realizan los procesos en la memoria principal.
    • Operational son BBDD clásicas dedicadas al reporting.
    • Compute Cluster es un conjunto de CPUs para los cálculos pesados, se utilizan tarjetas gráficas GPUS.
  4. Para el bloque de Análisis está compuesto por 3 bloques:
    • El Multi Genre es un procedimiento en que se ejecutan múltiples enfoques analíticos, esto se utiliza para procesos de descubrimiento que proporcionan a los usuarios capacidades analíticas avanzadas mediante machine-learning.
    • El Emerging es la capa que incluye herramientas analíticas OpenSource.
    • Conventional que ofrece acceso a los datos convencionales.
  5. La siguiente capa es la de Acceso compuesta por los diferentes métodos de sistemas y herramientas que dan acceso a la información de la plataforma.
  6. Al fin del ciclo son los Usuarios que son el cliente final, ya pueden ser ejecutivos, socios, Ingenieros, Científicos de datos.

Entradas relacionadas: