Data Mining y Big Data: Técnicas y Aplicaciones
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 4,77 KB
Data Mining
Data Mining: obtener información implícita: patrones de comportamiento de clientes, asociaciones de productos, relaciones entre variables como el precio y el nivel de consumo.
Ámbitos de aplicación:
- Generación de perfiles de clientes
- Análisis de desviaciones
- Análisis de tendencias
Etapas de la metodología:
- Muestreo
- Exploración: determinar las tendencias principal, rango de las variables clave, frecuencia de valores
- Modificación/Filtrado según requisitos
- Modelización del comportamiento: redes neuronales, árboles de decisión
- Evaluación: validar
- Presentación gráfica
Aplicaciones del Data Mining:
- Análisis de las asociaciones de productos y análisis de afinidades. Determinar patrones de compra.
- Segmentación y agrupamiento de clientes (clustering). Grupos de clientes con patrones de compra similares.
- Clasificación de clientes. Identificar el grupo a que pertenece el cliente.
- Rentabilidad del cliente.
- Análisis de riesgos.
- Prevención del fraude.
- Predicción del comportamiento de los clientes.
- Web mining.
Big Data
En la integración de datos ahora nos encontramos con ELT (Extract Load Transform) mediante carga batch, carga en tiempo real como CDC (Change Data Capture) y carga masiva como Streaming.
La nueva arquitectura diseñada para el Big Data denominada Unified Data Architecture puede clasificarse en 6 bloques principales:
- Tenemos diversas fuentes como Audio, Sensores, Web, CRM o ERP.
- Esta se adquieren mediante ingesta de datos como Batch o en tiempo real.
- El Data engine es la composición que permite el Big Data compuesto por 7 partes:
- El Data Lake es un repositorio de almacenamiento con datos en bruto, utiliza arquitectura plana y con los datos en cualquier formato.
- El Data Warehouse tradicionalmente tiene sistema schema-on-write, esto obliga a definir un modelo de datos que defina qué vamos a querer hacer con los datos antes de cargarlos.
- El Virtual Query comprende el lenguaje de consulta, se busca un lenguaje que facilite consultas complejas y que a la vez permita consultas normales o sencillas. VQL es el candidato.
- El NotOnlySQL es una BBDD no relacional, distribuida y de alto rendimiento. Sin esquemas en el registro de datos que permiten consultas Map-Reduce las cuales fraccionan los datos y los procesan en paralelo.
- In Memory son BBDD que realizan los procesos en la memoria principal.
- Operational son BBDD clásicas dedicadas al reporting.
- Compute Cluster es un conjunto de CPUs para los cálculos pesados, se utilizan tarjetas gráficas GPUS.
- Para el bloque de Análisis está compuesto por 3 bloques:
- El Multi Genre es un procedimiento en que se ejecutan múltiples enfoques analíticos, esto se utiliza para procesos de descubrimiento que proporcionan a los usuarios capacidades analíticas avanzadas mediante machine-learning.
- El Emerging es la capa que incluye herramientas analíticas OpenSource.
- Conventional que ofrece acceso a los datos convencionales.
- La siguiente capa es la de Acceso compuesta por los diferentes métodos de sistemas y herramientas que dan acceso a la información de la plataforma.
- Al fin del ciclo son los Usuarios que son el cliente final, ya pueden ser ejecutivos, socios, Ingenieros, Científicos de datos.