Fundamentos de Ciencia de Datos y Estrategia para la Toma de Decisiones
Enviado por Chuletator online y clasificado en Economía
Escrito el en
español con un tamaño de 11,53 KB
Conceptos Fundamentales de Modelado y Machine Learning
Modelo: Representación matemática o lógica que aprende patrones históricos de forma autónoma.
Teorema de la Herramienta: No existe un único modelo perfecto; se deben evaluar múltiples modelos competitivos para un mismo problema de negocio.
Análisis Clúster (Segmentación): Técnica descriptiva no supervisada (datos sin etiquetas previas) que agrupa elementos buscando la máxima similitud interna (homogeneidad) y la máxima diferencia externa (heterogeneidad).
Machine Learning (ML): En ML, se le entregan los Datos Históricos + Resultados Reales pasados, y el algoritmo descubre y crea sus propias reglas o modelos matemáticos.
Tipos de Aprendizaje
- Supervisado (Con guía/etiqueta Y):
- Regresión: Predice números continuos (ej. ingresos de la empresa, precio del dólar).
- Clasificación: Predice categorías discretas/nominales (ej. cliente cae en "mora / No Mora", transacción es "Fraude / Legítima").
- No Supervisado (Sin guía/etiqueta): Busca patrones ocultos (ej. el Análisis Clúster).
Metodologías de Proyectos de Datos
CRISP-DM
Es el marco más flexible y general, aplicable en una gran variedad de industrias y tipos de proyectos, ofreciendo una estructura clara desde el entendimiento del negocio hasta el despliegue del modelo. Se utiliza cuando el gerente quiere resolver un problema comercial o estratégico desde cero.
- Entendimiento del Negocio: Definir objetivos y traducir el "dolor" de la empresa en un problema analítico.
- Entendimiento de los Datos: Recopilar y evaluar la calidad/volumen inicial.
- Preparación de los Datos: Limpieza, imputación y estructuración (ETL).
- Modelado: Aplicar algoritmos de minería (Clúster, Regresiones).
- Evaluación: Revisar si el modelo responde técnicamente y soluciona el problema de negocio inicial.
- Despliegue: Integrar la solución en el software diario de la empresa para automatizar la decisión.
SEMMA
Es un enfoque más técnico y centrado en la parte analítica, siendo muy adecuado cuando se requiere una fuerte exploración de datos antes del modelado.
- S (Sample - Muestrear): Extraer una muestra representativa para agilizar el cómputo.
- E (Explore - Explorar): Visualizar tendencias, correlaciones y datos sucios mediante gráficos.
- M (Modify - Modificar): Transformar, limpiar, realizar imputación y reducción de dimensionalidad.
- M (Model - Modelar): Fase de minería donde se corre el algoritmo (Regresión, Clasificación o Clúster).
- A (Assess - Evaluar): Validar y medir la precisión matemática junto al margen de error del modelo.
DMAIC / DMAMC
Está diseñado originalmente no para descubrir patrones de marketing, sino para eliminar la variabilidad, los errores y los defectos en procesos que ya están operando.
- Definir: Establecer qué métrica de calidad del proceso se va a mejorar.
- Medir: Recopilar datos cuantitativos del rendimiento actual del sistema.
- Analizar: Aplicar análisis de datos para encontrar la "causa raíz" del defecto o cuello de botella.
- Mejorar: Implementar modificaciones en el diagrama de flujo del proceso basadas en la evidencia.
- Controlar: Monitorear continuamente con KPIs para asegurar que la ineficiencia no vuelva a aparecer.
Infraestructura y Preparación de Datos
Big Data (Infraestructura/Contenedor): Gestión de volúmenes masivos mediante las 5 "V" (Volumen, Velocidad, Variedad, Veracidad, Valor). Motores principales: Hadoop y Apache Spark.
Reducción de Dimensionalidad (¡TÉCNICA, NO MODELO!): Proceso de preparación de datos que elimina variables (columnas) redundantes, repetidas o que causan ruido en el dataset (ej. PCA). Su meta es simplificar la matriz para que el computador procese más rápido y evitar el sobreajuste (overfitting).
Data-Driven (Organización Guiada por Datos): Enfoque administrativo donde las decisiones estratégicas de la empresa se basan en evidencia y modelos matemáticos extraídos de los datos, eliminando los sesgos de la intuición o el "olfato" de los líderes.
Data Warehouse (Almacén Central): Repositorio central, histórico y de solo lectura que unifica los datos limpios de toda la empresa. Su meta es entregar una "única versión de la verdad" para que los gerentes generen reportes consistentes, diferenciándose de las bases de datos operacionales del día a día.
ETL (Extract, Transform, Load): Proceso informático masivo e industrializado que Extrae datos de fuentes sucias, los Transforma (limpia formatos, elimina duplicados) y los Carga en el Warehouse. Es automático y a nivel corporativo.
Data Wrangling (Pelea con los Datos): Proceso iterativo y artesanal que realiza el propio analista para transformar un set de datos específico antes de ingresarlo a un modelo (puede ocupar hasta el 70% de su tiempo). Diferencia clave: ETL es masivo/corporativo; Wrangling es manual/específico.
KDD (Knowledge Discovery in Databases)
Proceso general e iterativo de 5 pasos para extraer conocimiento valioso y no trivial de grandes volúmenes de datos:
- Selección: Filtrar. Determinar las fuentes de origen y aislar los datos relevantes para el objetivo del negocio.
- Preprocesamiento: Limpiar. Eliminar el ruido, borrar registros duplicados y aplicar estrategias para manejar datos nulos o sucios.
- Transformación: Estructurar. Reducir variables (reducción de dimensionalidad) y unificar formatos para dejar la matriz lista para el computador.
- Minería de Datos: Descubrir. Fase central donde corre el algoritmo matemático (Clúster, Regresión o Clasificación) para encontrar patrones ocultos.
- Evaluación / Interpretación: Validar. Analizar si los patrones descubiertos son estadísticamente reales, útiles y comprensibles para la toma de decisiones del gerente.
Planificación Estratégica y Procesos de Negocio
Plan Estratégico: Hoja de ruta a largo plazo (3-5 años) para alcanzar los objetivos de la empresa.
- Misión (Presente): Razón de ser actual de la organización. ¿Quiénes somos y qué valor entregamos hoy?
- Visión (Futuro): Meta ambiciosa e inspiradora a largo plazo. ¿Dónde queremos estar?
- Valores Corporativos (Límites): Principios éticos y culturales que guían el comportamiento. Impactan directamente en el Gobierno de Datos (seguridad y transparencia).
Diagrama de Flujo: Representación gráfica secuencial de un proceso con símbolos estándar (tareas, decisiones). En negocio detecta cuellos de botella; en datos mapea las tuberías (ETL/KDD).
Propuesta de Valor: Declaración clara que explica cómo tu producto o servicio resuelve los problemas del cliente, qué beneficios específicos ofrece y por qué debe elegirte a ti en lugar de a la competencia.
Variables y Experimentación
- Variable Independiente (X): La causa manipulada por el investigador (ej. presupuesto de innovación).
- Variable Dependiente (Y): El efecto o resultado medido (ej. desempeño de ventas e-commerce).
- Variable Extraña: Factor externo no estudiado que afecta a Y (ej. un CyberDay o cambio de clima).
- Variable Controlada: Variable extraña neutralizada o mantenida constante para aislar el impacto real de X sobre Y.
- Variable Enmascarada: Factor oculto que no se controló y altera los resultados de forma subterránea, provocando un diagnóstico erróneo de causa-efecto.
Modelo Canvas
Lienzo de 9 bloques que resume cómo la empresa crea, entrega y captura valor:
- Segmentos de Clientes: ¿A quién? Los nichos o grupos específicos (identificables con Análisis Clúster).
- Propuesta de Valor: ¿Qué? El beneficio único o servicio diferenciador que resuelve un dolor del cliente.
- Canales: ¿Cómo llega? Medios de distribución y comunicación (tiendas, web, apps).
- Relaciones con Clientes: ¿Cómo interactúa? El tipo de vínculo construido (automatizado, personalizado).
- Actividades Clave: ¿Qué hace falta hacer? Tareas críticas indispensables (ej. desarrollo de software, logística).
- Recursos Clave: ¿Qué se necesita tener? Activos físicos, humanos o tecnológicos (Data Warehouse, servidores).
- Alianzas Clave: ¿Quién ayuda? Socios, proveedores o redes estratégicas.
- Estructura de Costos: ¿Cuánto cuesta operar? Gastos e inversiones (nube, sueldos).
- Fuentes de Ingreso: ¿Cómo entra el dinero? Vías de monetización (venta directa, suscripciones).
Análisis, Minería y Gestión del Conocimiento
Análisis de Datos: Proceso de examinar, limpiar y transformar datos con el objetivo de resumir el pasado, entender "qué pasó" e ilustrar la situación actual (enfoque descriptivo/diagnóstico).
Minería de Datos (Data Mining): Fase central y operativa (paso 4 del KDD o fase de modelado de CRISP-DM) enfocada en aplicar algoritmos matemáticos para descubrir automáticamente patrones ocultos.
Gestión del Conocimiento: Proceso estratégico de capturar, estructurar y difundir los activos intelectuales de una empresa.
- Conocimiento Tácito: Reside en la mente de las personas (experiencia, "olfato", habilidades). Es difícil de codificar o transmitir.
- Conocimiento Explícito: Formalizado, estructurado y documentado (manuales, bases de datos SQL, reportes).
Ciencia de Datos: Campo interdisciplinario que combina estadística, informática y análisis de datos para extraer información útil. Su objetivo es descubrir tendencias y relaciones para tomar decisiones informadas o predecir resultados futuros.
Imputación de Datos
Técnica de limpieza (en ETL, KDD o CRISP-DM) que reemplaza los valores faltantes o vacíos de una columna para evitar sesgos y salvar información.
- Imputación Simple: Reemplaza el vacío por un único valor estadístico fijo (media aritmética para datos simétricos o mediana para valores extremos). Es rápida pero reduce la variabilidad.
- Imputación Múltiple: Método avanzado que genera varias simulaciones basadas en las correlaciones de las otras variables. Es la mejor praxis pues mantiene la variabilidad real y mide la incertidumbre.