Fundamentos de la Gestión y Ciencia de Datos: Conceptos Esenciales
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en
español con un tamaño de 3,48 KB
1. Dato vs. Información
Dato: Representación cruda, hechos y cifras sin significado propio.
Información: Datos procesados, organizados y con contexto o significado.
2. Ciclo de Vida del Dato (6 Fases)
- Creación: Origen (sensores, encuestas, registros).
- Almacenamiento: Guardado (bases de datos, servidores, nube).
- Procesamiento: Transformar, limpiar y enriquecer.
- Análisis: Extraer patrones, insights y tomar decisiones.
- Archivado: Mover datos inactivos a largo plazo.
- Eliminación: Borrado seguro cuando ya no hay utilidad.
3. Ecosistema Tecnológico
- Big Data (BD): Recopilación de volúmenes masivos incuantificables por herramientas tradicionales.
- Análisis de datos: Procesar y examinar para extraer información y decidir.
- IA (Inteligencia Artificial): Sistemas que imitan la inteligencia humana y deciden automáticamente.
- Machine Learning (ML): Subcampo de la IA; algoritmos para aprender patrones de datos.
- Deep Learning (DL): Subcampo del ML; redes neuronales profundas para datos no estructurados.
4. Características del Big Data (Las 5 V's)
3 V Básicas
- Volumen: Cantidad masiva (TB, PB, EB).
- Velocidad: Rapidez de generación y proceso (Streaming, Near Real Time).
- Variedad: Formatos (estructurado, semiestructurado, desestructurado).
V's Compuestas
- Veracidad: Validar precisión y calidad.
- Valor: Utilidad para el negocio y la toma de decisiones.
(Otras: Viabilidad, Visualización)
5. Etapas de la Ciencia de Datos
- Definición del problema.
- Recolección.
- Limpieza/Preprocesamiento (quitar nulos y errores).
- Análisis exploratorio (EDA: ver tendencias).
- Modelado (algoritmos ML/DL).
- Validación/Evaluación (mecanismos métricos).
- Despliegue.
- Mantenimiento/Monitorización.
6. Cloud Storage (Almacenamiento Remoto)
- Data Lake: Guarda datos brutos, crudos y sin estructurar (Ej: Amazon S3: JSON, CSV).
- Data Warehouse: Datos estructurados, limpios y optimizados para BI (Ej: Google BigQuery: tablas SQL).
- Ventajas Cloud: Escalabilidad, flexibilidad, reducción de costes (pago por uso), alta disponibilidad e innovación rápida.
7. Objetivos en la Empresa
- Optimizar procesos (eficiencia, reducción de costes).
- Predicción de demanda y ventas.
- Personalización de servicios.
- Detección de fraudes.
8. Perfiles Profesionales
Gestión
- CDO (Chief Data Officer): Estrategia y gobierno corporativo del dato.
Técnicos
- Analista/Data Scientist: Analiza y modela.
- Data Engineer: Diseña tuberías e infraestructura.
- Sysadmin: Administra servidores y nube.
9. Reglamentación (Punto crítico)
RGPD: Reglamento General de Protección de Datos (obliga a velar por la seguridad y privacidad).