Fundamentos de la Gestión y Ciencia de Datos: Conceptos Esenciales

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 3,48 KB

1. Dato vs. Información

Dato: Representación cruda, hechos y cifras sin significado propio.
Información: Datos procesados, organizados y con contexto o significado.

2. Ciclo de Vida del Dato (6 Fases)

  • Creación: Origen (sensores, encuestas, registros).
  • Almacenamiento: Guardado (bases de datos, servidores, nube).
  • Procesamiento: Transformar, limpiar y enriquecer.
  • Análisis: Extraer patrones, insights y tomar decisiones.
  • Archivado: Mover datos inactivos a largo plazo.
  • Eliminación: Borrado seguro cuando ya no hay utilidad.

3. Ecosistema Tecnológico

  • Big Data (BD): Recopilación de volúmenes masivos incuantificables por herramientas tradicionales.
  • Análisis de datos: Procesar y examinar para extraer información y decidir.
  • IA (Inteligencia Artificial): Sistemas que imitan la inteligencia humana y deciden automáticamente.
  • Machine Learning (ML): Subcampo de la IA; algoritmos para aprender patrones de datos.
  • Deep Learning (DL): Subcampo del ML; redes neuronales profundas para datos no estructurados.

4. Características del Big Data (Las 5 V's)

3 V Básicas

  • Volumen: Cantidad masiva (TB, PB, EB).
  • Velocidad: Rapidez de generación y proceso (Streaming, Near Real Time).
  • Variedad: Formatos (estructurado, semiestructurado, desestructurado).

V's Compuestas

  • Veracidad: Validar precisión y calidad.
  • Valor: Utilidad para el negocio y la toma de decisiones.

(Otras: Viabilidad, Visualización)

5. Etapas de la Ciencia de Datos

  1. Definición del problema.
  2. Recolección.
  3. Limpieza/Preprocesamiento (quitar nulos y errores).
  4. Análisis exploratorio (EDA: ver tendencias).
  5. Modelado (algoritmos ML/DL).
  6. Validación/Evaluación (mecanismos métricos).
  7. Despliegue.
  8. Mantenimiento/Monitorización.

6. Cloud Storage (Almacenamiento Remoto)

  • Data Lake: Guarda datos brutos, crudos y sin estructurar (Ej: Amazon S3: JSON, CSV).
  • Data Warehouse: Datos estructurados, limpios y optimizados para BI (Ej: Google BigQuery: tablas SQL).
  • Ventajas Cloud: Escalabilidad, flexibilidad, reducción de costes (pago por uso), alta disponibilidad e innovación rápida.

7. Objetivos en la Empresa

  • Optimizar procesos (eficiencia, reducción de costes).
  • Predicción de demanda y ventas.
  • Personalización de servicios.
  • Detección de fraudes.

8. Perfiles Profesionales

Gestión

  • CDO (Chief Data Officer): Estrategia y gobierno corporativo del dato.

Técnicos

  • Analista/Data Scientist: Analiza y modela.
  • Data Engineer: Diseña tuberías e infraestructura.
  • Sysadmin: Administra servidores y nube.

9. Reglamentación (Punto crítico)

RGPD: Reglamento General de Protección de Datos (obliga a velar por la seguridad y privacidad).

Entradas relacionadas: