Recursos de información en la empresa: Big Data, Data Science y Data Mining

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 3,5 KB

Recursos de información en la empresa

Slides 1: Big Data

Todos generamos datos de todo tipo.

El progreso y la innovación ya no está entorpecido por la capacidad de obtener datos, sino por la capacidad de gestionar, analizar, resumir, visualizar y descubrir conocimiento de los datos obtenidos en un tiempo razonable y de forma escalable.

En 2012 se estimó que se generaban alrededor de 2,5 exabytes al día. (1 exabyte = 1.000.000.000 GB)

En el Big Data ha entrado un nuevo participante, el Internet de las Cosas (IoT), que se estima que en 2018 habrá generado un total de 400 zettabytes. (1 zettabyte = 1000 exabytes)

El modelo de generar y consumir datos ha cambiado: antes solo algunas empresas creaban datos y el resto los consumía; ahora todos generamos datos y los consumimos.

Big Data no tiene una definición estándar; hace referencia a los datos cuya escala, diversidad y complejidad requieren nuevas arquitecturas, técnicas, algoritmos y métodos para gestionarlos y extraer valor y conocimiento de estos datos.

El volumen de datos en la actualidad crece exponencialmente.

Características del Big Data

Complejidad (Variedad)

  • Hay varios formatos, tipos y estructuras: pueden ser datos de texto, numéricos, imágenes, audio…
  • Existen datos estáticos y flujos de datos.
  • Una sola aplicación puede generar y consumir varios tipos de datos.

Velocidad

  • Los datos se generan rápido y deben ser procesados de igual forma.
  • Análisis de datos online.
  • Decisiones con retraso son oportunidades perdidas.

Hay Big Data con 3V, 4V e incluso 5V.

Retos en el manejo del Big Data

Se necesitan nuevas arquitecturas, algoritmos, técnicas y expertos que utilicen las nuevas tecnologías para trabajar con Big Data.

Ecosistema Big Data

Infraestructuras

NoSQL databases, Hadoop, MapReduce.

Analytics

Integración y análisis, visualización, business intelligence, aprendizaje automático.

Data Science

Tenemos muchos datos pero muy poco conocimiento.

Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación con sus clientes; las empresas recogen datos de todos los procesos. Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar, y aquí es donde Data Mining juega su papel.

Data Mining

Data Mining es el análisis y la exploración, por medios automáticos o semiautomáticos, de grandes cantidades de datos para descubrir patrones significativos y reglas. La meta del Data Mining es permitir a la organización mejorar sus ventas, sus campañas de marketing, etc.

Estas técnicas existían hace años, y a día de hoy se utilizan para conocer a los clientes, detectar segmentos, calcular perfiles y el cross-selling, evitar la cancelación de clientes ("churning"), detectar morosidad, campañas de adquisición de clientes…

Problemas típicos

  • Clasificación o predicción: Árboles de decisión, regresión.
  • Descriptivos:
    • Clustering: K-medias, métodos basados en densidad, 2-steps.
    • Asociaciones: algoritmo Apriori.

Entradas relacionadas: