Big Data: Características, Hadoop, Bases de Datos NoSQL y Apache Spark

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 3,82 KB

Características Clave del Big Data

Volumen

El volumen a analizar es masivo, lo que supone retos técnicos y analíticos importantes.

Velocidad

El flujo de datos es masivo y constante. Esta velocidad provoca que los datos queden desfasados rápidamente a medida que otros nuevos aparecen.

Variedad

El origen de los datos es altamente heterogéneo debido al IoT (Internet de las Cosas). La clave reside en relacionar unos datos con otros para conseguir un análisis más completo.

Veracidad

Puesto que muchos datos pueden llegar incompletos o incorrectos, la incertidumbre puede generar dudas sobre su calidad. Por ello, las empresas deben asegurarse de que los datos recopilados sean válidos.

Valor

La oportunidad de sacar el máximo rendimiento a esos datos, entendiendo qué elementos aportan beneficio y cómo su aplicación a nivel empresarial puede ser una apuesta segura.

Apache Hadoop: Almacenamiento y Procesamiento Distribuido

Apache Hadoop es un framework de código abierto para el almacenamiento y procesamiento de grandes cantidades de datos usando clústeres con hardware de bajo coste (“commodity hardware”).

La escalabilidad es el núcleo del sistema Hadoop.

  • Almacenamiento barato: Podemos distribuir y escalar de una manera muy eficiente en coste.
  • Tolerancia a fallos: Se ha diseñado asumiendo que el hardware se estropea. Los fallos de hardware se gestionan de forma automática.
  • Gestión de fallos proactiva: El que se produzcan fallos es algo tan común que se tiene en cuenta a priori y se puede gestionar desde el propio sistema Hadoop.

Beneficios clave de Hadoop:

  • Permite fácil escalabilidad.
  • Maneja tolerancia a fallos.
  • Maneja datos heterogéneos.
  • Facilita un entorno compartido.
  • Proporciona valor a la empresa.

Bases de Datos NoSQL: Escalabilidad, Coste, Flexibilidad y Disponibilidad

Escalabilidad

La escalabilidad es la capacidad de una base de datos para adaptarse a distintos niveles de carga de trabajo de manera eficiente.

Coste

Afortunadamente, la gran mayoría de bases de datos NoSQL están disponibles de manera gratuita y abierta. La monetización del SGBD NoSQL por parte de los desarrolladores se realiza mediante el soporte a empresas.

Flexibilidad

Esta es una de las grandes diferencias entre las bases de datos relacionales y NoSQL, ya que estas últimas pueden manejar datos semiestructurados o, en algunos casos, directamente sin estructura.

Disponibilidad

La disponibilidad de un sistema hace referencia a la capacidad del mismo para estar operativo y recibir peticiones cuando estas son demandadas.

Los cuatro tipos principales de bases de datos NoSQL son:

  1. Clave/Valor
  2. Orientada a Documentos
  3. Familia de Columnas
  4. Grafos

Los SGBD NoSQL, debido a su naturaleza distribuida, se basan en el modelo BASE, mientras que las bases de datos relacionales implementan el modelo ACID.

Apache Spark: Procesamiento de Alto Rendimiento

Apache Spark es un framework de programación distribuida que ofrece un alto rendimiento tanto para procesamiento por lotes como interactivo. Tiene APIs para Java, Python y Scala, y cuenta con una cantidad significativa de proyectos relacionados.

Se le considera el sucesor de MapReduce.

Spark, con su uso de grafos acíclicos dirigidos (DAG), es más rápido que MapReduce debido a que no tiene que escribir en disco los resultados obtenidos en las etapas intermedias del grafo. MapReduce, sin embargo, debe escribir en disco los resultados entre las etapas Map y Reduce.

Entradas relacionadas: