Hadoop: Almacenamiento y procesamiento de grandes cantidades de datos

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 1,91 KB

Hadoop

Framework de código abierto para el almacenamiento y procesamiento de grandes cantidades de datos usando clústers con hardware barato. La idea es mover la computación a los datos.


Hadoop MapReduce

Proporciona una arquitectura modular que permite extender su funcionalidad. MapReduce permite realizar cómputos con enormes datasets.


Características

  • Permite fácil escalabilidad
  • Maneja tolerancia a fallos
  • Maneja datos heterogéneos
  • Facilita un entorno compartido
  • Proporciona valor a la empresa


Los componentes principales de Hadoop son MapReduce, YARN y HDFS.


HDFS

Sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop. Sirve como base para la mayoría de las herramientas del ecosistema Hadoop.


Proporciona dos tipos de capacidades para procesar Big Data: escalabilidad y tolerancia a fallos.


Permite almacenar y leer enormes volúmenes de datos gracias a que trocea y reparte el archivo entre los diferentes nodos. Si un nodo falla, HDFS recupera mediante redundancia de bloques.

Tiene 3 copias de cada bloque.


Se compone de NameNode para los metadatos y DataNode para el almacenamiento de los bloques. Funcionan mediante una relación maestro-esclavos. El NameNode envía mensajes a los DataNodes a través del cluster.


El NameNode es el encargado de coordinar las operaciones: registra el nombre de los archivos cuando se crean, su ruta en el directorio, etc.


También se encarga de mapear los contenidos en los DataNodes: reparte los bloques y recuerda qué nodo almacena qué bloques.


El DataNode almacena los bloques de archivo. Escucha las órdenes del NameNode de crear bloques, borrarlos o replicarlos.

Entradas relacionadas: