Hadoop: Almacenamiento y procesamiento de grandes cantidades de datos

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el 12 de Septiembre de 2023 en español con un tamaño de 1,91 KB

Hadoop

Framework de código abierto para el almacenamiento y procesamiento de grandes cantidades de datos usando clústers con hardware barato. La idea es mover la computación a los datos.

Hadoop MapReduce

Proporciona una arquitectura modular que permite extender su funcionalidad. MapReduce permite realizar cómputos con enormes datasets.

Características

Permite fácil escalabilidad
Maneja tolerancia a fallos
Maneja datos heterogéneos
Facilita un entorno compartido
Proporciona valor a la empresa

Los componentes principales de Hadoop son MapReduce, YARN y HDFS.

HDFS

Sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop. Sirve como base para la mayoría de las herramientas del ecosistema Hadoop.

Proporciona dos tipos de capacidades para procesar Big Data: escalabilidad y tolerancia a fallos.

Permite almacenar y leer enormes volúmenes de datos gracias a que trocea y reparte el archivo entre los diferentes nodos. Si un nodo falla, HDFS recupera mediante redundancia de bloques.

Tiene 3 copias de cada bloque.

Se compone de NameNode para los metadatos y DataNode para el almacenamiento de los bloques. Funcionan mediante una relación maestro-esclavos. El NameNode envía mensajes a los DataNodes a través del cluster.

El NameNode es el encargado de coordinar las operaciones: registra el nombre de los archivos cuando se crean, su ruta en el directorio, etc.

También se encarga de mapear los contenidos en los DataNodes: reparte los bloques y recuerda qué nodo almacena qué bloques.

El DataNode almacena los bloques de archivo. Escucha las órdenes del NameNode de crear bloques, borrarlos o replicarlos.

Entradas relacionadas:

Etiquetas: