Hadoop: Almacenamiento y procesamiento de grandes cantidades de datos
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 1,91 KB
Hadoop
Framework de código abierto para el almacenamiento y procesamiento de grandes cantidades de datos usando clústers con hardware barato. La idea es mover la computación a los datos.
Hadoop MapReduce
Proporciona una arquitectura modular que permite extender su funcionalidad. MapReduce permite realizar cómputos con enormes datasets.
Características
- Permite fácil escalabilidad
- Maneja tolerancia a fallos
- Maneja datos heterogéneos
- Facilita un entorno compartido
- Proporciona valor a la empresa
Los componentes principales de Hadoop son MapReduce, YARN y HDFS.
HDFS
Sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop. Sirve como base para la mayoría de las herramientas del ecosistema Hadoop.
Proporciona dos tipos de capacidades para procesar Big Data: escalabilidad y tolerancia a fallos.
Permite almacenar y leer enormes volúmenes de datos gracias a que trocea y reparte el archivo entre los diferentes nodos. Si un nodo falla, HDFS recupera mediante redundancia de bloques.
Tiene 3 copias de cada bloque.
Se compone de NameNode para los metadatos y DataNode para el almacenamiento de los bloques. Funcionan mediante una relación maestro-esclavos. El NameNode envía mensajes a los DataNodes a través del cluster.
El NameNode es el encargado de coordinar las operaciones: registra el nombre de los archivos cuando se crean, su ruta en el directorio, etc.
También se encarga de mapear los contenidos en los DataNodes: reparte los bloques y recuerda qué nodo almacena qué bloques.
El DataNode almacena los bloques de archivo. Escucha las órdenes del NameNode de crear bloques, borrarlos o replicarlos.