Cloud Dataflow y Apache Beam: Motores de ejecución de pipelines de datos

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 1,19 KB

CLOUD DATAFLOW

Cloud Dataflow es un motor de ejecución en la nube de pipelines de datos programados con Apache Beam.

Permite procesar datos en batch y en streaming.

No se necesita desplegar un cluster previamente, es serverless.

Escala de forma elástica para ejecutar el pipeline de la forma más eficiente posible.

Apache Beam permite definir pipelines usando Java o Python.

APACHE BEAM

Permite procesar de forma unificada flujo de datos en streaming y datos en batch, con un único pipeline.

Permite crear pipelines de procesamiento de datos que se pueden correr en varios ejecutores como Flink, Spark, Dataflow, etc.

Funcionamiento

Dataflow funciona creando primero un pipeline y aplicando a continuación una serie de operaciones sobre los datos.

Dataflow realiza procesos ETL.

Data pipelines

Un pipeline es un conjunto de pasos que se conocen como transformaciones.

Recoge los datos (source) y luego guarda los datos (sink).

Lleva los datos desde una o varias fuentes hasta uno o varios sumideros aplicando transformaciones por el camino.

No tienen por qué ser lineales, pueden tener bifurcaciones.

Entradas relacionadas: