Cloud Dataflow y Apache Beam: Motores de ejecución de pipelines de datos

Escrito el 13 de Enero de 2024 en español con un tamaño de 1,19 KB

CLOUD DATAFLOW

Cloud Dataflow es un motor de ejecución en la nube de pipelines de datos programados con Apache Beam.

Permite procesar datos en batch y en streaming.

No se necesita desplegar un cluster previamente, es serverless.

Escala de forma elástica para ejecutar el pipeline de la forma más eficiente posible.

Apache Beam permite definir pipelines usando Java o Python.

Permite procesar de forma unificada flujo de datos en streaming y datos en batch, con un único pipeline.

Permite crear pipelines de procesamiento de datos que se pueden correr en varios ejecutores como Flink, Spark, Dataflow, etc.

Dataflow funciona creando primero un pipeline y aplicando a continuación una serie de operaciones sobre los datos.

Dataflow realiza procesos ETL.

Un pipeline es un conjunto de pasos que se conocen como transformaciones.

Recoge los datos (source) y luego guarda los datos (sink).

Lleva los datos desde una o varias fuentes hasta uno o varios sumideros aplicando transformaciones por el camino.

No tienen por qué ser lineales, pueden tener bifurcaciones.

Etiquetas: