Apache Beam es un modelo unificado de código abierto para definir pipelines de procesamiento de datos por lotes o de streaming. Actualmente, Apache Beam SDK tiene soporte para tres lenguajes de programación: Java, Python y Go. Los pipelines se programan usando uno de los SDKs mencionados anteriormente y luego se ejecutan en uno de los back-ends soportados.
Descargar Paper: Introducción a Apache Beam
Apache Beam es muy útil a la hora de transformar datos independientes con mucho paralelismo, pero también se puede usar para ETLs e integración de datos.
Los Runners traducen el pipeline de procesamiento de datos creado con Beam en una API compatible con el back-end seleccionado. Apache Beam soporta los siguientes back-ends:
· Apache Flink
· Apache Nemo
· Apache Samza
· Apache Spark
· Google Cloud Dataflow
· Hazelcast Jet
En este paper usaremos Python