Apache Airflow es una herramienta de orquestación que permite crear, programar y monitorizar flujos de trabajo mediante programación en Python. Estos flujos de trabajos se representan como Grafos Acíclicos Dirigidos o DAGs (del inglés Directed Acyclic Graph) de tareas / procesos, es decir grafos donde los datos fluyen en una sola
Leer más...
Un gran estudio de más de 40 páginas por parte de Philip Russom, que puedes descargar gratuitamente desde aquí Os dejo a continuación, un resumen de los contenidos y algunos de los principales hallazgos del estudio. Muy interesante. Para saber más de Data Lakes: Diferencias entre Data Lake y Data
Leer más...
Este Landscape es muy útil para conocer las principales tecnologías y herramientas, que dentro de todo el ciclo de vida de creación y explotación de datos en una organización se pueden utilizar Hemos trabajado y conocemos la mayor parte de ellas, también publicamos comparativas y benchmarks, etc.. Si nos quieres
Leer más...
What is a data lake? A data lake is a repository designed to store large amounts of data in native form. This data can be structured, semi-structured or unstructured, and include tables, text files, system logs, and more. The term was coined by James Dixon, CTO of Pentaho , a business
Leer más...