Apache Atlas es una herramienta open-source, con licencia Apache 2.0, para la gobernanza del dato la cual permite la integración con todo el ecosistema de datos de las empresas. Puedes descargarte un paper en español que te explica los conceptos y funcionalidades principales
Atlas permite crear un almacén de metadatos centralizado para saber dónde encontrar un conjunto de datos dentro de la empresa (Data Discovery), permite saber qué cambios ha sufrido y que transformaciones se le han realizado a los datos originales a lo largo del tiempo (Data Lineage) y centraliza la seguridad para saber quién puede acceder a esos datos y quién puede modificarlos (Data Security) apoyándose en Apache Ranger.
La arquitectura de Apache Atlas y las herramientas en las que se apoya son las siguientes. Como fuente de metadatos puede utilizar: HBase, Hive, Sqoop, Storm y Kafka.
Que duda cabe, que una de las mejores funcionalidades es la capacidad de Data Lineage para trazar los cambios que se van produciendo en las transformaciones.
Apache Atlas permite hacer un seguimiento de las transformaciones que han sufrido los datos originales y en que datos derivados han terminado para poder tener un control total sobre ellos. En esta captura se puede observar un caso de uso: