Apache NiFi [https://nifi.apache.org/] es un sistema de flujo de datos basado en
los conceptos de programación basada en flujo (FBP, del inglés Flow-Based
Programming).
Descargar Tutorial en español [https://stratebi.es/todobi/Feb21/Apache_NiFi.pdf]
sobre Apache Nifi
Admite gráficos dirigidos de enrutamiento de datos, transformación
Leer más...
Os presentamos una herramienta Open Source muy interesante de los
desarrolladores de Lyft (el blablacar americano): Amundsen.io
[https://www.amundsen.io/]. Os contamos lo que puede hacer
Descubrir datos de confianza
Busca datos dentro de la organización mediante una simple búsqueda de texto. Un
algoritmo de búsqueda inspirado en
Leer más...
Cada vez es más importante, para la construcción de robustos y completos Data
Lakes, así como de potentes Dashboards y sistemas de información analítica,
integrar las fuentes de datos más importantes de las organizaciones
Por ello, en este paper gratuito, os indicamos como podemos conectarnos a las
diferentes aplicaciones de
Leer más...
Apache Beam es un modelo unificado de código abierto para definir pipelines de
procesamiento de datos por lotes o de streaming. Actualmente, Apache Beam SDK
tiene soporte para tres lenguajes de programación: Java, Python y Go. Los
pipelines se programan usando uno de los SDKs mencionados anteriormente y luego
se
Leer más...
Gracias al gran Matt Casters, buen amigo, creador de Kettle (Pentaho Data
Integration), se encuentra embarcado en el desarrollo de una nueva herramienta
ETL open Source, Hop (os contamos todas las novedades que ya incluye:
Aquí puedes descargar el paper gratuito
[http://stratebi.es/todobi/Ago20/Hop_ETL.pdf] en
Leer más...
Apache Airflow [https://airflow.apache.org/] es una herramienta de orquestación
que permite crear, programar y monitorizar flujos de trabajo mediante
programación en Python.
Estos flujos de trabajos se representan como Grafos Acíclicos Dirigidos o DAGs
(del inglés Directed Acyclic Graph) de tareas / procesos, es decir grafos donde
los datos
Leer más...
Apache Atlas [https://atlas.apache.org/2.0.0/index.html] es una herramienta
open-source, con licencia Apache 2.0, para la gobernanza del dato la cual
permite la integración con todo el ecosistema de datos de las empresas. Puedes
descargarte un paper en español
[http://stratebi.es/todobi/May20/
Leer más...
Os dejamos un paper bien completo de una de las herramientas más completas de
integración, Talend, que además, como sabéis, tiene también una versión Open
Source
Hoy os podéis descargar directamente desde aquí
[http://stratebi.es/todobi/May20/Talend_Cloud.pdf], este completo paper, en
donde abordamos algunas de las
Leer más...
1. Novedades Pdi 9.0
Las principales novedades de PDI 9.0
[https://help.pentaho.com/Documentation/9.0/What's_new_in_Pentaho_9.0] son las
siguientes:
Multi-clúster de Hadoop
* Los usuarios pueden acceder y procesar datos de múltiples clústeres de
Hadoop, de diferentes distribuciones y versiones, todo desde
Leer más...