TodoBI - Business Intelligence, Big Data, ML y AI TodoBI - Business Intelligence, Big Data, ML y AI

Arquitectura 'Data Lake Open Source'

馃殌 C贸mo es la arquitectura de un completo '饾棗饾棶饾榿饾棶 饾棢饾棶饾椄饾棽 饾棦饾椊饾棽饾椈 饾棪饾椉饾槀饾椏饾棸饾棽', con todas sus herramientas!!

馃攷 En una arquitectura tecnol贸gica moderna de un Data Lake, 茅ste debe permitir la ingesta, integraci贸n, almacenamiento y explotaci贸n de cualquier tipo de fuentes de datos

Cada vez, m谩s, las organizaciones est谩n apostando por soluciones 'open source' en donde existe un importante soporte de la comunidad que facilita su uso y garantiza la continuidad de las herramientas a largo plazo.


饾棓饾棩饾棨饾棬饾棞饾棫饾棙饾棖饾棫饾棬饾棩饾棓:

鉁 Con entornos de 饾棧饾椏饾椉饾棻饾槀饾棸饾棸饾椂饾椉虂饾椈, 饾棧饾椏饾棽饾椊饾椏饾椉饾棻饾槀饾棸饾棸饾椂饾椉虂饾椈 饾槅 饾棗饾棽饾榾饾棶饾椏饾椏饾椉饾椆饾椆饾椉

鉁 Esta Arquitectura es un 饾棸饾棶饾榾饾椉 饾椏饾棽饾棶饾椆 implementado para una gran administraci贸n p煤blica en el que he participado

鉁 Instalado, preparado y configurado con 饾棗饾椉饾棸饾椄饾棽饾椏 饾棖饾椉饾椇饾椊饾椉饾榾饾棽 y seguridad com煤n integrada

鉁 El sistema operativo sobre el que funciona la infraestructura es 饾棬饾棷饾槀饾椈饾榿饾槀 22.04

鉁 La aplicaci贸n autom谩tica de actualizaciones est谩 activa mediante 饾槀饾椈饾棶饾榿饾榿饾棽饾椈饾棻饾棽饾棻-饾槀饾椊饾棿饾椏饾棶饾棻饾棽饾榾

鉁 El firewall utilizado en los servidores es 饾椈饾棾饾榿饾棶饾棷饾椆饾棽饾榾

鉁 Se ha configurado el servidor de 饾棦饾椊饾棽饾椈饾棪饾棪饾棝

鉁 Se usa 饾棫饾椏饾棶饾棽饾棾饾椂饾椄 como Proxy inverso encargado de la terminaci贸n TLS y balancear la carga de los servicios desplegados en cl煤ster

鉁 Tambi茅n se configura 饾棝饾棓饾棧饾椏饾椉饾槄饾槅, como Proxy inverso secundario encargado del HA de MongoDB

鉁 Para la creaci贸n de Cuadros de Mando, Informes y Analytics se usa 饾棢饾椂饾椈饾棸饾棽饾棔饾棞

鉁 Para la explotaci贸n del uso de Elasticsearch se configura 饾棡饾椂饾棷饾棶饾椈饾棶 como Interfaz

鉁 Para el Gobierno de Datos usamos 饾棗饾棶饾榿饾棶饾棝饾槀饾棷

鉁 饾棟饾槀饾椊饾槅饾榿饾棽饾椏饾棝饾槀饾棷 est谩 configurada con un Docker Spawner personalizado que a帽ade integraci贸n con Spark

鉁 Para la Orquestaci贸n de ingestas, usamos 饾棓饾椊饾棶饾棸饾椀饾棽 饾棓饾椂饾椏饾棾饾椆饾椉饾槃. La aplicaci贸n est谩 desplegada con una imagen de Docker personalizada basada en la imagen oficial, se a帽aden m煤ltiples conectores entre los que se destacan el soporte para ClickHouse, MongoDB, Spark y Kafka

鉁 Como repositorios de c贸digo y CI/CD se usa 饾棜饾椂饾榿饾椆饾棶饾棷. La aplicaci贸n est谩 configurada con LDAP

鉁 Para la geti贸n del Data Lake se ua 饾棤饾椂饾椈饾棞饾棦, que est谩 desplegado en 2 nodos

鉁 Para el almacenamiento y Base de Datos del Data Lake se usa 饾棖饾椆饾椂饾棸饾椄饾椀饾椉饾槀饾榾饾棽 que est谩 desplegado en 1 shard con 3 r茅plicas

鉁 Para la gesti贸n del almacenamiento NoSQL usamos 饾棤饾椉饾椈饾棿饾椉饾棗饾棔 que est谩 desplegado en 1 replica set con 3 miembros

鉁 Para agilizar y potenciar la indexaci贸n y b煤squeda, se usa 饾棙饾椆饾棶饾榾饾榿饾椂饾棸饾榾饾棽饾棶饾椏饾棸饾椀

鉁 Para el procesamiento de los 'data pipelines' en Batch, Real Time y Machine Learning usamos 饾棪饾椊饾棶饾椏饾椄. El nodo con Spark Master lleva incluido Spark Connect y un worker, el resto de nodos 煤nicamente llevan un worker

鉁 饾棡饾棶饾棾饾椄饾棶 est谩 desplegado con 3 nodos controller y broker que usan KRaft como protocolo de consenso