TodoBI - Business Intelligence, Big Data, ML y AI TodoBI - Business Intelligence, Big Data, ML y AI

Big Data Engineer Sandbox

🚀 La mejor forma de aprender es tocando código!! Conoce el 𝗕𝗶𝗴 𝗗𝗮𝘁𝗮 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿 𝗦𝗮𝗻𝗱𝗯𝗼𝘅

Esta plataforma de formación práctica en big data, analítica avanzada y arquitectura de datos, útil tanto para equipos internos como para formación a clientes, partners. La plataforma se apoya en una máquina virtual (VM) autoconfigurable, que integra las tecnologías más actuales del stack moderno de datos

Conocer fundamentos con tecnologías open source hace más sencillo aprender #Fabric, #Databricks, #Snowflake,#AWS, #GCP...

⚙️ 𝗘𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗮 𝗱𝗲 𝗹𝗮 𝗠𝗮́𝗾𝘂𝗶𝗻𝗮 𝗩𝗶𝗿𝘁𝘂𝗮𝗹 (𝗩𝗠)VM basada en Ubuntu Server (20.04 LTS o superior), con opción de despliegue en entornos locales (VirtualBox, VMware) o cloud (GCP, AWS, Azure) mediante imágenes preconfiguradas

📚 𝗜𝗻𝗰𝗹𝘂𝘆𝗲:Instalador automático vía scripts Ansible + Docker ComposeContenedores Docker para cada componente, permite portabilidad y rápida reinstalaciónAlmacenamiento persistente para resultados de ejercicios y notebooksUsuario estándar con permisos para administración básica y personalización

📦 Tecnologías Integradas (versiones actualizadas a 2025)

🔸 Apache Spark 3.5.x. Integrado en modo standalone y acceso vía PySpark desde JupyterEjercicios de ETL, procesamiento distribuido, joins complejos y agregaciones.Integración con MongoDB y Kafka para ingestión de flujos

🔸 Apache Kafka 3.7.x. Cluster mínimo con 1 broker + ZookeeperTemas preconfigurados para ejercicios de streamingIncluye Kafka Connect + connectors para MongoDB, Clickhouse, Elastic.

🔸 JupyterLab 4.x. Preinstalado con librerías: pyspark, kafka-python, pymongo, clickhouse-driver, plotly, scikit-learn

🔸 ClickHouse 24.x. Bases de datos preconfiguradas con datasets tipo opendata (ventas, logística, IoT), Ejercicios de analítica OLAP, ingestión masiva y consultas interactivas

🔸 LinceBI. Última versión del stack LinceBI (frontend + backend + analítica).Conectores activos a MongoDB, ClickHouse, y fuentes SQL, Cuadros de mando y ejercicios de reporting, drill-down, geolocalización

🔸 DataHub (versión OSS 0.13.x o superior)Plataforma de data discovery y data lineage, Conectores activos a Spark, ClickHouse, MongoDB y Kafka, Ejercicios de anotación y trazabilidad de pipelines de datos

🧪 Ejercicios Prácticos Incluidos. Organizados en notebooks y scripts por nivel:

🔹 Nivel 1: FundamentosSpark: cargas básicas, RDDs y DataFrames.Kafka: publicación y suscripción básica de mensajesMongoDB: consultas básicas con agregaciónClickHouse: carga e indexación de datos masivos

🔹 Nivel 2: MedioETL entre MongoDB → Spark → ClickHouseKafka + Spark Streaming con ventanas de tiempo, Cuadros de mando interactivos con LinceBI

🔹 Nivel 3: AvanzadoPipelines reales: Ingesta Kafka → Procesado en Spark → Almacenamiento en ClickHouse → Visualización en LinceBI, Lineage completo en DataHub del pipeline completo, Modelos de ML simples integrados desde Jupyter