Caso de uso de Apache Kafka en tiempo real, Big Data

Admin jun. 06, 2019 0

Este es un buen ejemplo de uso de Apache Kafka en entornos Big Data para consultas y visualización. Ver Cuadro de Mando

En la imagen inferior se muestra el cluster de 3 brokers y 3 producers que emiten datos hacia el cluster kafka .

El componente "Kafka Producer" se conecta al stream de la wikipedia y registra un listener , que es un sujeto del patrón observer ; cuando se genera una actualización en la wikipedia se recibe a través del "Socket" y este lo notifica al "Listener", que contiene un org.apache.clients.producer.KafkaProducer , el producer registra un callback para notificarle que se ha enviado un mensaje a kafka, la notificación contiene el offset y la partición de cada mensaje, en este paso se envía cada minuto vía API el tiempo en milisegundos y el offset para ese tiempo.

Esta información se almacena en una Base de Datos PostgreSQL , para luego ser consultada. Cuando el usuario selecciona una fecha a partir de la cual quieren ver los mensajes, el sistema busca en la Base de Datos un offset registrado en la fecha solicitada, el cluster kafka mantiene los mensajes en los ficheros locales por 3 días .

Una vez obtenido el offset para la fecha requerida se solicita por medio del "Consumer Holder" un "Thread Safe Kafka Consumer" que realiza las operaciones seek y poll , para indicar el punto y consumir a partir de él respectivamente.

Pordefecto,un org.apache.kafka.clients.consumer.KafkaConsumer no es Thread Safe , por tanto para ser usado en un entorno con accesos simultáneo de usuarios se hizo una implementación que permite usar un Consumer por varios hilos , sinchronizando el acceso al objeto.

LinceBI, la mejor solución Big Data Analytics basada en Open Source

Formación Data 2026 (más de 30 Cursos)

Checklist para elegir Arquitectura de Datos

Conceptos Fundamentales de Business Intelligence

Nuevo!! Data University

Caso de uso de Apache Kafka en tiempo real, Big Data

STAgile Videotutorials (easy and fast web Dashboards from excel), open source based

Integracion Talend-Salesforce (Paper)

Libro gratuito: Trucos de PowerBI (5)

12 aplicaciones gratuitas para crear Dashboards

Groot AI LinceBI: la nueva plataforma Analytics AI Open Source

25 Consejos de un veterano para los que empiezan en Data

Curso Databricks Gratuito

Curso Snowflake Gratuito

Deepseek AI integrations

Cómo convertirse en especialista IA si vienes del mundo Data y BI

Curso Fabric Gratuito

Qué es una Arquitectura Medallón?

Diccionario de Arquitectura de Datos

50 Consejos de Visualización

17 KPIs para medir un proyecto de Data Governance

Como funciona el nuevo Fabric Data Agent

𝗔𝗿𝗾𝘂𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗮𝘀 𝗱𝗲 𝗗𝗮𝘁𝗼𝘀 (𝗔𝘇𝘂𝗿𝗲, 𝗔W𝗦, 𝗚𝗼𝗼𝗴𝗹𝗲 𝘆 𝗢𝗽𝗲𝗻 𝗦𝗼𝘂𝗿𝗰𝗲), comparativa muy útil!!

50 sesgos cognitivos a considerar en Negocios

Cuales son y para que sirven las bases de datos de Grafos?

Diccionario de Arquitecturas de Datos

Comparativa Databrics vs Fabric vs Snowflake

Top Open Source Data Integration Tools

Como extraer y trabajar con los datos de SAP

Los 40 mejores libros de gestión, tecnología e innovación

30 Consejos y Buenas Prácticas para hacer un proyecto de Power BI con éxito

Cómo aplicar NoSQL en casos reales

Videotutorial: Trabajando con Python en Power BI