We´ve posted several times about 'near real time analysis' and olap hadoop improved performance, using Apache Kylin, Pentaho, LinceBI tools and other Big Data components
Let us now explain about a real 'user case' where analytics specialized company, Stratebi , has been working (spanish):
- Amazon Elastic MapReduce(EMR): Distribución de Hadoop para el despliegue de un clúster de procesamiento y almacenamiento distribuido.
- Procesos ETL (minutes):
•Apache
Sqoop
: carga de datos relacionales (tablas) desde Aurora.
•Apache
Hive
(con LLAP): consultas de agregación y otras transformaciones (ETL).
•
Pentaho Data Integration
(PDI) coordinar procesos ETL con diseño visual (abstracción).
- Procesos ETL (Real Time): Kafka permite conectar a binlog de Aurora para cargar en Hive o Kylin.
- Consultas SQL Ad-Hoc Interactivas (segundos): Apache Hive con tecnología LLAP y conexión con las STTools
- Análisis OLAP (milisegundos): Apache Kylin genera cubos M-OLAP que pueden explotados con la herramientas STTools.
Aquí tenéis una buena presentación que muestra el funcionamiento de OLAP en Hadoop y unos cuantos ejemplos:
More info:
- Use Case “Dashboard with Kylin (OLAP Hadoop) & Power BI”
- Cuadros de mando con Tableau y Apache Kylin (OLAP con Big Data)
- BI meet Big Data, a Happy Story
- 7 Ejemplos y Aplicaciones practicas de Big Data
- Analysis Big Data OLAP sobre Hadoop con Apache Kylin
- Real Time Analytics, concepts and tools
- Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)