Cada vez más es necesario analizar grandes cantidades de datos. Aquí se habla del funcionamiento de Pentaho y
Hadoop
. Interesante.
Apache Hadoop es un marco para ejecutar grandes aplicaciones. El entorno de Hadoop es transparente y proporciona aplicaciones fiables y con grandes movimiento de datos. Hadoop implementa un paradigma computacional llamado
Map Reduce
, donde se divide la aplicación en muchos fragmentos pequeños de trabajo, cada uno de los cuales pueden ser ejecutados o reejecutados en cualquier nodo del clúster.
Además, proporciona un sistema de archivos distribuido (HDFS) que almacena los datos en los nodos de cómputo, proporcionando ancho de banda agregado muy alto en todo el clúster. Tanto Map Reduce, como el sistema de archivos distribuidos están diseñados para que los fallos de nodo se gestiona automáticamente por el framework.