TodoBI - Business Intelligence, Big Data, ML y AI TodoBI - Business Intelligence, Big Data, ML y AI

DataCleaner integration with Pentaho

Today we are happy of showing a quick test of the DataCleaner plugin for PDI /Kettle in order to improcve Data Quality issues. The installation is as easy as unzipping it on \data-integration\plugins\spoon.
Download it from here: http://s3.amazonaws.com/kettle4/kettle-profiling-datacleaner.zip
The plugin includes a Job entry in the Utility folder. Besides now you can profile a transformation, click right on a step of a transformation and select "Profile", this will open an instance of DataCleaner and pass the data flow to it, allowing analyzing the data. Plugin was tested with football matches data from Champions League Dashboards .
Try the video with test:
Hoy os mostramos un pequeño vídeo testeando el nuevo plugin de DataCleaner para Pentaho Data Integration (Kettle). Podrás obtenerlo en el siguiente enlace: http://s3.amazonaws.com/kettle4/kettle-profiling-datacleaner.zip
Su instalación es tan sencilla como descomprimirlo en la carpeta \data-integration\plugins\spoon. Una de las nuevas funcionalidades que incluye esta extensión para Kettle es la posibilidad de ejecutar un Job de DataCleaner a través de un nuevo paso dentro de la categoría de Jobs.

Además también podemos capturar el flujo de datos en un paso de una transformación, haciendo click derecho en la opción Profile de un paso de transformación (por ejemplo Entrada de Tabla de base de datos), de esta manera se lanza automáticamente una instancia de DataCleaner y automáticamente se reconocen los tipos de los datos y se realiza un escaneo automático de las propiedades y características más significativas de de estos.

Hemos realizado las pruebas con la información procedente de Tablero Champions y entre la multitud de información que nos genera automáticamente podemos ver la media de los espectadores que asistieron a los estadios en la presente edición de esta competición, el mayor número de goles anotados por un equipo como local o visitante, los valores mayores y menores de la posesión de los equipos.

Dentro del apartado de campos de texto, esta extensión nos permite con un rápido golpe de vista ver los registros con un mayor número de caracteres, algo que resulta muy útil de cara a la creación de tablas de almacenamiento intermedio