El tema de la calidad de los datos siempre es considerado como algo importante, pero nadie sabe a ciencia cierta como reducir al mínimo esa gran cantidad de datos erróneos, obsoletos, etc...
Se habla de mantener un umbral o nivel bajo de errores para poder considerar que los datos tienen suficiente calidad para denominarlos como apropiados.
Este límite o umbral no deja de ser bastante subjetivo, para que nos vamos a engañar.
Para conseguir una exitosa estrategia en la calidad de los datos se necesita prestar atención a ciertos aspectos que podemos considerar como críticos:( via Claudia Imhoff ):
- Analizar e identificar los datos: es el punto de partida clave para el éxito. Se trata de ver cómo de completos son los datos y como de ajustados y exactos a la realidad de la compañía.
- Calidad de los datos: se trata de ver las técnicas que manejamos para identificar los datos erróneos, cuanta información errónea existe y las causas de esas deficiencias.
- Integración de los datos: Básicamente es recoger toda la información de fuentes diversas e integrarlas en un único lugar común. El problema surge cuando vemos que existe mucha información duplicada en diferentes lugares o con nombre parecidos. Se hace preciso standarizar todo el proceso.
- Enriquecer los datos: Aquí se trata de añadir información de fuera de los actuales sistemas operacionales (de terceros, competencia, estudios de mercado, no tabulados, etc..)
- Monitorización de los datos: Realizar una correcta gestión de la calidad de los datos requiere un gran esfuerzo operativo y económico. Por ello, es necesario establecer un sistema que nos identificque las mejoras, nos establezca alertas y audite los resultados.
Desde aquí podeis ver un excelente web seminar de Claudia sobre Data Integration :
Tags: Teoria