Como usar Machine Learning para hacer Data Quality

Admin jul. 24, 2019 0

Las empresas cada vez necesitan almacenar y procesar más datos sobre sus clientes, proveedores, personal o pedidos.
Sin embargo, a mayor Volumen de datos, mayor es la probabilidad de que existan datos incorrectos, como las direcciones o teléfonos que afecten de forma negativa a nuestro negocio. Por ejemplo, un pedido con una dirección errónea será devuelto, reduciendo el beneficio de la empresa y la confianza del cliente.
Teniendo en cuenta esta problemática, se propone una solución: Big Data Quality . Descargar Paper
Es una Solución para el tratamiento de datos de personas con características Big Data (Volumen, Variedad, Velocidad), basada en la aplicación de procesos de limpieza, normalización y validación a un grupo de datos muy comunes en cualquier base de datos.
Esta solución escalable y extensible, incluye módulos para la limpieza, normalización validación, de-duplicación y corrección de datos de personas y direcciones en los siguientes tipos de datos : Teléfonos, Emails, Documentos de Identidad, Nombres y Apellidos, Direcciones...
Esta solución de Data Quality para Big Data se ha implementado usando la tecnología Apache Spark , la cual permite la escalabilidad del procesamiento a cualquier volumen de datos sin reescribir ni una línea de código. De esta forma, Big Data Quality se puede ejecutar en una única máquina y, si el tamaño de los datos de entrada, diccionarios de nombres, callejeros o datos recuperados de las API lo requieren, puede ejecutarse en un clúster Spark como Databricks o Amazon EMR en la nube o en instalación Hadoop on-premise como Hortonworks o Cloudera .
Además, estos módulos permiten realizar la validación y corrección de datos en función de datos de referencias obtenidos mediante diccionarios y API's de nombres, callejeros (ej. Correos) o dominios frecuentes de emails. En los siguientes apartados, analizaremos las principales funcionalidades de cada uno de los módulos.
Descargar Paper
TECNOLOGÍAS USADAS Y ESCALABILIDAD
Con el objetivo de abordar dicho problema de la manera más eficiente posible, se ha usado la tecnología Big Data Apache Spark . Ofreciendo de esta manera todos los beneficios de las tecnologías Big Data:

• Escalabilidad: El programa puede ejecutarse en 1 o n máquinas de un clúster sin hacer ningún cambio en el programa
• Rapidez de procesamiento: Gracias a la escalabilidad y a la arquitectura de Spark basada en el uso distribuido de la memoria RAM.
• Tolerancia a fallos: Incluso en procesos de Data Quality, que implican cantidades ingentes de datos, los procesos siempre terminarán.
• Extensibilidad: para añadir nuevas funcionalidades de calidad de datos.
Hemos optado por esta tecnología por la gran cantidad y variedad de fuentes de datos que es necesario procesar para lograr la calidad del dato, ya sean los datos de entrada como los diccionarios que se puedan utilizar para la corrección y validación de los datos.
Apache Spark es una tecnología Open Source con una comunidad muy activa. Es una herramienta donde los cálculos se ejecutan entre 10 y 100 veces más rápidos que otras plataformas. Además, en una misma herramienta nos permite combinar SQL in memory, streaming, Machine Learning y grafos.

Como se ha comentado, Spark se puede ejecutar en diversos entornos, ya sea en Spark standalone, Mesos, clúster en la nube en Databricks, EMR o HDInsight, distribuciones Hadoop on-premise, como Hortonworks o Cloudera.

LinceBI, la mejor solución Big Data Analytics basada en Open Source

Formación Data 2026 (más de 30 Cursos)

Checklist para elegir Arquitectura de Datos

Conceptos Fundamentales de Business Intelligence

Nuevo!! Data University

Como usar Machine Learning para hacer Data Quality

Mas de 20 Tecnicas y Tipos de Analisis Machine Learning y Analytics

Por qué si tengo un dashboard no soy capaz de tomar decisiones?

Libro gratuito: Trucos de PowerBI (5)

12 aplicaciones gratuitas para crear Dashboards

Groot AI LinceBI: la nueva plataforma Analytics AI Open Source

25 Consejos de un veterano para los que empiezan en Data

Curso Databricks Gratuito

Curso Snowflake Gratuito

Deepseek AI integrations

Cómo convertirse en especialista IA si vienes del mundo Data y BI

Curso Fabric Gratuito

Qué es una Arquitectura Medallón?

Diccionario de Arquitectura de Datos

50 Consejos de Visualización

17 KPIs para medir un proyecto de Data Governance

Como funciona el nuevo Fabric Data Agent

𝗔𝗿𝗾𝘂𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗮𝘀 𝗱𝗲 𝗗𝗮𝘁𝗼𝘀 (𝗔𝘇𝘂𝗿𝗲, 𝗔W𝗦, 𝗚𝗼𝗼𝗴𝗹𝗲 𝘆 𝗢𝗽𝗲𝗻 𝗦𝗼𝘂𝗿𝗰𝗲), comparativa muy útil!!

50 sesgos cognitivos a considerar en Negocios

Cuales son y para que sirven las bases de datos de Grafos?

Diccionario de Arquitecturas de Datos

Comparativa Databrics vs Fabric vs Snowflake

Top Open Source Data Integration Tools

Como extraer y trabajar con los datos de SAP

Los 40 mejores libros de gestión, tecnología e innovación

30 Consejos y Buenas Prácticas para hacer un proyecto de Power BI con éxito

Cómo aplicar NoSQL en casos reales

Videotutorial: Trabajando con Python en Power BI