Es una comprensión cuantificada de la idoneidad de los datos. Mide la calidad en términos de que tan bien hablita los procesos de la organización. Esto incluye la planificación, implementación, y control de actividades que aplican técnicas de gestión de calidad los datos para asegurar el cumplimiento de las necesidades sus consumidores.
Objetivo. Verificar la calidad de los datos para el elemento de datos direcciones.
El desafío. La calidad de los datos puede resultar difícil porque pueden existir datos críticos en múltiples sistemas. Los datos, como direcciones, pueden aparecer en más de 100 sistemas, todos vinculados a procesos de negocio. Si tuviéramos que medir la calidad en cada uno de ellos tendríamos que crear reglas, ingresar datos, ejecutar reglas, y publicar resultados. Para un único elemento, eso podría llevar más de un año y un FTE. Incluso las medidas serían diferentes. Como en el ejemplo de esta página… Entonces, ¿Cómo resolvemos este desafío?
Automatización.
Utilizar tecnología disponible para automatizar las tareas de calidad de datos como sea posible:
· Medir la calidad de los datos durante la ingesta y la transformación
· Utilizar Machine Learning, módulos relacionados con enriquecimiento de datos, semantic matching y descubrimiento de datos.
· Deducir el linaje de los datos escaneando bases y sus metadatos.
Priorización.
Priorizar la ejecución de la calidad de los datos en dos dimensiones principales:
· Solo medir la calidad de los datos para aquellos que sean críticos. Solo priorizar los dominios y los elemento que sean los más críticos para su organización.
· Medir inteligentemente, no todo y todas las fuentes. Adoptar fuentes de oro (“Golden Sources”) y confiables (“Trusted Sources”), y concentrar los esfuerzos de calidad de datos ahí.
Diseño inteligente
Un diseño inteligente puede reducir el número de reglas de calidad de los datos y, al mismo tiempo, impulsar la coherencia.
Diseño extenso y repetido
Controles/medidas: Completitud (16x) Validez (16x)
En este ejemplo, tenemos un único elemento de dato existente en 16 sistemas. Esta es una situación bastante común: lo dato de clientes y productos, por ejemplo se pueden utilizar en más de 100 sistemas en muchas organizaciones. En este escenario, se han implementado 32 controles de integridad y validez para medir la calidad de los datos. Hay dos conclusiones:
· Es extremadamente caro. Tuvimos que trabajar con datos de 16 sistemas y escribir 32 reglas de calidad de datos
· No hay garantía de coherencia. Idealmente, la calidad de los datos es perfecta en todo el flujo, pero si no, tendremos diferentes medidas de integridad y validez, ¿y cual vamos a tomar como verdadera?
Diseño inteligente
Controles/medidas: Completitud (1x) Validez (1x) Consistencia (6x)
Para el elemento en cuestión, 1 fuente se designa como “Fuente Confiable”. Que es donde se miden la completitud y validez. Esta fuente contiene la “verdad” de los datos; si hay alguna pregunta o duda, esta fuente proporcionara la respuesta. No necesitamos medir todos los demás sistemas para verificar su integridad y validez – simplemente tenemos que verificar que los sistemas/procesos finales estén ingestando los datos correctos. Basta una simple comprobación de consistencia. El resultado:
· Solo tenemos 6 reglas de consistencia, y 8 reglas en total (-75% menos). Solo necesitamos ingestar datos de 7 sistemas (-56% menos)
· Tenemos claridad sobre cuál es el verdadero estado de la calidad de los datos
· Solo si tenemos un problema downstream, seguimos los datos upstream
Fuentes confiables. Combine esfuerzos de calidad de datos con fuentes confiables y MDM para un mayor impacto. Si puede probar la calidad de los datos más críticos en una base centralizada, será mucho más fácil convencer para que se utilice este punto central. Esto impulsara la calidad de los datos en toda la organización
La alineación del negocio. Como siempre, asegúrese de que el negocio y el liderazgo estén alineados desde el principio. Esto es necesario para determinar qué datos son realmente críticos. También impulsara que las medidas de calidad puedan convertirse posteriormente en mejoras de los datos.
Políticas y estándares. No inicie la calidad de los datos como un ejercicio separado. Específicamente, asegúrese de que la calidad de estos se apoye en la política de datos y los estándares subyacentes. Esto permitirá el cumplimiento e impulsara la adopción de mejores prácticas.
Enfoque replicable. Cree un enfoque estandarizado que se pueda aplicar a toda la organización. Escriba reglas de forma coherente, guarde los metadatos en un inventario y, cuando sea posible, utilice herramientas compartidas. Esto ayudara a crear una versión compartida de la verdad
Contacto
Miguel Navarro | Socio Lider
Tel. 444 176 2624
Comments