Calidad de los datos: Un factor pocas veces tomado en cuenta

Cuando los macrodatos se combinan con el aprendizaje automático, las empresas deben estar atentos a los nuevos problemas de calidad de datos. Los departamentos de TI han estado luchando con problemas cualitativos de datos durante décadas, y se han encontrado soluciones satisfactorias para garantizar la calidad en los almacenes de datos estructurados. Sin embargo, las
 
serman, laboratorio de recuperación de datos en españa

Cuando los macrodatos se combinan con el aprendizaje automático, las empresas deben estar atentos a los nuevos problemas de calidad de datos.

Los departamentos de TI han estado luchando con problemas cualitativos de datos durante décadas, y se han encontrado soluciones satisfactorias para garantizar la calidad en los almacenes de datos estructurados. Sin embargo, las soluciones de big data, los datos no estructurados y el aprendizaje automático están creando nuevos tipos de problemas de calidad que deben abordarse.

Qué es la calidad de los datos

El término “calidad de los datos” se refiere a la condición de un conjunto de valores de variables cualitativas o cuantitativas. Existen muchas definiciones de calidad de datos pero, en general, los datos se consideran de alta calidad si son “aptos para su uso previsto en operaciones, toma de decisiones y planificación”

Los datos grandes afectan a la calidad porque sus características definitorias de volumen, variedad y velocidad dificultan la verificación. La elusiva “cuarta V”, el componente de veracidad (con respecto a la confiabilidad de los datos), es un desafío debido a la gran cantidad de fuentes de datos que pueden juntarse, cada una de las cuales puede estar sujeta a problemas de calidad diferentes. La Big Data también desata la posibilidad de consultas nuevas y más complejas que podrían introducir nuevos tipos de errores de datos.

Mientras tanto, los datos no estructurados crean problemas porque están sujetos a una mayor incertidumbre que los datos estructurados, y los algoritmos de aprendizaje automático tienden a operar como una “caja negra” dentro de la cual los sesgos contenidos en los datos podrían no salir a la luz.

Caja de herramientas para operar datos:

Aunque se han desarrollado muchas herramientas para resolver problemas de calidad de datos, la corrección automática de entradas en sí misma puede disminuir la calidad de los datos si no se aplica con cuidado. Todos los factores que interfieren con la claridad de los datos (como la precisión, la coherencia, la puntualidad, la duplicación, la volatilidad, la exhaustividad y la relevancia) pueden generar más problemas a medida que las empresas corrigen y ajustan los datos en una forma adecuada para el procesamiento. Cada transformación potencialmente pierde información que puede ser relevante para una consulta determinada.

Las herramientas de calidad de datos actuales son suministradas por las principales firmas de análisis, por empresas especializadas y de código abierto. Proporcionan funcionalidad como limpieza de datos, creación de perfiles de datos, coincidencia de datos, estandarización de datos, enriquecimiento de datos y monitoreo de datos. Las herramientas de nicho, como el servicio financiero, se centran en tipos especiales de problemas y se están desarrollando nuevas herramientas que alistan técnicas de aprendizaje automático para la clasificación de datos y la limpieza de datos.

Cuando los datos grandes se combinan con el aprendizaje automático, surgen problemas de calidad adicionales. Los cambios realizados para normalizar los datos pueden dar lugar a un sesgo en la interpretación mediante un algoritmo de aprendizaje automático. Una frecuencia relativamente baja de errores en enormes almacenes de datos hace que la necesidad de un control de la calidad de los datos sea menos importante, pero la realidad es que los problemas de calidad simplemente se trasladan a otras áreas. Las correcciones automáticas y las suposiciones generales pueden introducir sesgos ocultos en todo un conjunto de datos.

El aprendizaje automático y las herramientas avanzadas de software ciertamente proporcionan un avance tecnológico importante, lo que hace posible ofrecer nuevos enfoques a los problemas de calidad. Sin embargo, no existe una panacea. Un nuevo nivel de complejidad significa que los datos deben ser examinados más cuidadosamente.

serman, laboratorio de recuperación de datos en españa
 

Los comentarios están cerrados.