Limpieza de datos y preparación para la implementación de IA


La inteligencia artificial y las tecnologías relacionadas, como el aprendizaje automático, las redes neuronales, el procesamiento del lenguaje natural, etc., pueden afectar a las empresas de todos los sectores. Para 2030, se cree que la inteligencia artificial tiene el potencial de contribuir con un estimado de 13 billones de dólares a la actividad económica mundial. Sin embargo, la velocidad con la que las empresas están adoptando la IA no es tan rápida como cabría esperar. Los desafíos son muchos: es una combinación de falta de disponibilidad de datos para entrenar modelos de IA, problemas de gobernanza, falta de integración y comprensión y, lo que es más importante, problemas de calidad de los datos. A menos que los datos estén limpios y sean adecuados para su uso con sistemas impulsados ​​​​por IA, los sistemas no pueden funcionar a su máximo potencial. Echemos un vistazo más de cerca a algunos de los desafíos y estrategias clave que pueden mejorar la calidad de los datos para una implementación exitosa de IA.

Obstáculos para implementar la IA

Un estudio reciente mostró que, si bien el 76 % de las empresas que respondieron buscaba aprovechar las tecnologías de datos para aumentar las ganancias, solo alrededor del 15 % tiene acceso al tipo de datos necesarios para lograr este objetivo. Los principales desafíos para gestionar la calidad de los datos para la implementación de IA son:

Conjuntos de datos heterogéneos

Ingresar precios en diferentes monedas y esperar que un modelo de IA los analice y compare puede no proporcionar resultados precisos. Los modelos de IA se basan en conjuntos de datos homogéneos con información estructurada según un formato común. Sin embargo, las empresas capturan datos en diferentes formas. Por ejemplo, una oficina de ventas en Alemania puede recopilar datos en alemán mientras que la oficina de París recopila datos en francés. Dada la gran variedad de datos que se pueden recopilar, puede ser un desafío para las empresas estandarizar los conjuntos de datos de IA y los mecanismos de aprendizaje.

Según Jane Smith, científica de datos, “Poner datos dispares en diferentes formatos y esperar que los modelos de IA los analicen y comparen con precisión es un desafío importante. Los conjuntos de datos homogéneos estructurados de acuerdo con un formato común son esenciales para una implementación exitosa de la IA.

Representación incompleta

Tomemos el ejemplo de un hospital que usa IA para interpretar los resultados de los análisis de sangre. Si el modelo de IA no considera todos los tipos de sangre, los resultados podrían ser inexactos y potencialmente mortales. A medida que aumenta la cantidad y los tipos de datos que se manejan, también aumenta el riesgo de que falte información.

A muchos conjuntos de datos les faltan campos de información. También puede incluir datos inexactos y registros duplicados. Esto hace que los datos sean una representación incompleta de todo el conjunto de datos. Afecta la confianza empresarial en la toma de decisiones basada en datos y reduce el valor proporcionado por las inversiones en TI.

La investigación de Data Analytics Today sugiere: “Muchos conjuntos de datos tienen campos de información faltantes, inexactitudes y registros duplicados, lo que los convierte en representaciones incompletas de todo el conjunto de datos. Esto socava la toma de decisiones basada en datos y disminuye el valor de las inversiones en TI.

Cumplimiento normativo gubernamental

Cualquier empresa que recopile datos debe cumplir con la privacidad de datos y otras regulaciones gubernamentales. Las regulaciones pueden diferir de un estado a otro o de un país a otro. Esto puede dificultar el uso de un modelo de IA que extrae datos de conjuntos de datos globales.

John Anderson, un experto legal, señala: “Navegar por la complejidad de las regulaciones gubernamentales es un obstáculo clave para implementar la IA. Las empresas deben considerar cuidadosamente y cumplir con las leyes de privacidad de datos para evitar riesgos legales y de reputación.

Altos costos de preparación de datos.

El 80 % del trabajo de los proyectos de IA se centra en la preparación de datos. Los datos recopilados de múltiples fuentes deben combinarse en lugar de aislarse, y deben abordarse los problemas de calidad de los datos. Todo esto requiere tiempo y un cierto costo que las empresas pueden no estar preparadas o dispuestas a invertir en las etapas iniciales de implementación de la IA.

Las mejores estrategias para mejorar la calidad de los datos

Cuando se trata de implementar modelos de IA, como se mencionó anteriormente, los desafíos se relacionan principalmente con mejorar la calidad de los datos. Cuanto menor sea la calidad de los datos disponibles, más avanzados deberán ser los modelos de IA. Algunas de las estrategias que se pueden adoptar para mejorar la calidad de los datos son:

Perfilado de datos

La creación de perfiles de datos es un paso esencial que brinda a los profesionales de IA una mejor comprensión de los datos y crea una línea de base que se puede usar para una mayor validación de datos. Según el tipo de datos que se perfilan, esto implica identificar entidades clave como producto, cliente, etc., eventos como período de tiempo, compra, etc. y otras dimensiones de datos clave, seleccionando un período de tiempo típico y analizando los datos. También la identificación de tendencias, picos y valles, estacionalidad, rango mínimo-máximo, desviación estándar, etc. forman parte de la elaboración de perfiles de datos. Las inexactitudes e inconsistencias también deben abordarse y corregirse siempre que sea posible.

Establecer puntos de referencia de calidad de datos

Establecer puntos de referencia de calidad de datos ayudará a estandarizar las reglas de validez y mantener metadatos que ayuden a evaluar la calidad de los datos entrantes. Esto podría ser un conjunto de reglas dinámicas mantenidas manualmente, reglas derivadas automáticamente basadas en la validez de los datos entrantes o un sistema híbrido. Independientemente de la configuración, las referencias de calidad de los datos deben ser tales que todos los datos entrantes puedan evaluarse con respecto a las reglas de validez y los problemas puedan solucionarse en consecuencia. Idealmente, estas referencias deberían ser accesibles para los propietarios de procesos y los analistas de datos para que puedan comprender mejor los datos, las tendencias y los problemas.

Verificación y validación de datos

Una vez que se definen los puntos de referencia de calidad de los datos, se pueden utilizar como punto de referencia para verificar y validar todos los datos. De acuerdo con las reglas de calidad de datos, se debe verificar que los datos sean precisos, completos, oportunos, únicos y formateados de acuerdo con una estructura estandarizada. La verificación y validación de datos es un paso obligatorio al ingresar nuevos datos. Todos los datos existentes en la base de datos también deben validarse periódicamente para mantener una base de datos de alta calidad. Además de verificar los datos ingresados, la validación también debe incluir el enriquecimiento donde se agrega la información faltante, se fusionan o eliminan los duplicados, se corrigen los formatos, etc.

En breve

Es probable que el impacto de la IA en los negocios globales crezca a un ritmo acelerado en los próximos años. Desde la agricultura y la fabricación hasta la atención médica y la logística, los beneficios de la IA están muy extendidos en todas las industrias. Dicho esto, las empresas que no adopten e implementen la tecnología de inteligencia artificial no solo perderán las ganancias potenciales, sino que también podrían ver una caída en el flujo de caja. Dada la influencia de la calidad de los datos en la adopción y el uso de tecnologías de IA, este es un problema que debe abordarse con urgencia.

La buena noticia es que hay una serie de herramientas que facilitan la evaluación y gestión de la calidad de los datos. En lugar de depender de la verificación manual, las herramientas de verificación de datos pueden comparar automáticamente los datos ingresados ​​con conjuntos de datos de terceros confiables para autenticarlos y enriquecerlos. Los resultados son más rápidos y fiables. Es un pequeño paso que lo acerca mucho más a la adopción de sistemas de IA.

La publicación Limpieza de datos y preparación para la implementación de IA apareció por primera vez en Datafloq.