Cómo las organizaciones pueden evitar el sesgo de datos en la era de la IA
La IA es una parte cada vez más importante de nuestras vidas, en áreas en las que quizás ni siquiera pienses.
Es probable que haya tenido un problema de viaje en los últimos años, causado por las muchas interrupciones que la pandemia de COVID ha causado en la industria. Cuando envió un mensaje a la página de Facebook de su aerolínea, ¿se encontró con un bot? Esto es inteligencia artificial en el trabajo.
Apuesto a que sus hijos en edad escolar le hacen a su altavoz inteligente en casa 1,000,000 de preguntas al día o le piden al altavoz de su marca respectiva que reproduzca 46,789 canciones al día. ¡Hola AI!
Apuesto a que muchos de los que leen esto solicitaron empleo durante la pandemia, cuando el mercado laboral favorecía enormemente a los solicitantes de empleo. ¿Esa herramienta de solicitud en línea? Desarrollado por AI, que compara el contenido de la aplicación con las palabras clave identificadas e investigadas por los gerentes de contratación para descartar inicialmente a los candidatos no calificados.
En pocas palabras: la IA solo está creciendo como parte de nuestras vidas: en una encuesta reciente de PwC, más de la mitad de los encuestados han acelerado sus esfuerzos de IA debido a COVID, con casi el 90% indicando que ven a la IA como una tecnología principal. Del mismo modo, un informe de IDC muestra que el gasto en sistemas de IA crecerá un 140 % para 2025, además del crecimiento ya masivo que la tecnología ya ha experimentado.
Con esta tendencia viene el peligro si la tecnología no se construye correctamente con las medidas de seguridad adecuadas para evitar la distorsión de los datos. ¿Cómo hacerlo? Unos pocos pasos simples pueden marcar la diferencia entre un modelo de datos útil y justo y uno que introduce sesgos, consciente o inconscientemente.
Asegúrese de que los controles y equilibrios estén en su lugar: La necesidad de neutralidad por parte de los humanos que construyen modelos de IA es clara, y los involucrados en ese proceso están comprometidos a garantizar esa neutralidad.
Sin embargo, el hecho es que no importa cuán neutrales los humanos intenten ser al establecer parámetros y filtrar y seleccionar datos, los sesgos pueden entrar en juego.
Estos modelos se basan en grandes cantidades de datos y es imperativo que los tecnólogos respeten los parámetros establecidos al crear dichos algoritmos, para evitar introducir sesgos tanto como sea posible. Estos humanos están involucrados en cada paso del camino: crean los modelos, los alimentan con datos, los entrenan para interpretar los datos resultantes, todos los pasos en los que la información utilizada puede estar influenciada sin saberlo por creencias, antecedentes u otros factores ambientales de aquellos. factores de los tecnólogos.
Entonces: ¿cómo evitar?
En aquellos modelos donde los humanos tienen un papel importante en la recopilación e interpretación de datos, es fundamental asegurarse de que esos humanos hayan recibido algún entrenamiento en sesgo. Además, el uso de los datos de capacitación correctos ayudará a garantizar el éxito: los datos de capacitación pueden y, a menudo, deben replicar escenarios del mundo real con una representación demográfica adecuada, sin introducir sesgos humanos.
El aprendizaje automático es tan bueno como sus datos de entrenamiento: considere, por ejemplo, las aplicaciones universitarias: si, por ejemplo, esos datos de entrenamiento no reflejan la dinámica del mundo real, el sesgo puede conducir a resultados desiguales en términos de aceptación o registro. También es importante monitorear los modelos para garantizar que reflejen el desempeño del mundo real y que puedan modificarse posteriormente si se encuentran sesgos.
Utilice datos oportunos y pertinentes: Los ejemplos mencionados anteriormente son, en general, triviales en el gran esquema de las cosas: los problemas de viaje, los parlantes inteligentes, la orientación de anuncios de Facebook y otros ejemplos son más obvios para el consumidor promedio, pero no son de vida o muerte.
Sin embargo, cuando se trata de profesionales de la salud y funcionarios gubernamentales que están desarrollando modelos de aprendizaje automático que impactan en la vida diaria, las cosas se ponen un poco más serias.
En todos los casos, pero más importante aún en los escenarios más serios, la prueba del modelo es absolutamente crucial; podría ayudarlo a evitar errores costosos con impactos que cambian la vida, como un ejemplo del Reino Unido en 2020, cuando miles de registros de casos de COVID se excluyeron de los datos de modelado, o la falla de algoritmo ampliamente publicitada (y ridiculizada) de Zillow que condujo a errores de cálculo en los precios de compra de viviendas y los posteriores despidos masivos en el gigante inmobiliario.
Agregue el entorno de cambios rápidos en el que todos vivimos en estos días, y los datos oportunos son clave: los datos relevantes tienen un fuerte impacto en la ética de los modelos y prácticas de IA y eliminan el sesgo. Como cualquiera que lea esto sabe, lo que era relevante hace un año, un mes o una semana puede no ser relevante para un modelo de IA.
Un ejemplo de la vida real: cualquier persona que construya un modelo posterior a COVID para identificar señales de advertencia de problemas de salud mental necesitaría usar datos de 2019 para construir y entrenar el modelo. Esas señales de advertencia e indicadores principales han cambiado drásticamente desde el inicio de COVID; el mundo es diferente, al igual que los factores que afectan la salud mental y una miríada de otras áreas que dependen e incorporan inteligencia artificial.
Conclusión: si los datos son antiguos o irrelevantes, no se logrará el resultado deseado y podría ser inútil o ineficaz en el mejor de los casos y alterar la vida en el peor. Tener en cuenta algunas de estas pautas eliminará el sesgo en los modelos de IA, mejorará la relevancia de los datos, aumentará la transparencia, generará confianza y, en última instancia, lo guiará por el camino hacia una IA más ética.
Sobre el Autor

Ken Payne es Gerente de Producto para Automatización en Hyland. Ken aprovecha sus más de 20 años de experiencia en la industria para impulsar la estrategia y la visión del producto de Hyland, ayudando a los clientes a lograr sus objetivos de automatización y transformación digital.
Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: https://twitter.com/InsideBigData1
Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/
Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW