La Inteligencia Artificial Generativa (IAG) puede tener errores en sus resultados y mostrar algunos sesgos que en 2023 fueron denominados como “alucinaciones”, además de que sus datos también pueden estar “envenenados”: Se trata de una técnica utilizada por los hackers para manipular y comprometer la seguridad de los grandes modelos de lenguaje (LLM, por sus siglas en inglés).
El “envenenamiento de datos” es un sofisticado ataque cibernético que se dirige a los sistemas de Inteligencia Artificial (IA) con el fin de alterar el aprendizaje automático de esta tecnología, corrompiendo -de manera deliberada- la información que se utiliza para entrenar a los LLM.
El principal objetivo de quienes envenenan los datos de la IA es alterar el comportamiento de los Chatbots, y propiciar que sus resultados sean erróneos.
Debido a que la IAG requiere de grandes volúmenes de datos para llevar a cabo sus inferencias e identificación de patrones, cuando se introduce información maliciosa o falsa -también en grandes cantidades- es factible perturbar el casi infinito cúmulo de datos que utilizan los algoritmos.
¿Cómo detectarlo?
Los usuarios de la IAG pueden detectar si su “asistente virtual” ha sido envenenado, para ello no es necesario ser un ingeniero en sistemas o experto en programación, basta con observar el tipo de respuestas que se obtienen, siempre y cuando estas sean constantes y repetitivas.
Por ejemplo, si el Chatbot que utilizas tiene numerosas “alucinaciones”, ese es un indicador del envenenamiento de datos.
Todos los modelos de IAG “alucinan” cuando arrojan información inexacta, ilógica, ficticia o errónea, por eso es importante verificar en otras fuentes los resultados que arroja esta tecnología.
En ocasiones, al detectar una respuesta equivocada, es posible notificárselo al mismo Chatbot, y este de inmediato corrige sus datos ofreciéndote otro resultado, aquí no se trata de un envenenamiento de datos, sino solo de las usuales alucinaciones que suele presentar la Inteligencia Artificial Generativa.
En cambio, si los errores son demasiados, constantes y continuos, debes sospechar de algún envenenamiento.
Otro elemento que muestra una alteración más profunda de la Inteligencia Artificial es la presencia de errores en tareas que, anteriormente, funcionaban sin ningún problema.
Por ejemplo, si cotidianamente usas a la IAG para analizar documentos o llevar a cabo traducciones, y de pronto esas labores contienen numerosos errores, o el rendimiento y rapidez del Chatbot baja de manera significativa, es posible que el sistema haya sido envenenado.
De igual forma, los datos de una IAG pueden estar envenenados si los resultados tienen numerosos sesgos o estos muestran la discriminación deliberada de alguna información.
Las inconsistencias entre plataformas igualmente son indicios de envenenamiento: Si se comparan los resultados a una misma pregunta en dos distintos Chatbots, las diferencias no deben ser notables, quizás uno sea más abundante y específico en su respuesta, pero en términos generales siempre son coincidentes, si no es así el sistema está envenenado.
¿Cómo se ejecuta la intoxicación?
Un reporte de IBM detalla que, para intoxicar a una Inteligencia Artificial, los atacantes “inyectan” datos fabricados en el conjunto de información de entrenamiento de la plataforma.
Esto se hace “para dirigir el comportamiento del modelo de IA en una dirección específica”. Así, los datos maliciosos alteran el significado de la consulta, “devolviendo (como respuesta) todos los registros en lugar de solo uno”.
Del mismo modo, en los modelos de aprendizaje automático, la inyección de datos puede manipular la toma de decisiones, haciendo que este haga clasificaciones incorrectas o sesgadas, “lo que socava la integridad de los datos y la solidez general del modelo”, asevera IBM.
Los casos en los que una plataforma de IA ha sido envenenada no son aislados, pues hasta Microsoft ha tenido incidentes de este tipo. En 2016 esta compañía lanzó un Chatbot de Inteligencia Artificial denominado Tay, el cual fue incorporado a Twitter (hoy X).
El programa estaba diseñado para imitar la forma en la que se expresan los jóvenes estadounidenses, por lo que Tay aprendía a partir de sus interacciones con otros usuarios de esa red social.
El problema surgió en menos de 24 horas, pues Tay realizó publicaciones ofensivas y racistas, ya que sus datos fueron envenenados. Microsoft desactivó a Tay y pidió una disculpa.
Más recientemente, en 2023, Google DeepMind fue atacada en el conjunto de datos de sus imágenes, lo que causó errores en la clasificación de objetos, en tanto que en 2024 el consorcio de gestión de programas (software) JFrog encontró que sus modelos de Inteligencia Artificial contenían datos maliciosos y habían sufrido un envenenamiento.
Fuente: Alto Nivel / Por: Surya Palacios
Publicado por: TuDecides.com.mx
Edición: Adrián Soltero
Contacto: dir@tudecides.com.mx
Nota: Por lo general todos los artículos cuentan con fuente y autor del mismo. Si por alguna razón no se encuentra, lo hemos omitido por error o fue escrito por la redacción de TuDecides.com.mx.