La próxima amenaza de ciberseguridad son los gusanos informáticos de IA

A medida que los sistemas de inteligencia artificial (IA) generativa como ChatGPT de OpenAI Gemini de Google se hacen más avanzados, también crece el interés por ponerlos a trabajar. Startups y empresas tecnológicas están construyendo agentes y ecosistemas de IA sobre los sistemas que pueden realizar tareas aburridas por nosotros, como hacer automáticamente reservas de calendario y, potencialmente, comprar productos. Pero a medida que se da más libertad a estas herramientas, también aumentan las posibilidades de que sean atacadas.

Ahora, en una demostración de los riesgos de los ecosistemas de IA conectados y autónomos, un grupo de investigadores ha creado lo que describen como el primer gusano informático de inteligencia artificial generativa, que puede propagarse de un sistema a otro, con la posibilidad de robar datos o desplegar malware en el proceso. “Básicamente, significa que ahora existe la capacidad de llevar a cabo o realizar un nuevo tipo de ciberataque que no se había visto antes”, dice Ben Nassi, investigador de Cornell Tech que está detrás de la investigación.

Morris II, el primer gusano de inteligencia artificial

Nassi, junto con sus colegas Stav Cohen y Ron Bitton, creó el gusano, bautizado Morris II, como un guiño al gusano informático Morris original que causó el caos en internet en 1988. En un documento de investigación y un sitio web compartido en exclusiva con WIRED, los investigadores muestran cómo el gusano de IA puede atacar a un asistente de correo electrónico de IA generativa para robar datos de los correos electrónicos y enviar mensajes de spam, rompiendo en el proceso algunas protecciones de seguridad de ChatGPT y Gemini.

La investigación, que se llevó a cabo en entornos de prueba y no contra un asistente de correo electrónico disponible públicamente, se produce en un momento en que los grandes modelos de lenguaje (LLM por sus siglas en inglés) son cada vez más multimodales, capaces de generar imágenes y video además de texto. Aunque todavía no se han detectado gusanos de IA generativa, varios investigadores afirman que constituyen un riesgo para la seguridad que debería preocupar a las nuevas empresas, los desarrolladores y las compañías tecnológicas.

Lea también: Inteligencia artificial y ciberseguridad, retos de las fintech para 2024

La mayoría de los sistemas de IA generativa funcionan mediante instrucciones de texto que ordenan a las herramientas que respondan a una pregunta o creen una imagen. Sin embargo, estas instrucciones también pueden convertirse en un arma contra el sistema. A través de «jailbreaks”, instrucciones diseñadas para que el sistema revele información sobre sí mismo o rompa sus propias reglas de programación, se puede hacer que un sistema haga caso omiso de sus normas de seguridad y emita contenidos tóxicos o que inciten al odio, mientras que los ataques de inyección de instrucciones pueden dar instrucciones secretas a un chatbot.

Para crear el gusano de IA generativa, los investigadores recurrieron a lo que se conoce como “prompt autorreplicante adverso”, que provoca que el modelo de IA generativa emita, en su respuesta, otro prompt, explican los investigadores. En resumen, se le dice al sistema de IA que produzca un conjunto de instrucciones adicionales en sus respuestas. Esto es muy similar a los ataques tradicionales de inyección SQL y desbordamiento del búfer, dicen los investigadores.

¿Cómo funciona el gusano de IA?

Para demostrar cómo puede funcionar el gusano, los investigadores crearon un sistema de correo electrónico que podía enviar y recibir mensajes utilizando IA generativa, conectándose a ChatGPT, Gemini y el LLM de código abierto, LLaVA. A continuación, encontraron dos formas de explotar el sistema: utilizando un mensaje autorreplicante basado en texto e incrustando un mensaje autorreplicante en un archivo de imagen.

En un caso, los investigadores, actuando como atacantes, escribieron un mensaje de correo electrónico que incluía el mensaje de texto adverso, que “envenenaba” la base de datos de un asistente de correo electrónico utilizando la generación aumentada por recuperación (RAG), una forma que tienen los LLM de extraer datos adicionales de fuera de su sistema. Cuando el correo electrónico es recuperado por la RAG, en respuesta a una consulta del usuario, y se envía a GPT-4 o Gemini Pro para crear una respuesta, “rompe el servicio GenAI» y, en última instancia, roba datos de los correos electrónicos, dice Nassi. “La respuesta generada que contiene los datos sensibles del usuario más tarde infecta nuevos hosts cuando se utiliza para responder a un correo electrónico enviado a un nuevo cliente y luego se almacena en la base de datos del nuevo cliente”, explica.

Artículos relevantes: La ciberseguridad se disputa con la IA el protagonismo en la inversión

En el segundo método, según los investigadores, una imagen con un aviso malicioso incrustado hace que el asistente de correo electrónico reenvíe el mensaje a otros. “Al codificar el aviso autorreplicante en la imagen, cualquier tipo de imagen que contenga spam, material abusivo o incluso propaganda puede reenviarse a nuevos clientes después de que se haya enviado el correo electrónico inicial”, afirma Nassi.

En un video de demostración de la investigación, puede verse al sistema de correo electrónico reenviando un mensaje varias veces. Los investigadores también afirman que pueden extraer datos de los correos electrónicos: “Pueden ser nombres, números de teléfono, números de tarjetas de crédito, números de seguro social, cualquier cosa que se considere confidencial”, dice Nassi.

Esto es solo una advertencia… Por ahora

Aunque la investigación rompe algunas de las medidas de seguridad de ChatGPT y Gemini, los investigadores afirman que el trabajo es una advertencia sobre el “mal diseño de la arquitectura” dentro del ecosistema de la IA en general. No obstante, informaron de sus hallazgos a Google y OpenAI. “Parece que han encontrado una forma de explotar vulnerabilidades del tipo prompt-injection basándose en entradas de usuario que no han sido comprobadas o filtradas”, afirma un portavoz de OpenAI, que añade que la empresa está trabajando para que sus sistemas sean “más resistentes” y afirma que los desarrolladores deberían «utilizar métodos que garanticen que no están trabajando con entradas dañinas». Google declinó hacer comentarios sobre la investigación. Los mensajes que Nassi compartió con WIRED muestran que los investigadores de la compañía solicitaron una reunión para hablar del tema.

Aunque la demostración del gusano tiene lugar en un entorno en gran medida controlado, varios expertos en seguridad que revisaron la investigación afirman que el riesgo futuro de los gusanos de inteligencia artificial generativa es algo que los desarrolladores deberían tomarse en serio. Esto se aplica especialmente cuando las aplicaciones de IA reciben permiso para realizar acciones en nombre de alguien –como enviar correos electrónicos o reservar citas– y cuando pueden estar vinculadas a otros agentes de IA para completar estas tareas. En otras investigaciones recientes, investigadores de seguridad de Singapur y China han demostrado cómo podían hacer jailbreak a un millón de agentes LLM en menos de cinco minutos.

Podría interesarle: Así es cómo la IA y la computación cuántica están remodelando el panorama de la ciberseguridad

Sahar Abdelnabi es investigador del CISPA Helmholtz Center for Information Security de Alemania que trabajó en algunas de las primeras demostraciones de inyecciones puntuales contra LLM en mayo de 2023 y puso de relieve que estos gusanos pueden ser posibles. Afirma que cuando los modelos de IA toman datos de fuentes externas o los agentes de IA puLa ciberseguridad se disputa con la IA el protagonismo en la inversióneden trabajar de forma autónoma, existe la posibilidad de que los gusanos se propaguen. “Creo que la idea de propagar inyecciones es muy plausible”, afirma Abdelnabi, “todo depende del tipo de aplicaciones en las que se utilicen estos modelos”. Abdelnabi afirma que, aunque este tipo de ataque es simulado por el momento, puede que no sea teórico durante mucho tiempo.

En un artículo sobre sus hallazgos, Nassi y los demás investigadores afirman que prevén ver gusanos informáticos de inteligencia artificial generativa en “estado salvaje” en los próximos dos o tres años. “Los ecosistemas de IA generativa están siendo desarrollados masivamente por muchas empresas del sector que integran sus capacidades en autos, smartphones y sistemas operativos”, dice el artículo de investigación.

¿Cómo defendernos de los gusanos de IA?

A pesar de esto, hay formas en que las personas que crean sistemas de IA generativa pueden defenderse contra posibles gusanos, incluyendo el uso de enfoques de seguridad tradicionales. “Como ocurre con muchos de estos problemas, esto es algo que el diseño de aplicaciones seguras adecuadas y el monitoreo podrían abordar partes”, dice Adam Swanda, investigador de amenazas en la firma de seguridad empresarial de IA Robust Intelligence.

Swanda también dice que mantener a los humanos al tanto –asegurándose de que los agentes de IA no están autorizados a realizar acciones sin aprobación– es una mitigación crucial que se puede poner en marcha. “No quieres que un LLM que esté leyendo tu e-mail pueda darse la vuelta y enviar un correo. Debe haber cierto límite ahí”. Swanda afirma que si una solicitud se repite miles de veces en sistemas como los de Google y OpenAI, se creará mucho “ruido” y podría ser fácil de detectar.

Nassi y los investigadores reiteran muchos de los mismos enfoques para las mitigaciones. En última instancia, dice Nassi, las personas que crean asistentes de IA tienen que ser conscientes de los riesgos.

FUENTE: Burguess, Matt. »La próxima amenaza de ciberseguridad son los gusanos informáticos de inteligencia artificial» Es.wired.com. 09/03/2024. (https://es.wired.com/articulos/crean-gusanos-informaticos-de-inteligencia-artificial-generativa).

Facebook
Twitter
LinkedIn
Utilizamos cookies propias y de terceros, únicamente se limitan a recoger información técnica para identificar la sesión con la finalidad de obtener información estadística, facilitar el acceso seguro y eficiente de la página web, con el fin de darle mejor servicio en la página. Si continúas navegando este sitio asumiremos que estás de acuerdo.