Investigadores de Cornell Tech demostraron cómo se puede crear malware que vulnere el funcionamiento de un asistente de inteligencia artificial y lo haga redistribuir contenido y mostrar información confidencial; por ahora es una prueba de laboratorio
- 3 minutos de lectura'
Un grupo de investigadores ha desarrollado un gusano informático que tiene la capacidad de propagarse entre agentes de Inteligencia Artificial (IA) generativa, implementar malware en ellos y robar datos de los usuarios.
Este gusano, denominado Morris II en referencia al considerado primer malware de la historia e identificado en 1988, Morris, se ha creado para demostrar los riesgos de los ecosistemas autónomos y conectados por la IA generativa, según han explicado los desarrolladores en Wired.
El equipo de expertos, formado por el investigador de Cornell Tech Ben Nassi y otros dos compañeros, Stav Cohen y Ron Britton, ha demostrado cómo el gusano puede atacar a un asistente de correo electrónico de IA generativa para robar información de los usuarios y enviar mensajes de spam, sobrepasando algunos sistemas de seguridad de ChatGPT y Gemini durante el ataque.
En primer lugar, han recordado que la mayoría de los sistemas de IA generativa funcionan mediante instrucciones, que permiten a las herramientas responder una pregunta o crear una imagen. Sin embargo, estas indicaciones también se pueden emplear contra el sistema, para que la IA generativa ignore su principal finalidad y sobrepase los límites de seguridad.
Para probar este gusano, los investigadores crearon un sistema de correo electrónico de prueba, capaz de enviar y recibir mensajes utilizando IA generativa de ChatGPT y Gemini, así como el modelo de lenguaje grande (LLM) de código abierto LLaVA.
En esta simulación, los investigadores escribieron un correo electrónico capaz de “envenenar” la base de datos del asistente de correo electrónico usando la generación mejorada por recuperación (RAG, por sus siglas en inglés), un proceso que permite a los LLM obtener datos adicionales desde el exterior.
Una vez el RAG recupera el correo electrónico, envía estos datos a GPT-4 o Gemini Pro para elaborar una respuesta, haciendo ‘jailbreak’ -esto es, instalando software diferente al del fabricante- en el servicio GenAI.
La respuesta generada, por tanto, “contiene datos confidenciales del usuario e infecta posteriormente nuevos hosts cuando se utiliza para responder a un correo electrónico enviado a un nuevo cliente y luego se almacena en su base de datos”, según ha explicado Nassi.
Por otra parte, el equipo de ingenieros probó a distribuir una imagen con un mensaje malicioso incrustado, que hizo que el asistente de correo electrónico reenviase el mensaje a otras personas. Esto fue posible porque se codificó el mensaje autorreplicante en la imagen, de modo que cualquier tipo de imagen contenedora de spam o material dañino se puede reenviar a nuevos clientes o usuarios después de haber remitido el correo electrónico original.
En este proceso se puede extraer datos de los correos electrónicos en cuestión, como los nombres, los números de teléfono, los números de tarjetas de crédito “y cualquier cosa que se considere confidencial”, en palabras del investigador.
Con este trabajo, los analistas buscan demostrar que existe un “mal diseño de arquitectura” dentro del ecosistema de IA, lo que advierte que los desarrolladores de estas herramientas deben fortalecer sus sistemas de seguridad para hacerlos “más resistentes”.
Otras noticias de Inteligencia artificial
- 1
Renault Gordini modelo 2025: así sería el histórico vehículo, según la IA
- 2
Histórico: China repavimentó casi 160 km de autopista con máquinas autónomas
- 3
El ascenso de la media Luna de diciembre: el doodle de Google de hoy celebra esta fase lunar con un juego interactivo
- 4
Fin del impuesto PAIS: del iPhone 16 al Galaxy S24 Ultra o la PlayStation 5, cómo cambia su precio para traerlos al país desde enero de 2025