Un grupo de investigadores de Google y varias universidades encontró que pedirle a ChatGPT que repita una palabra al infinito generaba un error en el sistema que revelaba parte del contenido con el que fue entrenado el chatbot
- 3 minutos de lectura'
ChatGPT ya no puede repetir una palabra eternamente porque ahora se advierte de que se trata de una posible violación de sus políticas, un cambio que se ha apreciado tras una investigación que demostraba que dicha repetición acababa revelando datos personales reales procedentes del entrenamiento.
Una reciente investigación en la que participó Google DeepMind mostró que ChatGPT puede revelar datos personales, como un número de teléfono o una dirección de correo electrónico, en un ciberataque “algo tonto”, en el que solo hay que repetir que pedirle que repita eternamente una palabra.
Este ataque de extracción de datos se basa en que “los modelos de imágenes y texto memorizan y regurgitan datos de entrenamiento”, como apuntaron los investigadores. Unas veces estos datos aparecen sin que nadie intente extraerlos, pero puede forzarse su aparición de una forma muy simple.
Se trata de una acción que OpenAI, responsable de este chatbot, ha incluido ahora como una violación de los términos de uso del servicio, como informan en 404 Media. Tras desvelarse la investigación, al intentar pedir a CharGPT que repita -cualquier palabra- eternamente, muestra una notificación que advierte de que dicha petición puede violar los términos de uso o la política de contenido.
Sin embargo, esta advertencia no aparece por el momento recogida en las propias políticas de uso de ChatGPT, ni en los términos de uso ni en la política de contenido, como señalan en Engadget y puede comprobarse en los documentos.
El antecedente del ataque en el que ChatGPT revela datos ocultos
ChatGPT puede revelar datos personales, como un número de teléfono o una dirección de correo electrónico, en un singular ciberataque en el que solo hay que repetir una palabra, como ha demostrado un grupo de investigadores.
Investigadores de Google DeepMind y de las universidades de Washington, Cornell, Carnagie Mellon, Berkeley y ETH Zurich han logrado extraer “varios megabytes de datos de entrenamiento de ChatGPT por 200 dólares”, con un ataque ellos mismos califican de “algo tonto”.
Este ataque consiste en indicar al modelo que repita una palabra, que en el caso de la investigación es ‘poem’ (poema). En su respuesta, ChatGPT muestra información como un correo electrónico y un número de teléfono reales “de alguna entidad desprevenida”, como apuntan en el texto de su investigación.
Este ataque de extracción de datos se basa en que “los modelos de imágenes y texto memorizan y regurgitan datos de entrenamiento”. Unas veces estos datos aparecen sin que nadie intente extraerlos, pero como ha demostrado la investigación, puede forzarse su aparición de una forma muy simple.
“Mostramos que esto es posible, a pesar de que este modelo [ChatGPT] solo está disponible a través de una API de chat y a pesar de que el modelo (probablemente) esté alineado para dificultar la extracción de datos”, explican.
El ataque es posible porque identifica una vulnerabilidad que permite saltarse las protecciones implementadas y que hace que el modelo “escape de su procedimiento de alineación de ajuste y recurra a sus datos previos al entrenamiento”.
Para asegurarse de que los datos son auténticos y no creaciones del modelo, que a veces ocurre, los investigadores los cotejaron con 10GB de datos que descargaron de Internet y que ya existían antes de ChatGPT.