El grupo de trabajo que analiza ChatGPT comparte unas primeras conclusiones sobre datos públicos y transparencia
El grupo de trabajo encargado de determinar si los modelos de lenguaje grande (LLM, por sus siglas en inglés) de OpenAI cumplen con la legalidad europea, ha compartido unas conclusiones preliminares en relación con los datos públicos y la transparencia.
Esta primera aproximación a la legalidad de los LLM comparte algunas consideraciones sobre el procesamiento de los datos -que divide en cinco fases- y los derechos y las libertades fundamentales de los usuarios de la Unión Europea, en algunos casos con apuntes sobre las medidas adoptadas por la empresa tecnológica.
Las primeras tres fases, que abarcan desde la recogida de datos y el preprocesamiento de los datos hasta el entrenamiento, plantean riesgos a los derechos y las libertades fundamentales de los ciudadanos, ya que, según entiende el grupo de trabajo, los datos usados para el entrenamiento, muchas veces recogidos de publicaciones públicas en la web, pueden contener información personal, incluidos datos de categorías especiales recogidas en el RGPD como los que revelan el origen racial o étnico, las opiniones políticas, las convicciones religiosas, la afiliación sindical o incluso relativos a la salud y la orientación sexual.
Por ello, entienden la necesidad de que el proceso de recopilación debe encontrar un equilibrio en el que se tengan en cuenta tanto esos derechos y libertades de las personas como los intereses legítimos del responsable del tratamiento de los datos.
Y añaden la importancia de las medidas de seguridad y protección, que pueden incluir el establecimiento de un criterio para la recolección precisa de datos, así como evitar el procesamiento de categorías especiales de datos o incluso tecnologías para anonimizar los datos y eliminarlos si proceden de técnicas como el 'scraping' o raspado, esto es, el uso de datos previamente recopilados en otros sitios web o aplicaciones.
Puntualizan, asimismo, el hecho de que algunos datos estén disponibles públicamente en la web no significa que la persona haya hecho esos datos públicos, y que por ello, para que su recopilación y procesamiento sean legales, especialmente en categorías especiales, es importante determinar si "tenía la intención, explícitamente y mediante una clara acción afirmativa, para que los datos personales en cuestión sean accesibles a la público en general".
Las dos siguientes fases del procesamiento atienden a las interacciones de los usuarios con ChatGPT, esto es, las indicaciones, respuestas y entrenamiento con esas indicaciones. Estas interacciones se hacen mediante texto, pero también con la carga de archivos audiovisuales, y por ello, el grupo de trabajo considera que es necesario que se "se informe de manera demostrable" que ese contenido compartido se usará para el entrenamiento del 'chatbot' y los modelos de lenguaje.
El grupo de trabajo también aborda cuestiones como la equidad, las obligaciones de transparencia y la precisión de los datos, y apunta las medidas que ya ha presentado OpenAI al respecto.
Empezando por la equidad, el grupo de trabajo apunta a que no se puede hacer responsables a los usuarios de la información que comparten con el 'chatbot' en sus interacciones porque "si ChatGPT se pone a disposición del público, debe asumirse que las personas introducirán datos personales antes o después".
Asimismo, en lo que respecta al 'scraping', y teniendo en cuenta que esta técnica recopila grandes cantidades de datos que hacen imposible informar a todas las personas afectadas, el grupo de trabajo indica que se aplica el Artículo 14.5b del RGPD, que establece que "el responsable del tratamiento adoptará las medidas adecuadas para proteger los derechos y libertades y los intereses legítimos del interesado, incluida la puesta a disposición del público de la información".
Si la información se obtiene de la interacción con ChatGPT, en cambio, se aplica el Artículo 13, y se hace "particularmente importante" informar a los usuarios de que sus datos pueden ser utilizados para el entrenamiento.
Por último, y dado que las respuestas que ofrece ChatGPT pueden ser erróneas, sesgadas o inventadas, también se destaca la conveniencia de que quede claramente indicado este hecho, en tanto que los usuarios tienden a tomar como datos fácticos la información provista por el 'chatbot'.
Por otra parte, el grupo también analiza los derechos de los usuarios, y reconoce que la firma tecnológica, en sus términos, informa del procesamiento de los datos y de cómo se pueden eliminar, o rectificar, e incluso si en determinadas circunstancias transfiere dichos datos a terceros.
Destaca, asimismo, que OpenAI permite el contacto directo vía 'email' para resolver cuestiones sobre sus derechos, y que los propios ajustes de la cuenta de usuario ya permiten ejercer algunos de los derechos de los ciudadanos.
Estas conclusiones preliminares llegan un meses después de que el Comité Europep de Protección de Datos creada el grupo de trabajo centrado en ChatGPT en abril de 2023, siguiendo al anuncio de que autoridades nacionales en materia de protección de datos iban a investigar si OpenAI cumplía con la legalidad europea.