Los tesoros ocultos de la Red que quedan fuera del alcance de los científicos
Por cuestiones de privacidad o competencia, sitios como Amazon, Google y Facebook niegan a los investigadores la posibilidad de analizar los comportamientos de los usuarios en Internet; la opinión de académicos y revistas de investigación
PALO ALTO, CALIFORNIA.- Cuando los científicos publican sus investigaciones, también ofrecen los datos en los que se basaron para que los resultados puedan ser verificados por otros científicos. Al menos así es como se supone que debe funcionar el sistema. Pero últimamente científicos sociales se han chocado con una excepción que, en coincidencia con cómo se la llama, es inmensa.
Se trata de lo que en inglés se conoce como "big data" –bases de datos grandes-, vastos conjuntos de información reunida por investigadores en compañías como Facebook, Google y Microsoft a partir de los patrones generados por las llamadas con teléfonos celulares, mensajes de texto y clics en Internet de millones de usuarios en todo el mundo. Las compañías a menudo se niegan a hacer pública esa información, en algunos casos por motivos de competencia y en otros para proteger la privacidad de sus clientes. Pero para muchos científicos, esa práctica es una invitación a la mala ciencia, a los manejos oscuros e incluso al potencial fraude.
La cuestión se puso al rojo vivo el mes pasado en una conferencia científica en Lyon, Francia, cuando tres científicos de Google y la Universidad de Cambridge se negaron a publicar datos que habían compilado para un trabajo sobre la popularidad de los videos de YouTube en distintos países.
El presidente del panel de la conferencia – el argentino Bernardo A. Huberman , un físico que dirige el grupo de computación social de los laboratorios de HP aquí- respondió enojado. En el futuro, dijo, la conferencia no aceptaría trabajos de autores que no hagan públicos sus datos. Su comentario fue recibido con aplausos.
En febrero, el doctor Huberman había publicado una carta en la revista Nature alertando de que los datos no publicados estaban atentando contra la base misma de las investigaciones científicas. "Si otro conjunto de datos no convalida los resultados obtenidos con datos privados –preguntó- ¿cómo sabemos que no se debe a que no son universales o los autores cometieron un error?"
Las compañías a menudo se niegan a hacer pública esa información, en algunos casos por competencia o por privacidad de sus clientes. Pero para muchos científicos, esa práctica es una invitación a la mala ciencia, a los manejos oscuros e incluso al potencial fraude.
Agregó que el control corporativo de los datos podía dar acceso preferencial a un grupo de elite de científicos en las mayores corporaciones. "Si continúa esta tendencia –escribió- veremos un pequeño grupo de científicos con acceso a bases privadas de datos disfrutar de una atención inmerecida en la comunidad a expensas de investigadores igualmente talentosos cuya única falla es la falta de los "contactos" adecuados con los datos privados".
Facebook y Microsoft se negaron a hacer comentarios sobre la cuestión. Hal Varian, el jefe de economistas de Google, dijo que simpatiza con la idea de la apertura de las bases de datos pero agregó que las cuestiones de privacidad son significativas.
"Este es uno de los motivos por el que el patrón general en Google es tratar de poner los datos a disposición de todos o ninguno", dijo. "He estado trabajando para conseguir que las compañías difundan más datos sobre sus sectores. La idea es que se puede difundir datos privados agregados de tal modo que no pongan en riesgo la privacidad".
El debate se intensificará a medida que las grandes compañías con muchos fondos hagan más investigaciones sobre sus usuarios. "En la era de Internet –dijo Andreas Weigend , un físico y ex jefe de científicos de Amazon- la investigación ha pasado de las universidades a los Google, Amazon y Facebook del mundo".
"La investigación ha pasado de las universidades a los Google, Amazon y Facebook del mundo" dijo Andreas Weigend, un físico y ex jefe de científicos de Amazon
Pero mientras los científicos sociales y los especialistas en datos concuerdan en la importancia de poder repetir resultados experimentales, hay menos consenso sobre qué y cómo debe hacerse respecto de las preocupaciones por la privacidad.
En las principales revistas de ciencias sociales hay pocas guías claras sobre la difusión de datos. "El American Journal of Sociology (Revista de sociología de Estados Unidos) actualmente no tiene una posición formal sobre los datos privados", escribió en un mensaje de correo electrónico su editor, Andre Abbot, sociólogo de la Universidad de Chicago. "Tampoco tenemos actualmente políticas que obliguen a difundir los datos".
El problema no se limita a las ciencias sociales. Un estudio reciente concluyó que 44 de 50 revistas científicas líderes instruyen a sus autores respecto de la necesidad de compartir datos, pero menos del 30 por ciento de los trabajos publicados cumplen plenamente con las instrucciones. Un estudio de 2008 sobre los requisitos de difusión de datos de genética concluyó que 40 de las 70 revistas encuestadas tenían políticas al respecto y que en 17 casos las mismas eran "débiles".
La política de difusión de datos de la revista Science dice: "Todos los datos necesarios para comprender, evaluar y extender las conclusiones del manuscrito deben estar a disposición de cualquier lector de Science". Pero en el caso de un artículo de 2010 basado en datos de patrones de celulares, un acuerdo legal con el proveedor de los datos impedía a los investigadores siquiera informar el país de origen de los mismos.
Ginger Pinholster, vocera de la Asociación Americana para el Progreso de la Ciencia, que publica la revista, reconoció que en "raras ocasiones" Science permite que haya excepciones a sus reglas de publicaciones para proteger la privacidad. "Información sobre movimientos en lugares particulares" podría dar datos personales, dijo. "Y los autores también tuvieron que comprometerse a mantener la privacidad para obtener la información de la compañía telefónica".
"¿Si otro conjunto de datos no convalida los resultados obtenidos con datos privados, cómo sabemos que no se debe a que no son universales o los autores cometieron un error?", señaló Bernardo Huberman, físico del grupo de computación social de HP ante el hermetismo de las compañías en develar datos para investigación científica
La revista no señaló la excepción a la política cuando publicó el artículo.
Del mismo modo, un artículo de abril de 2011 en la revista PLoS One declaraba que la investigación se basaba "en registros de 72,4 millones de llamadas y 17,1 millones de mensajes de textos acumulados en un período de un mes" pero no identificaba al proveedor de la información.
Uno de los fundadores de PLoS, Michael Eisen, biólogo celular de la Universidad de California, Berkeley, que es un fuerte partidario de la "ciencia abierta" sonaba atribulado por ese trabajo en un mensaje de correo electrónico. "Es antitético a las normas básicas de la ciencia hacer afirmaciones que no puedan ser corroboradas porque los datos son privados" escribió.
La cuestión fue anticipada en un ensayo de 2009 publicado por Science entre cuyos autores se incluía Albert-Laszlo Barabasi, un físico de la Universidad del Noreste de Estados Unidos, que también fue autor de los trabajos controvertidos publicados en Science y PLoS One.
"Quizás el desafío más complicado se da por el lado de los datos, con respecto al acceso y la privacidad" escribieron. Alertaron que incluso hacer anónimos los conjuntos de datos podría ser una solución imperfecta, y reclamaron nuevos modelos de colaboración entre las empresas y los sectores académicos para ayudar a las investigaciones y proteger la privacidad.
El año pasado la National Science Foundation (Fundación Nacional de las Ciencias) dijo que se espera de los investigadores que reciben sus fondos que compartan sus datos con otros investigadores.
Muchos científicos concuerdan en que esto debe ser así.
"La respuesta obvia es que tiene que haber más acceso a los datos" dijo Alex Pentland, director del Laboratorio de Dinámica Humana del MIT. "Eso está comenzando a suceder a medida que los gobiernos y las empresas comprenden que tienen que entender mejor las posibilidades y los límites de las grandes bases de datos; por ejemplo, pronto estaremos anunciando la difusión de una inmensa base de datos telefónicos de múltiples países".
© NYT Traducción de Gabriel Zadunaisky