¿Será posible reemplazar al Indec con big data y algoritmos?
El diluvio de datos que genera el avance de la tecnología instala el debate respecto de si se modificará la tradicional modalidad de encuestas para medir la realidad social; el catálogo de los desafíos que vienen de aquí en más
¿Será posible reemplazar al Indec por algoritmos y computadoras? La idea de big data -asociada al "diluvio de datos" generados por el uso de dispositivos interconectados- tiene fervientes seguidores y suspicaces detractores. Los primeros ven el fin de la ciencia conocida, que cede su trono a los datos y algoritmos, y los segundos ven sólo otra moda pasajera. Y sólo unos pocos tienen una actitud prudente capaz de sopesar ventajas y desventajas.
Es en el ámbito privado donde el big data da pasos convincentes y donde radica el grupo más optimista. El sector público es naturalmente más cauto, tanto por su esperable lentitud burocrática como por su compleja lógica de funcionamiento, que debe internalizar cuestiones operativas, políticas y comunicacionales.
En lo que respecta a las estadísticas sociales, los avances son escasos pero promisorios. Por caso, es posible construir índices de precios en forma confiable y virtualmente inmediata en base a robots computacionales que "chupan" precios de Internet, como lo hicieron los propulsores del "Proyecto del billón de precios" del prestigioso MIT. Otro ejemplo es un trabajo publicado en la revista Science, que propone una ingeniosa forma de medir la pobreza sobre la base de la intensidad de uso de teléfonos celulares, técnica empleada para Ruanda, un país extremo en lo referido a la necesidad de monitorear el bienestar.
Pero la estadística social tiene aspectos que van mucho más allá de lo meramente algorítmico, incluyendo factores políticos o comunicacionales y cuestiones de legitimidad y representatividad. El éxito de big data en el ámbito social dependerá de que lo técnico internalice las delicadas cuestiones institucionales propias de la cosa pública. Este es un breve catálogo de estos desafíos:
1. Big data no es necesariamente mucha información: antes de la irrupción de big data la reacción de la ciencia ante la dificultad de producir datos fue darles estructura. Los mecanismos de muestreo complejo subyacentes a las encuestas sociales (como la EPH del Indec) intentan que la información contenida en pocos datos pueda ser extrapolada a una población amplia. Por ejemplo, el bienestar de los aproximadamente 4,2 millones de hogares del Gran Buenos Aires es captado con 3039 observaciones muestrales. Que esta pequeña muestra pueda ser representativa de una población mucho más grande es un gran logro de la ciencia moderna. Ocurre que estos datos muestrales son estructurados y obedecen a un claro patrón probabilístico que permite relacionarlos con una población de referencia en forma confiable.
Por el contrario, los datos de big data no tienen una estructura obvia sino que provienen de dispositivos o sensores cuyo uso no obedece a ningún plan sistemático. Entonces, los millones de datos de big data no son directamente comparables con los de una encuesta sistemática, y hasta es posible que unos pocos datos bien estructurados contengan información más útil que una enorme cantidad de datos indisciplinados cuando no sesgados. La estadística social requiere una visión ecuánime y representativa de una realidad diversa geográfica y temporalmente. El desafío consiste en darles estructura creíble a los datos para que puedan brindar información valiosa y justa afín a la provista por los datos de las encuestas clásicas.
2.Big data no es todos los datos: la evaluación de políticas requiere comparar intervenciones con sus contrafácticos. Por ejemplo, la medición de la efectividad de la AUH debería basarse en comparar el derrotero de una familia que la ha recibido con exactamente la misma familia que no lo ha hecho. Por su lógica definicional, big data revela datos de acciones pero no de sus contrafácticos, de modo que no existe forma de que muestre directamente esta información oculta. A menos que la AUH se asigne al azar como en un experimento científico, comparar a una familia que recibe la AUH con otra que no, es como comparar peras con manzanas. Los últimos 30 años han sido exitosos en la implementación de métodos estadísticos para evaluaciones confiables. Un importante desafío para la política pública es explotar la profusión de datos para construir contrafácticos que permitan realizar evaluaciones confiables de la política.
3. La estadística social es un acuerdo: cualquier medida de pobreza es discrecional; no hay ninguna definición indiscutible de qué significa ser pobre. Las medidas usadas son una convención resultante de sopesar sus ventajas y desventajas estadísticas, políticas y comunicacionales. Al respecto Angus Deaton (Nobel en economía 2015) decía que "las líneas de pobreza son construcciones tan políticas como científicas", sugiriendo que en la estadística social, el trabajo técnico debe ser acompañado de una tarea conceptual que valide su uso. Es un gran desafío para el big data, que prioriza lo algorítmico.
4. Transparencia versus privacidad: en pos de la transparencia, hace unos años el gobierno de Noruega validó la difusión online de los ingresos de sus habitantes. Muy rápidamente aparecieron episodios de bullying o mera envidia social que forzaron a las autoridades a poner límites a esta práctica, a fines de preservar la privacidad. La espontaneidad y aparente anarquía de big data puede poner a la sociedad a confrontar entre dos valores deseables como la transparencia y la privacidad. Que una no atente contra la otra es un gran desafío.
5. El desafío de la comunicabilidad: las estadísticas sociales cumplen un rol comunicacional además de técnico. Hay una entendible preferencia por cifras que surgen de procesos simples y de fácil verbalización. Las medidas de "profundidad de pobreza" son técnicamente más adecuadas que las usualmente utilizadas de "conteo de pobres". Así y todo, las primeras son matemáticamente mas sofisticadas y complejas de interpretar, de ahí que las segundas hayan tenido más aceptación práctica. Las ganancias de big data se basan en explotar complejas estrategias que priorizan la capacidad predictiva. Y con este objetivo muchas veces prevalecen sofisticados métodos percibidos como "caja negra" fuera del mundo científico. El desafío es desarrollar una comunidad científica que ayude a dar credibilidad a las técnicas. A la luz de los episodios que pusieron en jaque la credibilidad del Indec, estas cuestiones no son un desafío menor y los científicos pueden cumplir un rol fundamental.
6. El desafío de la comparabilidad: la estadística social cumple un rol absoluto y otro relativo. Una medida de pobreza es útil para cuantificar la cantidad de hogares pobres y para monitorearla o compararla con otros lugares. Por eso, una estadística social debe ser temporal y geográficamente estable y comparable con otras medidas. La naturaleza no estructurada de big data requiere un gran esfuerzo de sistematización para garantizar este requisito de comparabilidad y compatibilización en períodos largos.
Las oportunidades de big data son enormes, tanto como las dificultades conceptuales, comunicacionales o políticas. Enfrentar los desafíos requiere una comunidad científica madura e interdisciplinar que avale la confiabilidad de los datos.
Profesor de la Udesa e investigador principal del Conicet
Otras noticias de Big Data
Más leídas de Economía
Referencia. ¿A cuánto cotiza el real este lunes 16 de diciembre?
Anses. Cuándo cobran los beneficiarios de la AUH con el DNI terminado en 6
Aerolíneas Argentinas. Buenos Aires asegura que inició contactos por la línea aérea de bandera
Invirtió US$2 millones. La marca que vuelve a la calle Florida y apuesta a la producción nacional