Danza con datos: cuando varias disciplinas hablan un idioma
Un workshop reciente sobre data fue el escenario para el encuentro de profesionalesde diferentes áreas, que lograron hacer un aporte para integrar los conocimientos
"Perdón, pero... ¿que es data wrangling?", preguntó confundida a un programador una economista que no mucho tiempo atrás había tenido que explicar el significado del término "variables instrumentales" a una bióloga, a la que un especialista en educación miraba azorado cada vez que ella decía "fenotipo" o "efector". Y en el mismo ámbito cada tanto se oía un "constructo" en boca de un sociólogo, retrucado por algún que otro "centroide" proveniente de un matemático.
Como en la Argentina de principios de siglo XX, en la cocina de la ciencia de datos se escucha hablar este "cocoliche" propio de quien intenta decir en castellano lo que los años le enseñaron en otro idioma. Tal fue el clima que se vivió recientemente en el workshop "Manos en la data: ciencia de datos para diseñar políticas públicas", organizado por CAF-Banco de Desarrollo de América Latina, con la colaboración de Siempro (Sistema de Información, Evaluación y Monitoreo de Programas Sociales) en representación del Estado, y de la Fundación Sadosky, que, a través de su Programa de Ciencia de Datos, aportó su amplia experiencia en la materia. "Políglota" fue el término que oportunamente usaron los organizadores del evento para referir al autor de esta nota, que ofició como coordinador académico del evento.
La propuesta consistía en invitar a varios sectores del Estado argentino a que contribuyeran con un problema que pudiera ser resuelto usando datos y algoritmos. Cada proyecto sería "maridado" con un científico de datos con quien elaborarían una propuesta conjunta de trabajo, cuya primera etapa debería ser implementada en un plazo de dos meses. El evento central consistió en una jornada de un día entero, en el que cada equipo trabajó en el diseño de su proyecto con la asistencia de los organizadores. Así, funcionarios públicos, economistas, sociólogos, geógrafos, médicos, biólogos, politólogos, computadores, urbanistas, ingenieros, físicos, lingüistas, educadores y matemáticos se avinieron a esta interesantísima "danza" intelectual y operativa, típica de un proyecto moderno de ciencia de datos.
Se trata de una tarea compleja, porque las herramientas no son independientes de los problemas. Es decir, quien no conoce las posibilidades del trabajo algorítmico y de datos posiblemente no perciba las enormes posibilidades que ofrece la ciencia de datos. Por otro lado, a quien solo maneja herramientas le cuesta discernir entre preguntas conceptual y políticamente relevantes y similares, amén de entender la enorme complejidad del entramado social.
El "cortejo" entre funcionarios y científicos de datos es complejo, en primer lugar, por las cuestiones de lenguaje expresadas al comienzo de esta nota. En segundo lugar, porque no es obvio que en lo multidisciplinar la nivelación sea para arriba -como es de esperar- , como cuando una disciplina relega a la otra a un mero rol de "proveedor" de insumos o soluciones. A modo de ejemplo, el equilibrio no funciona cuando el científico de datos pretende que su contraparte le diga exactamente cuál es el problema y cuáles son los datos, cuando en la realidad la contraparte (en este caso, los funcionarios públicos) tienen una variedad de problemas y objetivos, ninguno definido explícitamente, y muchos de ellos conflictivos entre sí en distintas dimensiones. Tampoco funciona cuando los funcionarios se ponen celosos de sus problemas e intentan relegar al científico de datos a un mero rol de operador de algoritmos.
Afortunadamente, la interacción entre profesionales honestos e interesados de ambos bandos funciona cuando ambos sacan lo mejor. Los funcionarios públicos, cuando son capaces de explicitar las restricciones políticas, operativas, éticas y comunicacionales de sus proyectos. Los científicos de datos, cuando logran convencer a sus contrapartes de que cualquier tratamiento numérico o modelístico necesariamente implica modificar el problema inicial a fines de hacerlo tratable, pero sin alterar grotescamente su esencia.
Las cuestiones éticas y comunicacionales no fueron un tema menor en esta danza de datos. El entusiasmo de los programadores y matemáticos a veces se choca con la necesidad de los funcionarios de lograr consensos y evitar conflictos éticos. El escándalo reciente de Facebook y Cambridge Analytica es un claro ejemplo de los desafíos éticos que conlleva un uso descuidado de la ciencia de datos. Asimismo, la política requiere una transparencia comunicacional que a veces privilegia estrategias algorítmicas subóptimas, pero más simples de explicar (a otros funcionarios, periodistas, votantes) que cajas negras complejas que solo entienden los expertos.
A los científicos de datos les tocó convencer a los funcionarios de que existe una nueva forma de pensar el dato y de que en estos nuevos tiempos se trata de relevarlo, construirlo, adaptarlo y limpiarlo, más que de una negociación burocrática para sacárselo a quien lo tiene. También les tocó argumentar que este auténtico proceso de "minería de datos" implica una inteligencia que a la larga conlleva una pérdida en relación a un ideal, y, así y todo, resulta útil para los objetivos finales.
A modo de ejemplo, un proyecto necesitaba medir el ausentismo escolar. La forma directa de hacerlo consiste en acceder a datos del aula en donde se registra qué alumno asiste y cuál no. Una de las enormes contribuciones que trae un científico de datos es aportar alternativas operativas que reemplazan este ideal, tales como registros de las tarjetas SUBE, imágenes satelitales de tráfico, datos de clima, etcétera. Es la tarea conjunta entre expertos en datos y educadores lo que garantiza que poco se pierda de reemplazar la medida ideal por una aproximación, y se gane mucho en términos analíticos.
"Se ha formado una pareja" nos decíamos con los organizadores cada vez que veíamos que las partes lograban entenderse, cual Roberto Galán en su programa casamentero. Para algunos, tal vez se trate de una relación pasajera, pero la apuesta es que esta todavía enorme brecha entre partes comience a cerrarse y estas incipientes relaciones se transformen en amor eterno. El verdadero desafío de la ciencia de datos en la cosa pública no está ni en el conocimiento técnico ni en desmantelar barreras burocráticas, sino en el medio, en ese territorio todavía poco explorado de la interacción interdisciplinar, que atraviesa las diferencias de lenguaje, que le hace entender a cada parte su propia complejidad (técnica, operativa, comunicacional, política) y que nivela para arriba. Porque el aluvión de datos es tierra de nadie y de todos.
waltersosaescudero@gmail.com
Otras noticias de Big Data
Más leídas de Economía
Habrá cambios. Cuánto costará el dólar tarjeta en enero
Advertencia. El CEO de una cadena francesa de supermercados no quiere comprar carne del Mercosur
Excelencia Agropecuaria. A pura emoción, se consagraron los mejores del campo en 2024
Plazo fijo. Cuál es la tasa de interés banco por banco este miércoles 20 de noviembre