Al final, los datos masivos no eran tan masivos
Uno de los debates surgidos de los resultados de las elecciones PASO del último domingo involucra un tema estrictamente tecnológico. Los datos masivos (big data, en inglés) fallaron catastróficamente al predecir quién y por cuánto ganaría.
Hay numerosas explicaciones al respecto, y se habló bastante estos días del asunto. En particular, fueron muy interesantes los dichos de Walter Sosa Escudero, profesor de la Universidad San Andrés e investigador principal del Conicet, en una entrevista por radio Mitre, en la que puso el foco sobre lo difícil que es predecir escenarios muy volátiles. Interesante y esclarecedor, porque cuanto más se necesita anticipar lo que va a pasar, más ineficientes se vuelven las herramientas de que disponemos. Paradójico, pero asimismo realista. A fin de cuentas, se trata de predecir el futuro.
A ese debate me gustaría añadir todavía otra mirada. Y, para eso, creo que será de utilidad una breve anécdota.
Datos versus realidad
En la zona donde vivo hay un largo y sinuoso bulevar que, dada la baja densidad demográfica del lugar, nunca se congestiona. Mucho menos, un domingo a la mañana. Pues bien, aquél domingo a las 7 –prometía ser una jornada preciosa de sol a fines de la primavera– debía salir a hacer unas compras y, como me había mudado hacía poco, abrí Google Maps para tener idea de cómo llegar a destino. Soy sumamente despistado, creo que ya conté eso.
Así como la aplicación bajó los datos de Internet, la imagen a vuelo de pájaro del bulevar mostraba algo que, dicho simple, no tenía sentido. Un poco al azar, aunque en general cada 200 o 300 metros, aparecía la cinta asfáltica en color naranja. Eso significa congestión de tránsito, ¿cierto? Cierto. Pero falso.
Me rompí la cabeza tratando de entender qué cosa extravagante podría estar ocurriendo para que una vía que a esas horas está siempre desierta tuviera franjas de congestión cada tanto. Se me ocurrieron varias ideas, todas inverosímiles. En todo caso, los datos masivos estaban indicando que había fragmentos del dichoso bulevar con atascos donde el tránsito iba mucho más lento de lo normal, aunque no totalmente detenido (algo que se habría visto en rojo). No lo noté sino hasta mucho después, pero esas franjas de color naranja, además, cambiaban de lugar.
Bueno, misterios de la vida. Aunque éste se develaría muy pronto. Tomé un café y salí en mi auto. Un poco me había olvidado del enigma de las bandas de color naranja, pero lo recordé cuando miré la ruta en Maps. Me llevé una gran sorpresa cuando vi que el ícono de mi coche estaba atravesando una de esas zonas supuestamente congestionadas. Solo se veía un pelotón de ciclistas. Raro. Nada de atascos de tránsito, en todo caso.
A unos 300 metros sobrepasé a otro pelotón. Se me ocurrió una idea absurda y miré Maps. Sí, como se lo están imaginando. Estaba en una zona de color naranja. Cinco minutos después había cruzado varios pelotones de ciclistas, y en todos los casos el mapa mostraba una zona de congestión inexistente.
Lo que estaba ocurriendo era más o menos obvio. Todos (o casi todos) los ciclistas llevaban consigo un smartphone, tal vez con una aplicación deportiva, muy probablemente basada en Maps. O quizá sin esa app, pero de todos modos Google sabe dónde estamos, y procesa datos masivos para mejorar las indicaciones de sus servicios. Solo que no había ninguna congestión. Los ciclistas habían logrado, sin proponérselo, burlar al gigante de Internet. Es más: el resultado era delirante. Los embotellamientos tienen una característica bien conocida: son continuos. Empiezan con un naranjita pálido, se ponen rojos durante un trayecto más o menos largo y terminan en naranja, hasta que la vía se pone azul otra vez. O sea, no vas a ver atascos cada 300 metros.
Ese es el problema con los datos masivos. Como leí alguna vez, "aquello parecía un árbol dibujado por alguien que nunca vio un árbol". Es decir, los datos aislados no necesariamente son lo que parecen ser. Para los algoritmos de Maps, un pelotón de ciclistas era en realidad un grupo de autos marchando lento. Mejor dicho, demasiado rápido para considerarlos personas de a pie, pero muy lento para deducir que el tránsito marchaba con fluidez. No tomaron en consideración el hecho de que los atascos de tránsito no se ven así, no tienen ese aspecto. Y se confundieron.
Por supuesto, se le podría enseñar a la inteligencia artificial que los embotellamientos tienen otro aspecto (y quizá ya lo hicieron, esto ocurrió hace unos dos años), pero de todos modos no alcanzaría, porque, llegado el caso, un desfile militar en una avenida podría tener el mismo aspecto que los pelotones de ciclistas, pero en ese caso sí estaría bloqueada la vía.
Ver, mirar, observar, comprender
Los datos son datos, son un componente de la realidad, pero no son toda la realidad. El problema es que todo algoritmo se basa en el supuesto de que los datos (datos numéricos, en rigor) equivalen a realidad. ¿Por qué? Porque los algoritmos no son capaces de tener experiencia del mundo. Un celular puede ver (numéricamente) el mundo mediante sus sensores, pero no puede mirarlo, observarlo o comprenderlo. Puede percibir la presión atmosférica y tal vez mañana sean capaces de sentir olores; pero están lejos de tener la experiencia consciente de que la combinación de baja presión y olor a tierra mojada significa que va a llover. O, si la presión es alta, que ha llovido.
Como es típico con estas cuestiones, es muy fácil opinar, entusiasmarse en exceso, sobrestimar el poder de una tecnología de la que pocos saben algo y todavía muchos menos saben mucho. Basta leer una introducción sucinta a las redes neuronales (no me pondré denso con esto, lo prometo) para advertir que hacen un trabajo extraordinario, pero que son como entidades que dibujan árboles sin haber visto jamás un árbol.
Esa es la razón de que con algo tan sencillo como que "en ciertas regiones del mundo los domingos temprano grupos de personas se suben a sus bicicletas y pasan al mañana pedaleando juntas" los algoritmos se confundieron tanto. ¿Así que, cómo pedirles que interpreten la intención de voto de la población basándose en datos masivos y en un país bastante impredecible como la Argentina? ¿Recuerdan lo de las peras y el olmo? Es lo mismo. Pero hay más.
Si los encuestadores (por otra constelación de motivos) se equivocaron tanto y si los datos masivos al final no fueron tan masivos o, al menos, no resultaron útiles, la conclusión es más o menos obvia. Todavía no estamos en condiciones de predecir ciertos fenómenos, no tenemos la tecnología para anticipar un número bastante grande de situaciones. Pasa con los terremotos, pasa con las urnas.