"Analizando grandes volúmenes de datos pasados y presentes es posible anticiparse a posibles escenarios". Así de tajante es una de las principales afirmaciones de los profesionales que trabajan con lo que se conoce como big data o, en español, datos masivos.
Pero como con el inicio de la pandemia las personas experimentaron cambios en el comportamiento de una forma súbita, las predicciones realizadas por los modelos algorítmicos dejaron de cumplirse. Por ejemplo, fallaron los pronósticos de 2019 sobre cómo iba a ser en 2020 el volumen de comercio electrónico y la venta de pasajes aéreos y de entradas al cine, por mencionar solo unos pocos ejemplos.
"La analítica predictiva se basa en un análisis estadístico, utiliza técnicas como la minería de datos en grandes volúmenes, el aprendizaje automático y algoritmos basados en series de datos históricos, para poder así predecir situaciones futuras", explica a LA NACION Jorge Ierache, doctor en ciencias informáticas y docente investigador de la Universidad de Morón.
Lejos de tratarse de herramientas infalibles, Fredi Vivas, que es CEO de la firma dedicada a crear modelos de machine learning RockingData y trabaja como coordinador académico del programa Big Data de la Universidad de San Andrés, recuerda a LA NACION que los algoritmos son imperfectos. "En términos de ciencia de datos, el Covid-19 es un evento extremo que no guarda relación con la historia anterior, pero que la distorsiona significativamente". Y agrega: "Esta pandemia es el primer evento de esta escala en impactar en la práctica moderna de la ciencia de datos. Estas situaciones son impredecibles. No obstante, ahora que tenemos este precedente, estamos desarrollando técnicas para atenuar sus efectos", asegura.
¿Entonces, qué puede hacer la ciencia de datos ante eventos extremos que, si bien son infrecuentes, en algún momento van a aparecer? "Cuando se trabaja desde el lado de la estadística, se pueden ponderar ciertos casos extremos al entrenar los modelos para que reaccionen ante estos casos, pero por su propia definición, si decimos que son extremos es porque serán muy infrecuentes", comenta a LA NACION Pablo Roccatagliata, responsable de contenidos de los cursos de Data Science, Data Analytics e Inteligencia Artificial de la institución educativa Digital House.
Dado que durante la cuarentena los consumidores estamos más tiempo frente a los dispositivos, generamos un volumen de datos mayor al habitual, y esto es beneficioso para los algoritmos, porque se entrenan sobre esa base, por lo que a mayor cantidad de datos, mejor será la estimación sobre el futuro.
La IA y los nuevos hábitos
"Algo importante es que todos los datos siempre tienen una etiqueta temporal, por lo que contamos con datos Covid y contaremos con otros posCovid, que nos permitirán a los científicos de datos descubrir patrones para realizar predicciones más efectivas al considerar la etiqueta temporal", agrega Ierache.
Para explicar mejor este tema, podemos tomar como ejemplo la industria del teatro. Si en 2019 se estimó que en 2020 se venderían 1000 entradas en total (no es el valor real), la predicción falló a causa del Covid. Como si esto fuera poco, durante el año actual aparecieron las funciones teatrales vía streaming, con lo que, para entender cuántos tickets se venderán en el posCovid, hay que analizar todos los datos, y no solo los primeros, ya que dentro del universo de personas estarán las que volverán a las salas, pero también las que preferirán ver las obras desde su casa.
Para que una producción teatral decida si le conviene hacer streaming o o salir de gira por el país, deberá analizar datos tales como la edad de la audiencia –ya que las personas mayores son grupo de riesgo–; el nivel socioeconómico del público; la tarifa de la función, porque las online son mucho más económicas que las presenciales, y también la geolocalización del público, porque no es lo mismo si la obra tiene audiencia distribuida o si es más bien centralizada. De ese análisis saldrá la decisión de qué modalidad de show conviene instrumentar.
En resumen, la analítica predictiva no depende solamente del algoritmo, sino también de la preparación, limpieza y manipulación de los datos. "Lo que puede ocurrir es que haya datos nuevos que antes no se consideraban porque no eran relevantes o porque el nicho de negocio no dependía del movimiento de las personas. Además, hay que tener en cuenta los nuevos hábitos generados en el contexto de pandemia", sostiene el doctor de la Universidad de Morón.
¿Confiamos o no?
Los entrevistados destacan que la analítica predictiva siempre se maneja con incertidumbres. "No es que los algoritmos hayan fallado por el Covid, sino que cambió el contexto", asegura Iearache. Aun así, los entrevistados dicen que hay que confiar en la ciencia de datos, ya que sus estimaciones son muy superiores a las que pueden hacer los humanos a simple vista para detectar patrones en una gran cantidad de datos; por ejemplo, para calcular la probabilidad de que a una persona le guste un determinado producto. "Los algoritmos predictivos no pueden resolver cualquier tipo de tarea y dependen del contexto que se les brinde. Por eso la intervención del científico de datos y los expertos en el dominio del problema siguen siendo fundamentales", aclara Vivas.
Al respecto, vale aclarar que no toda la analítica predictiva fue puesta en jaque con la pandemia, porque, si bien las predicciones vinculadas con los hábitos se volvieron obsoletas, no sucedió lo mismo con, por ejemplo, el análisis predictivo industrial, que consiste en analizar datos vinculados al funcionamiento de las máquinas para saber de antemano cuándo va a presentarse una avería. De esta forma se evita un funcionamiento defectuoso o la interrupción de un proceso.
Dada esta situación extraordinaria de pandemia que puso a la analítica predictiva patas arriba, ¿qué ocurrirá de acá en más con esta disciplina?
Vivas es contundente: "Este suceso acentuó su importancia para la toma de decisiones en todos los niveles. Por ejemplo, en salud, gestionar información y realizar predicciones que permitan dar un mejor servicio a los pacientes y hacer más eficientes las instituciones serán claves para monitorear, comprender y mitigar esta pandemia. Por lo que no creo que estemos ante un antes y un después, sino que esta es otra confirmación de una disciplina que ya viene demostrando con resultados concretos cómo puede influir positivamente en todos los sectores de nuestra sociedad".
Roccatagliata coincide y es optimista. "De acá en adelante necesitaremos más soluciones de analítica predictiva, al ritmo que se digitaliza la sociedad. Por ejemplo, las empresas que en el marco de la cuarentena comenzaron a vender online contarán con datos para poder llegar con propuestas más personalizadas a sus consumidores. Por otra parte, para salvar la situación de nuevos casos extremos, como es la pandemia, seguramente se implementen más soluciones de monitoreo en tiempo real de modelos de machine learning para que no haya deterioros sorpresivos de rendimiento como consecuencia de los eventos inesperados", concluye.
Evidentemente, los algoritmos de aprendizaje automático no hacen magia ni son infalibles, pero aun así son fundamentales para anticipar tendencias.