Mientras la inteligencia artificial avanza en todos los terrenos posibles, uno de los desafíos más grandes es dotarla de inteligencia emocional. Es decir, que la computadora pueda, por ejemplo, analizar y reconocer las emociones de las personas a través del estudio de sus gestos, movimientos y hasta por su pulso cardíaco. En la Argentina ya se están haciendo las primeras experiencias con reconocimiento de emociones en situaciones de clase con alumnos universitarios a través de computación cognitiva.
El germen de este proyecto surgió de un situación particular luego de un curso. "El año pasado cuando terminamos un programa del IAE que trabaja con equipos directivos en temas de estrategia y ejecución en las organizaciones, donde se genera una intensa tensión, quedamos todos muy sensibilizados, alumnos y profesores. En ese grupo, uno de los alumnos era el director de una consultora de tecnología y lo llamé para pensar un proyecto juntos", cuenta Roberto Vasollo, profesor de estrategia del IAE y líder del proyecto desde la institución. Junto a Carlos Farfán, director de la consultora de gestión de proyectos y tecnología Practia, acordaron trabajar en un proceso que permitiera medir qué pasaba en el aula, especialmente en aquellos programas en los se aprende a través de un fuerte compromiso emocional, donde se manejan amplios rangos de tensión y atención. Del proyecto piloto también participó Microsoft, trabajando con análisis de los datos e interpretación de las mediciones de emociones y se incorporó al equipo un médico y un neurocientista cognitivo.
¿Cómo funciona el sistema?
"En principio están las personas, el proceso de aprendizaje que emprenden y el espacio físico donde todo esto se desarrolla. Diseñamos cómo vamos a poner el equipamiento necesario para registrar a los estudiantes, a lo largo de las actividades, siguiendo el plan inicial del docente, en ese espacio físico, siendo lo menos intrusivos posible", explica Juan Echagüe, director de Investigación y Desarrollo de Practia. Con cámaras, micrófonos y también dispositivos para medir la frecuencia cardíaca se toman registros que se procesan compaginando las señales, y se envía toda la información a la nube.
Allí se preparan imágenes y sonido, y se utilizan los servicios cognitivos de Microsoft para, a partir de las imágenes, identificar a las personas y sus emociones, y transcribir del audio quién dijo que cosa en qué momento. "Los resultados de ese análisis se bajan a la computadora del docente. Este usará tableros y su experiencia para ver, del derecho y del revés, toda esa información y así lograr una mirada más profunda sobre qué estaba pasando en el grupo en cada momento de la clase", completa Echagüe.
Practia ya había desarrollado en 2017 un "espejo cognitivo" para interpretar las emociones de la persona que se paraban frente al espejo. Luego armó un "MakerSpace" en la organización, concebido a la vez como un espacio físico y como una práctica donde tener disponible funcionando diferentes tecnologías, como equipos de realidad virtual, aumentada y mixta, impresión 3D, sensores para implementar proyectos de inteligencia artificial, IoT y drones. Luego de la experiencia con estos proyectos y del trabajo en red con IAE, surgió el sistema en conjunto.
El traslado al aula
La prueba se hizo con la aprobación de los alumnos en las aulas del programa que llevan a cabo en conjunto con Singularity Univerisity y en un aula del Master. "Algunos expusieron un altísimo interés y empezaron a proponer modos de aplicarlos en la gestión del talento organizacional. Sin embargo, no es posible aún ya que está en fase experimental. Al trabajar en el aula hemos evitado hacer referencias individuales concretas: nuestro foco fue el equipo y el aula como sistema de aprendizaje", describe Vasollo.
El proyecto fue abordado por el equipo de Practia y Microsoft desde tres vectores de análisis: el reconocimiento facial e interpretación de las emociones en los rostros, la transcripción de lo que se dice en el aula y quién lo dice (mediante tecnologías de reconocimiento de voz, y de pasaje del habla a texto) y el monitoreo de pulsaciones cardíacas (vía un smartwatch). Según los expertos, esto ayuda a los académicos a analizar de manera más eficiente el comportamiento de los alumnos, contar con un registro de lo que ocurre en el aula y autoevaluar sus clases y estilo de enseñanza, utilizando estadísticas y apoyados en computación cognitiva disponible.
Para la realización de las pruebas iniciales, se generó una huella de los rostros y las voces. "Pudimos ver, por ejemplo, cómo mostraban distintas emociones a lo largo de la hora y media del curso, donde hubo un pico de atención y desatención. Pudimos ver picos de felicidad en momentos donde tanto los alumnos como el profesor distendían la clase con alguna humorada", explican.
La privacidad de las emociones
Sobre si este tipo de mediciones pueden significar una invasión a la intimidad, Echagüe aclara que todas las personas involucradas expresan su voluntad de participar, y agrega: "En general, la noción de intimidad que tenemos hoy está siendo repensada, cuestionada y reconstruida como parte del proceso de transformación digital que como sociedad atravesamos, y que nos atraviesa". "La educación y las tiendas son dos de los primeros lugares que consideramos para desplegar sistemas que sean capaces de reconocer las emociones de las personas presentes, y que puedan hacer más valiosas las experiencias y el tiempo de las personas", cierra.
Desde las instituciones imaginan que este tipo de mediciones puede tener múltiples impactos en su modo de enseñanza. "Está claro que el modo en que aprenden los equipos directivos está cambiando y esto ayudará a mejorar las dinámicas organizacionales de pensamiento estratégico y de enfrentar la disrupción tecnológica. Esto sirve mucho para darle feedback también al profesor; lo que más nos interesa es potenciar el aprendizaje a distancia. Ver cómo se generan dinámicas grupales cuando estás trabajando online. El trabajo a futuro va a necesitar de esta tecnología: ver qué le pasa a alguien a quien no ves cara a cara. Sus gestos, la variación de su voz, etc. No sólo del profesor, sino de sus compañeros de equipo."
Experimental por ahora
Las grandes empresas tecnológicas como Microsoft, IBM y Amazon tienen en sus servicios digitales sistemas de reconocimiento de emociones que infieren cómo se sienten las personas, basados en el análisis de ocho emociones primarias que se expresan en los rostros: por ejemplo, un ceño fruncido supone enojo, unos labios en medialuna, alegría.
Como señalaron desde Practia y IAE esto es una prueba y todavía dista mucho de poder utilizarse fuera de un ámbito experimental. La hipótesis de que podemos inferir cómo están las personas por sus gestos tiene cuestionamientos desde el ámbito científico, que sostiene que falta evidencia para justificar su uso o para tomar decisiones sólo basadas en lo que estos sistemas arrojan. "Las empresas pueden detectar un ceño fruncido, pero eso no es lo mismo que detectar enojo", le dijo Lisa Feldman Barrett, profesora de psicología de la Universidad de Northeastern al medio The Verge. Feldman Barrett y otros cinco científicos trabajaron en la revisión de más de 1000 papers durante dos años para concluir que las emociones son expresadas en una variedad inmensa de maneras diferentes, lo que hace difícil inferir de una manera confiable cómo se sienten las personas por sus gestos faciales.
Entre la evidencia se resalta, por ejemplo, que las personas fruncen el ceño sólo el 30% de las veces que están enojadas: es decir que 7 de cada 10 veces que están enojadas no se puede adivinar por sus gestos. El trabajo no niega que hay expresiones "típicas", y que son una parte importante de cómo se comunican las sociedades; pero descarta que estas tengan el peso de una huella indiscutible en el sentir de las personas.
Además de las tecnológicas nombradas, también existen compañías dedicadas exclusivamente a la medición de emociones a través de software y computación cognitiva. La empresa Affectiva está experimentando, además del análisis de gestos, con el reconocimiento de otras métricas como el análisis del discurso, del movimiento ocular y corporal, ente otros. Sobre los hallazgos del estudio, Barrett concluye que si bien es posible que este tipo de mediciones mejore y sean cada vez más precisas, lo importante es pensar que el reconocimiento de las emociones y su medición será siempre variado, complejo y situacional, y por lo tanto excede a lo que puede ser medido a través de un único sistema.