Besos, sesgos y mediciones del PBI: qué tan confiables son las conclusiones académicas
Los experimentos en psicología avanzan a paso firme, con resultados a menudo revolucionarios. Uno de ellos fue el publicado en 2011 por Daryl Bem en el prestigioso y exigente Journal of Personality and Social Psychology (JPSP). Fue el premio tras 10 años de investigación y miles de sujetos testeados en experimentos. En su ensayo más famoso, Bem pidió a cada individuo anticipar detrás de qué cortina oscura aparecería una foto pornográfica (la imagen sexual sugiere la existencia de un “sexto sentido” evolutivo). Bem midió una y otra vez, encontró un efecto extrasensorial leve y armó un artículo que comenzaba con la extrasensorial frase Feeling the Future (presintiendo el futuro).
Pese a ser un desafío a la ciencia tradicional, hoy nadie recuerda los hallazgos de Bem. Y la razón es que estos efectos son falsos. El interrogante de cómo llegó a publicarse algo tan temerario tuvo por respuesta de los editores del JPSP que el trabajo había superado las exigencias usuales para la selección. El corolario es preocupante; el filtro no es suficiente para asegurar la calidad científica de tantos otros trabajos menos aventurados. Los métodos de selección parecen demasiado permisivos, pero se necesitaba un elefante en el bazar para hacer sonar las alarmas.
Emulando el famoso affaire Sokal (aquel físico que logró publicar un artículo lleno de sinsentidos en una importante revista de humanidades), tres psicólogos enviaron al JPSP un artículo absurdo en el que “demostraban” que tras escuchar la canción de los Beatles “When I’m Sixty-Four”, los sujetos se volvían más jóvenes. Sus métodos eran análogos a los de Bem, y cuando el mundo académico se percató de que este artículo risible no podía ser rechazado con contundencia, se decretó la necesidad urgente de actuar.
El JPSP publicó poco después una refutación del artículo de Bem, pero el daño estaba hecho. Los debates para distinguir efectos reales de ficticios se multiplicaron, y la preocupación principal fue que la mayoría de los artículos no eran replicables. La expresión “crisis de replicación” tomó vuelo y descolocó al mundo académico. Las universidades debían redoblar la investigación en temas remanidos, y las revistas debían dar un espacio para aceptar artículos “gemelos”. La buena ciencia cuesta.
Entre los “hallazgos” que cayeron en desgracia está el que indicaba que los colores tenían impacto en la elección de los consumidores
El escrutinio se extendió a la economía de la conducta. Esta cruza de economía y psicología, que detectó cientos de sesgos, no parece capaz de replicar varios de ellos. El rechazo más estridente fue el efecto priming, asociado a la influencia de los mensajes subliminales en las decisiones. Un priming famoso fue el comercial republicano de la campaña presidencial de 2000, donde aparecía la palabra “RATS” una fracción de segundo, indistinguible para el ojo humano pero con presuntos efectos sobre el voto del americano medio. El alcance del fenómeno se fue extendiendo peligrosamente. Mirar la bandera del país volvía a las personas más conservadoras, y hablarle de dinero a los estudiantes los hacía esforzarse más. Tras los malos resultados, el propio Daniel Kahneman, cuyo capítulo 4 de su best seller Pensar Rápido, Pensar Despacio se apoya en este efecto, reconoció que sus fundamentos no eran muy sólidos.
Pronto cayeron en desgracia otros “hallazgos”. El psicólogo social holandés Dirk Smeesters, que afirmó que los colores tenían impacto en las elecciones del consumidor, debió retractarse de sus artículos y renunciar a su posición en la Universidad de Rotterdam tras demostrarse que había “masajeado” los datos para lograr resultados positivos. Sorprendido por la reacción, declaró que sus prácticas eran comunes en la profesión. También en Holanda, pero esta vez en la Universidad de Tilburg, el psicólogo Diederik Stapel retiró varios artículos, uno de los cuales “demostraba” que ambientes desordenados fomentaban los comportamientos discriminatorios.
El psicólogo canadiense Urlich Schimmack es un evaluador incansable de la replicabilidad. Este paladín de la justicia científica postea cada año en su blog un índice de replicación de 120 journals y, por supuesto, pone a disposición de los lectores las herramientas para reproducirlo. Entre los más fidedignos figura el Journal of Sex Research, y entre los menos, el Journal of Consumer Research.
Pese a estos desengaños, para varios psicólogos la palabra “crisis” excede en dramatismo. Se trata de coletazos normales de una ciencia en pleno desarrollo, afirman los sospechados. Otros desconfían de los propios ejercicios de replicación y se preguntan si estos testeos no deben ser a su vez replicados cuando no dan los mismos resultados que el original.
Hay científicos que se toman el asunto con soda; hasta organizan un premio anual para reconocer “investigaciones improbables”
Por otra parte, la insuficiente replicación de experimentos no parece un problema exclusivo de la psicología social. Un estudio de 2016 publicado en Science afirma que un tercio de 18 estudios experimentales en economía de dos revistas top no pudieron ser replicados. A veces no se debe a razones científicas: un trabajo que investigaba los impactos positivos sobre las emociones de ver un standup de Robin Williams no podrá ser repetido debido al suicidio del actor, y quedará por averiguar qué otras emociones habrá disparado este triste episodio. El médico-científico John Ioannidis, famoso por advertir que todas las investigaciones publicadas tienen mayor probabilidad de ser falsas que verdaderas, hizo un análisis específico de los experimentos en economía, y halló que en la mitad de las áreas de investigación analizadas cerca del 90% de los resultados tienen baja potencia estadística, un indicador de su baja probabilidad de replicación. Los artículos de economía no experimentales también sufren: dos estudios que revisan hallazgos macroeconómicos afirman que éstos no pueden ser imitados, incluso disponiendo de los mismos datos que los autores.
Reconocimientos con humor
De todos modos, hace bastante que un grupo de científicos se toma este asunto con soda. El sarcástico Journal of Irreproducible Research (Revista de Investigaciones no Reproducibles), que recoge artículos inventados y ridículos, data de 1955 y duró hasta 2004.
A partir de allí lo reemplazó el Annals of Improbable Research (Anales de Investigaciones Improbables), que organiza los famosos premios Ig-Nobel o Anti-Nobel, una parodia de los originales. Cada año, la mayoría de los galardonados comparten la ceremonia en persona y reciben su reconocimiento con humor y autocrítica. En 2020 el premio en el rubro Educación para la Salud fue para Bolsonaro, Trump, López Obrador y Putin, entre otros, por demostrarle al mundo en la pandemia que los políticos sabían más que los médicos. La distinción en Economía fue para un grupo de investigadores que estimaron la relación entre el ingreso per cápita y la profusión de besos en la boca en cada país. Un trabajo que, sin duda, merece ser replicado.ß