Se necesitan 16.000 computadoras para identificar un gato
Científicos de Google crearon una red de computadoras que simula el funcionamiento de las neuronas; aprendió a identificar gatos en fotografías sin ayuda externa
MOUNTAIN VIEW, California – Dentro del laboratorio secreto X de Google , conocido por haberse inventado allí autos que se conducen solos y anteojos de realidad aumentada , un pequeño grupo de investigadores comenzó a trabajar hace varios años en una simulación del cerebro humano. Los científicos de Google crearon una de las mayores redes neurales para el aprendizaje, conectando 16.000 procesadores de computadora a Internet para que aprendieran por su cuenta.
¿Qué hizo el cerebro de Google al encontrarse con 10 millones de imágenes digitales en videos de YouTube? Hizo lo que millones de humanos hacen con YouTube: buscar gatos . La red neural se enseñó a sí misma a reconocer gatos, lo que en realidad no es algo frívolo. Esta semana los investigadores presentarán los resultados de su trabajo en una conferencia en Edimburgo, Escocia. Los científicos y programadores de Google dirán que si bien no es nada novedoso que Internet esté llena de videos de gatos, la simulación de todos modos los sorprendió: resultó mucho más efectiva que cualquier intento anterior, al aumentar al doble su precisión en el reconocimiento de objetos dentro de una lista de ítems diferentes.
La investigación es representativa de una nueva generación de ciencia computacional que explota la caída en el costo de la computación y la disponibilidad de inmensos conjuntos de computadoras en centros de datos gigantes. Esto está llevando a avances significativos en áreas tan diversas como visión y percepción, reconocimiento de voz y traducción con computadoras.
Si bien algunas de las ideas de ciencia computacional que los investigadores están usando no son nuevas, la mera escala de las simulaciones de software está llevando a la creación de sistemas de aprendizaje que no eran posibles previamente. Y los investigadores de Google no están interesados solo en la explotación de las técnicas, a las que se conoce como modelos de "aprendizaje profundo". El año pasado científicos de Microsoft presentaron investigaciones que muestran que esas técnicas podrían aplicarse igualmente a la creación de sistemas computacionales que entiendan el habla humana.
"Esto es lo más caliente en materia de reconocimiento del habla en estos tiempos", dijo Yann LeCun, un científico computacional especializado en aprendizaje de máquinas en el Courant Institute of Mathematical Sciences en la Universidad de New York.
Y por supuesto que están los gatos.
Para encontrarlos, el equipo de Google, encabezado por el científico computacional Andrew Y. Ng de la Universidad de Stanford, y Jeff Dean, asociado de Google, usaron un conjunto de 16.000 procesadores para crear una red neural con más de mil millones de conexiones. La alimentaron con imágenes extraídas de 10 millones de videos de YouTube.
Los videos fueron elegidos al azar y eso en sí mismo es un comentario interesante respecto de lo que interesa a los humanos en la era de internet. Pero la investigación también es llamativa. Eso es así porque la red neural basada en software creada por los investigadores se apoya en teorías desarrolladas por biólogos que sugieren que dentro del cerebro neuronas individuales son entrenadas para detectar objetos significativos .
Actualmente gran parte de la tecnología comercial de visión con computadoras se basa en que humanos "supervisen" el proceso de aprendizaje rotulando rasgos específicos. En la investigación de Google no se ayudó a la máquina a identificar rasgos.
"La idea es que en vez de que equipos de investigadores descubran cómo encontrar bordes, se le presenta una tonelada de datos al algoritmo y se deja que los datos hablen y que el software aprenda automáticamente de ellos", dijo Ng.
"Nunca le dijimos durante el entrenamiento ‘Esto es un gato’" dijo Dean, que originalmente ayudó a Google a diseñar el software que permite dividir los programas en muchas tareas que pueden ser computadas simultáneamente. "Básicamente inventó el concepto de gato. Probablemente tengamos otros que son vistas laterales de gatos".
El cerebro de Google armó una imagen digital de un gato que parece sacada de un sueño, empleando una jerarquía de ubicaciones de memoria para ir seleccionando sucesivamente rasgos, luego de estar expuesto a millones de imágenes. Los científicos dijeron, sin embargo, que parece que desarrollaron un primo cibernético de lo que sucede en la corteza visual del cerebro. Los neurocientíficos han debatido la posible existencia de lo que llaman la "abuela de las neuronas", células especializadas en el cerebro que se disparan cuando son expuestas repetidamente o "entrenadas" para reconocer un rostro particular de un individuo.
"Uno aprende a identificar un amigo por repetición" dijo Gary Bradski, un neurocientífico de Industrial Perception, en Palo Alto, California.
Por más que a los científicos les llamó la atención la aparición paralela de imágenes de gatos, de rostros humanos y de partes corporales en regiones específicas de la memoria de su modelo computacional, Ng dijo que era cauto a la hora de establecer paralelismos entre su sistema de software y la vida biológica.
"Una analogía poco precisa y en realidad horrenda es que nuestros parámetros numéricos se corresponden con las sinapsis", dijo Ng. Señaló que una diferencia es que pese a la inmensa capacidad computacional que usaron los científicos, sigue siendo una cifra diminuta comparada con la cantidad de conexiones que hay en el cerebro.
"Vale la pena señalar que nuestra red sigue siendo diminuta comparada con la corteza visual humana, que es un millón de veces más grande en términos del número de neuronas y sinapsis", escribieron los investigadores.
Pese a que queda empequeñecida frente a la inmensa escala de los cerebros biológicos, la investigación de Google aporta nuevas evidencias de que los algoritmos de aprendizaje de las máquinas existentes mejoran mucho al dársele a las mismas acceso a grandes bases de datos.
"El trabajo de Stanford/Google aumenta grandemente la escala de las redes neurales respecto de esfuerzos anteriores" dijo David A. Bader, director ejecutivo de computación de alta performance en el Georgia Tech College of Computing. Dijo que incrementos rápidos en tecnología computacional cerrarían la brecha en un período de tiempo relativamente corto. "La capacidad de modelar a la escala de la corteza visual humana completa puede llegar a estar a nuestro alcance antes del final de la década".
Científicos de Google dijeron que el proyecto de investigación había salido del laboratorio X de Google y se continúa en la división que alberga el servicio de búsquedas de la compañía y otros relacionados. Entre las potenciales aplicaciones se incluyen mejoras en la búsqueda de imágenes, reconocimiento de voz y traducción de idiomas por computadora.
Pese a su éxito, los investigadores de Google se muestran cautos respecto de haber descubierto el santo grial de las máquinas que pueden aprender solas.
"Sería fantástico si resultara que todo lo que tenemos que hacer es tomar los actuales algoritmos y hacerlos funcionar a mayor escala, pero lo que yo siento es que aún no tenemos el algoritmo adecuado" dijo Ng.
(C) NYT. Traducción de Gabriel Zadunaisky
Temas
Otras noticias de Google
Más leídas de Tecnología
Clave. Los trucos de WhatsApp más simples y prácticos que son fáciles de aplicar
Infancias. Cómo activar el "modo Peter Pan" en WhatsApp
Similares a los Ray-ban de Meta. Samsung tendrá su línea de anteojos inteligentes en 2025
Cuidado. Qué significa quitar la foto de perfil en WhatsApp, según un psicólogo