Google I/O 2023: Probamos Project Starline, el sistema de telepresencia hiperrealista de Google
Estuvimos en una demo de un par de minutos de Starline, el sistema de videollamadas 3D de alta resolución que la compañía mostró en 2021, y que ahora tiene una nueva versión
- 5 minutos de lectura'
En el Google I/O (el evento anual para desarrolladores de la compañía) de 2021, hace dos años, Google presentó Project Starline, un proyecto de avanzada, muy experimental, que había creado un sistema de telepresencia 3D hiperrealista. No se trataba de una app para el celular, sino un sistema con cámaras especiales, una pantalla hecha a medida, una computadora muy poderosa detrás y una conexión a internet imposible de tener fuera de un lugar como el campus de Google. Ahora, dos años más tarde, presentó una segunda versión, mucho más compacta, aunque igualmente experimental, y tuve la oportunidad de probarla, junto con otros periodistas, por un par de minutos (las fotos que ilustran esta nota son de Google; no permitían capturar imágenes o video; por otro lado, es imposible reflejar fielmente el 3D en una pantalla bidimensional convencional).
El sistema ahora es mucho más compacto: apenas tres bloques de cámaras de alta resolución y sensores de profundidad pegados a los bordes de una pantalla especial (en el borde superior y en los laterales). No es un televisor convencional, sino una pantalla levemente curva, con un sistema que muestra imágenes orientadas para uno u otro ojo de la persona que la está usando, para simular el 3D en la imagen (algunos televisores convencionales también hacían esto, en la época que el 3D estaba de moda). Google guarda bajo siete llaves todos los detalles técnicos actuales, más allá de aclarar que con el progreso general de la tecnología las cámaras ya son estándar, y que el costo (que nunca especifica) bajó muchísimo. En la versión de 2021 usaba una PC Lenovo P920 y tarjetas gráficas Nvidia (dos Quadro RTX 6000 y dos Titan RTX) para un procesamiento de video a 60 Hz (que se eleva a 120 Hz en el caso de la monitorización del rostro).
Las cámaras son las que toman el rostro y el cuerpo de la persona frente a la pantalla, generan un modelo 3D en tiempo real, y lo transmiten al receptor, que verá a su interlocutor como una suerte de avatar de altísima resolución. El resultado es sencillamente espectacular. Es lo más parecido a la ciencia ficción que recuerdo en mucho tiempo.
La intención del sistema es que parezca que la otra persona está detrás de una ventana de la que la pantalla es el marco, y no en otro lugar. No termina de lograrlo del todo, al menos en una primera impresión: la imagen, de muy alta resolución, es claramente digital; si la persona se mueve mucho (o si gesticula con las manos) hay pequeñas zonas donde el sistema no llega a tomar la imagen adecuadamente en el original para reproducirla en la pantalla (entre los dedos de la mano, en el hueco que se forma entre el codo, el brazo y el torso, por ejemplo). Si te vas muy atrás, o te acercás demasiado a las cámaras, salís de plano, como en los fondos virtuales que se pueden generar en Zoom o Teams.
Nada de eso importa. La sensación de “esto es el futuro” está presente todo el tiempo; la ilusión de tridimensionalidad es excelente; la calidad de la imagen es buenísima, más allá de que le falte resolución para ser más veraz (Google no dice qué resolución tiene la pantalla, pero parece 4K al menos). Probamos acercar objetos (una manzana, un teléfono) para ponerlos en primer plano para que la otra persona (en otro equipo) la viera en detalle; “chocamos” puños; mostramos detalles del pelo, la ropa que teníamos puesta, etcétera. Lo más notable, probablemente, son los ojos: no solo porque la otra persona puede mirarte directo a los ojos si quiere (ya hay soluciones de software para simular algo así en una videollamada convencional), sino porque el sistema reproduce fielmente el movimiento de los ojos de la otra persona mirando algo que nosotros mostramos (apuntan a donde realmente estamos, y no a una zona ambigua en la pantalla). El resultado es muy impactante. Por supuesto, ayuda muchísimo que ambos participantes estén usando el mismo sistema de registro y generación de imagen, y que estén sentados en el centro de la escena.
Como explicó Google en diciembre de 2021, el sistema tiene tres desafíos: capturar y renderizar la imagen en 3D de la persona en remoto de forma realista, crear una proyección de gran resolución con la que el usuario se sienta cómodo y conseguir la copresencia, que incluye proximidad, contacto visual e interacción.
Lo decepcionante hoy, claro, es que Starline solo funciona ahí, en las oficinas de Google en Mountain View; no hay fechas para su transformación en la webcam del futuro, sobre todo porque la ilusión del 3D requiere, por ahora, de tres cámaras y una pantalla especial, un agregado de hardware difícil de justificar en, por ejemplo, una notebook. Está claro que el primer cliente posible son las empresas, pero los costos de adquisición y operación, dice la propia Google, por ahora son altísimos, aunque ya hizo demos con varias empresas, como muestra el video acá arriba. ¿Cuál será el destino, entonces, y la justificación para que se dediquen recursos a algo como Starline? Principalmente, demostrar que efectivamente funciona; que es posible; que algún día podría ser un servicio corporativo de videollamadas convencional. Seguro, además, Google obtendrá ideas y tecnología para aplicar a servicios de videoconferencia 2D como Meet. Todo sirve, por más que solo sea para tener un atisbo de cómo puede un Zoom del futuro.