Meta presenta V-JEPA, un modelo predictivo que aprende mediante la visualización de vídeos incompletos
Meta ha presentado un nuevo modelo no generativo desarrollado para enseñar a las máquinas a comprender y modelar el mundo físico mediante la visualización de vídeos.
El nuevo modelo, que recibe el nombre de Video Joint Embedding Predictive Architecture (V-JEPA), aprende a realizar tareas prediciendo partes perdidas o enmascaradas de un vídeo en un espacio de representación abstracto.
Se trata de un modelo que ha sido previamente entrenado con datos sin etiquetar y en el que se ha aplicado un enfoque de aprendizaje autosupervisado a partir de un conjunto de vídeos "para obtener algún contexto sobre el mundo que nos rodea inmediatamente", como exponen desde la compañía en el blog de IA.
A esto se le ha añadido una mecánica de enmascaramiento, por la que se eliminaron partes de los vídeos atendiendo a los cambios que pudieran mostrar (espacio y tiempo), para que el modelo desarrollara una comprensión más profunda de la escena.
De esta forma, a diferencia de los modelos generativos, que intentan rellenar los píxeles desaparecidos, V-JEPA puede descartar la información impredecible y hacer predicciones más eficientes, ya que "se centra en la información conceptual de nivel superior de lo que contiene el vídeo sin preocuparse por el tipo de detalles que a menudo no son importantes para las tareas posteriores".
La compañía ha destacado que el modelo es bueno haciendo "evaluaciones congeladas", es decir, que los investigadores ya no "tocan nada" después del entrenamiento previo autosupervisado en el codifiador y el predictor. En el caso de que quieran que aprenda una habilidad nueva, solo tienen que entrenar una pequeña capa especializada, lo que hace que el proceso sea "muy eficiente y rápido".
"Con V-JEPA podemos entrenar previamente el modelo una vez sin ningún dato etiquetado, arreglarlo y luego reutilizar esas mismas partes del modelo para varias tareas diferentes, como clasificación de acciones, reconocimiento de interacciones detalladas de objetos y localización de actividades", detallan.
En un futuro, los investigadores de Meta pretenden adoptar un enfoque multimodal -no limitado al vídeo-, empezando por la incorporación de audio, ya que hasta ahora solo han trabajado con las imágenes. Asimismo, esperan profundizar en las capacidades predictivas del modelo para utilizarlo en la planificación y la toma de decisiones secuenciales.