Llama 3.1 405B de Meta compite en rendimiento y capacidades con los grandes modelos cerrados de IA
Meta ha publicado Llama 3.1, una versión de su modelo fundacional que se equipara a los rivales cerrados más avanzados con sus 405.000 millones de parámetros (405B) y capacidades en conocimientos generales, orientación, matemáticas, uso de herramientas y traducción multilingüe.
Llama 3.1 405B es el modelo fundacional de código abierto más grande hasta la fecha, diseñado para impulsar nuevos flujos de trabajo, como la generación de datos sintéticos y la destilación de modelos.
La compañía tecnológica apunta en una nota de prensa que Llama 3.1 rivaliza en rendimiento con los modelos cerrados más avanzados, como GPT-4, GPT-4o y Claude 3.5 Sonnet, al medirlos en escenarios reales. También en capacidades, como conocimientos generales, orientación, matemáticas, uso de herramientas y traducción multilingüe.
Llama 3.1 405B se ha entrado con 15 billones de tokens, lo que ha requerido el uso de unas 16.000 GPU H100 Nvidia, y se ha mejorado en calidad y cantidad la información utilizada en las fases previa y posterior al entrenamiento.
Dada la escala del entrenamiento, Meta ha optado por una arquitectura de modelo de transformador de solo decodificador estándar, y tras este, un procedimiento iterativo en el que cada ronda utiliza un ajuste supervisado y una optimización directa de las preferencias.
Este nuevo modelo admite una ventana de contexto de 128.000 tokens, y está capacitado para ofrecer respuestas de alta calidad tanto en contextos más cortos como en los más amplios. Y ya puede probarse en Estados Unidos en WhatsApp y en meta.ai con preguntas matemáticos y de programación.
Meta también ha presentado versiones mejoradas de los modelos Llama 8B y 70B, que admiten una ventana de contexto de 128.000 tokens y muestran mejores capacidades de razonamiento. Así, ofrecen soporte para resúmenes de texto de formato largo, agentes conversacionales multilingües y asistentes de codificación.
En lo que respecta al desarrollo de una IA responsable en su ecosistema, Meta ha anunciado un sistema de referencia que incluye ejemplos de aplicaciones y nuevos componentes como Llama 3 Guard, un modelo de seguridad, y Prompt Guard, un filtro para la entrada de indicaciones, ambas de código abierto.
También ha facilitado a los desarrolladores en GitHub Llama Stack, un conjunto de interfaces que ayudarán en la interoperabilidad dentro del ecosistema.