Meta presenta Llama 3, el "mejor modelo de código abierto de su clase" integrado en el asistente Meta AI
Meta ha presentado la próxima generación de su modelo de lenguaje grande (LLM) de código abierto Llama 3, con el lanzamiento de dos modelos entrenados con parámetros 8B y 70B, capaces de admitir "una amplia gama de casos de uso" con razonamiento mejorado, convirtiéndose así en "los mejores modelos de código abierto de su clase", integrados en el asistente Meta AI.
La compañía dirigida por Mark Zuckerberg ha compartido su intención de continuar impulsando "la próxima ola de innovación en IA en todos los ámbitos", tanto a la hora de crear aplicaciones, como herramientas de desarrollo y optimizaciones de inferencia.
Para ello, aunque su llegada se esperaba en el mes de mayo, Meta ha lanzado los dos primeros modelos de la próxima generación de su tecnología de Inteligencia Artificial (IA) Llama 3. Estos modelos están basados en texto, y han sido entrenados y ajustados con dos tamaños, 8 mil millones de parámetros (8B) y 70 mil millones de parámetros (70B).
Así, según ha explicado la compañía en un comunicado en su blog, con Llama 3 han construido "los mejores modelos existentes en la actualidad" en comparación con otros de los mejores modelos dentro de la misma escala de parámetros.
Siguiendo esta línea, esta generación de Llama asegura "un rendimiento de vanguardia" en una amplia gama de puntos de referencia de la industria, al tiempo que ofrece nuevas capacidades. De hecho, estos dos nuevos modelos suponen "un gran salto" en comparación con la generación anterior Llama 2.
En concreto, con Llama 3 se han conseguido mejoras en las capacidades de razonamiento, generación de código e instrucción. Asimismo, se ha mejorado la alineación y aumentado la diversidad en las respuestas.
Según los datos que ha compartido la compañía, Llama 3 es capaz de superar a modelos de tamaños similares como Gemini de Google y Claude de Anthropic, en el punto de referencia MMLU, que mide el conocimiento general de los modelos. En concreto, Llama 3 8B superó a los modelos Gemma 7B y Mistral 7B. De la misma forma, Llama 3 70B, también consiguió superar a Gemini Pro 1.5 y a Claude 3.
El modelo también ha sido evaluado por personas, que han probado las nuevas capacidades de Llama 3 frente a otros modelos. Así, la evaluación consta en cubrir doce casos de uso clave del modelo, como pedir consejo, llevar a cabo una lluvia de ideas, clasificar temas, dar respuesta a preguntas cerradas y abiertas, habilidades de codificación, escritura creativa, razonamiento, reescritura y resumen, entre otras. Según estas pruebas, Llama 3 70B consiguió superar a GPT 3.5 de OpenAI.
Entrenamiento de llama 3
Para entrenar este modelo de lenguaje, Llama 3 ha sido entrenada con más de 15T de tokens que se recopilaron de fuentes "disponibles públicamente". Es decir, este entrenamiento está basado en un conjunto de datos "siete veces mayor" que el utilizado para Llama 2, e incluye "cuatro veces más código".
No obstante, estos datos han sido filtrados por distintos sistemas, como es el caso del uso de filtros heurísticos, enfoques de duplicación semántica y clasificadores de texto para predecir la calidad de los datos.
Igualmente, Meta ha desarrollado que, de cara a prepararse para los próximos casos de uso multilingüe, más del 5 por ciento del conjunto de datos de preentrenamiento de Llama 3 es información en idiomas distintos al inglés, cubriendo un total de más de 30 idiomas.
Por otra parte, la tecnológica ha destacado su compromiso para desarrollar Llama 3 de forma "responsable". En base a ello, ha indicado que ha puesto a disposición de los usuarios varios recursos diseñados para fomentar el uso seguro del modelo.
En concreto, estos recursos son Llama Guard 2, que filtra prompts y respuestas de forma segura; Code Shield, que se encarga de cribar el código inseguro que pueda crear la IA; y CyberSecEval 2, que lleva a cabo labores de ciberseguridad para evita abusos en el intérprete de código o ataques a través de inyección rápida.
Llama 3 integrado en meta ai
Actualmente, la compañía ha integrado sus últimos modelos de Llama 3 en el asistente Meta AI. Por lo que puede utilizar en las redes sociales Facebook, Instagram, WhatsApp y Messenger, además de en la web, para ayudar a los usuarios a llevar a cabo actividades, aprender, crear y conectarse "con las cosas que le importan".
Asimismo, los usuarios ya pueden descargar los modelos de Llama 3 e, igualmente, estarán disponibles próximamente en Amazon Web Services, Databricks, Vertex AI de Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA y Snowflake. Además, contarán con soporte de plataformas de hardware ofrecidas por AMD, AWS, Dell, Intel, NVIDIA y Qualcomm.
Con todo ello, Meta ha adelantado que, en los próximos meses, introducirán nuevas capacidades, ventanas de contexto más largas, tamaños de modelo adicionales, como es el caso de un modelo con 400B, y rendimiento mejorado para Llama 3. Asimismo, ha señalado que también compartirán el trabajo de investigación de este modelo.