Microsoft lanza Phi-2, un modelo de lenguaje pequeño con un rendimiento superior a modelos hasta 25 veces más grandes
Microsoft ha presentado su nueva Inteligencia Artificial potenciada por un modelo de lenguaje pequeño, Phi-2, que utiliza 2,7 mil millones de parámetros para alcanzar capacidades de razonamiento y comprensión de lenguaje con un rendimiento igual o superior a modelos hasta 25 veces más grandes.
Google lanzó el pasado jueves su nueva IA multimodal y flexible Gemini, optimizada de forma nativa en tres tamaños para distintas aplicaciones. Uno de estos formatos es el modelo de lenguaje pequeño, Gemini Nano, con el que permite adaptar las capacidades de IA de forma más eficiente para las tareas de dispositivos como los 'smartphones'.
Ahora, Microsoft también ha compartido su intención de trasladar la potencia de los modelos de lenguaje de gran tamaño (LLM), que trabajan con cientos de miles de millones de parámetros, a un tamaño más reducido, utilizando opciones estratégicas para la capacitación, como es la selección de datos.
En este marco, ha presentado su nuevo modelo de lenguaje pequeño Phi-2, que cuenta con una capacidad de 2,7 millones de parámetros en un tamaño compacto, pero alcanza un rendimiento a la par que los modelos de escala mucho más grandes. Se trata de un modelo enfocado a su uso para la investigación, la interpretación mecanicista o las mejoras de seguridad.
En este sentido, la tecnológica ha destacado su capacidad para alcanzar un nivel de razonamiento y comprensión de lenguaje con un rendimiento "igual o superior" que el que obtienen los modelos hasta 25 veces más grandes.
Tal y como ha explicado en un comunicado en su web, el equipo de Microsoft Research ha estado trabajando durante los últimos meses en un conjunto de modelos de lenguaje pequeño (SLM) llamado Phi, con el que han logrado un rendimiento "notable" en una variedad de labores.
En primer lugar, la compañía desarrolló Phi-1, que trabajaba con 1.300 millones de parámetros y consiguió lograr un alto rendimiento en codificación Python. Más tarde, Microsoft actualizó el modelo a Phi-1.5, con el que se obtuvo un rendimiento comparable al de modelos con un tamaño cinco veces mayor. Finalmente, el equipo de Microsoft Resarch ha lanzado Phi-2 aumentando aún más estas capacidades.
Asimismo, según ha subrayado Microsoft, parte de la novedad de Phi-2 es que es capaz de obtener resultados de razonamiento y comprensión de lenguaje con un rendimiento "de vanguardia" entre los modelos con menos de 13.000 millones de parámetros. Esto se debe a las innovaciones que ha logrado la compañía en lo relativo al escalado de modelos y al entrenamiento de datos.
Tanto es así que, según han podido comprobar los investigadores de Microsoft, Phi-2 ofrece mejores resultados que los modelos Llama 2 de Meta -en los parámetros 7B y 13B- y Mistral. En concreto, supera el rendimiento de Llama 2 en tareas de razonamiento de varios pasos, como son las tareas relacionadas con la codificación y las matemáticas.
Asimismo, Microsoft también ha puesto en valor que Phi-2 es capaz de igualar e, incluso, superar, la IA de Google Gemini Nano, a pesar de que esta última tiene un tamaño más grande.
Entrenamiento con datos de calidad de libro de texto
Para lograr este rendimiento en un modelo de lenguaje de menor tamaño, la compañía ha detallado que se han enfocado en la calidad de los datos de entrenamiento. Es decir, según han confirmado, se han centrado en entrenar la IA con datos "de calidad de libro de texto".
Concretamente, los datos escogidos para el entrenamiento contienen conjuntos de datos sintéticos "creados específicamente para enseñar al modelo razonamiento con sentido común y conocimientos generales". Así estos conjuntos de datos incluyen información sobre la ciencia, las actividades diarias y la teoría de la mente, entre otros temas. Siguiendo esta línea, Microsoft continuó entrenando Phi-2 con datos web "cuidadosamente seleccionados" y filtrados según su valor educativo y su calidad.
Con todo ello, Phi-2 se entrenó durante 14 días utilizando un total de 96 tarjetas gráficas A100 de Nvidia. Además, Microsoft ha detallado que se trata de un modelo que no se ha entrenado con aprendizaje reforzado a partir de la retroalimentación humana (RLHF), por lo que se ha observado "un mejor comportamiento" con respecto a los sesgos o a las respuestas con toxicidad.
Por el momento, Phi-2 se ha puesto a disposición de los usuarios como parte del catálogo de modelos de Azure AI Studio, de cara a fomentar la investigación y el desarrollo de modelos de lenguaje.