Un ingeniero que participó en el desarrollo de Claude 3, un motor que obtiene mejores puntajes que GPT o Gemini, relató la inesperada respuesta que dio ante un examen
- 3 minutos de lectura'
Hace unos días, la compañía Anthropic presentó Claude 3, su nuevo motor de inteligencia artificial. Anthropic fue fundada hace unos años por exempleados de OpenAI, y viene desarrollando Claude, un chatbot que compite con GPT y con su chatbot (ChatGPT) y con Gemini, el polémico nuevo motor de Google. Este lunes presentó a Claude 3, la más reciente generación de su inteligencia artificial, que según la compañía es superior a GPT y Gemini en todas las evaluaciones generales de IA (es decir, logra mejores puntajes en exámenes estandarizados) y “exhibe niveles casi humanos de comprensión y fluidez en tareas complejas, liderando la frontera de la inteligencia general.” Claude 3 tiene tres versiones (Haiku, Sonnet, Opus) según el nivel de sofisticación deseado; Google y OpenAI ofrecen diferencias similares.
Según Anthropic, “para procesar indicaciones de contexto extensas de manera efectiva, los modelos requieren capacidades de recuperación sólidas. La evaluación ‘Needle In A Haystack’ (NIAH, la aguja en el pajar) mide la capacidad de un modelo para recordar con precisión información de un vasto corpus de datos. Mejoramos la solidez de este punto de referencia mediante el uso de uno de 30 pares aleatorios de aguja/pregunta por mensaje y pruebas en un corpus diverso de documentos de colaboración abierta. Claude 3 Opus no solo logró un recuerdo casi perfecto, superando el 99% de precisión, sino que en algunos casos incluso identificó las limitaciones de la evaluación misma al reconocer que la frase “aguja” parecía haber sido insertada artificialmente en el texto original por un ser humano.”
Lo relató Alex Albert, un ingeniero de la compañía, en X, en una publicación que rápidamente se hizo viral: explicó cómo en una de las evaluaciones, en las que se le pedía que encontrara un dato específico sobre ingredientes de una pizza, reportó que había encontrado la frase original, pero que le parecía sospechoso que estuviera en ese lugar, porque no coincidía con el texto circundante.
“Fue muy interesante ver este nivel de metaconciencia, pero también destacó la necesidad de que nosotros, como industria, pasemos de las pruebas artificiales a evaluaciones más realistas que puedan evaluar con precisión las verdaderas capacidades y limitaciones de los modelos”, agregó el ingeniero, mientras otros expertos de la industria notaban cómo estos motores de inteligencia artificial siguen evolucionando en su capacidad para comportarse como si realmente entendieran qué están haciendo.
Fun story from our internal testing on Claude 3 Opus. It did something I have never seen before from an LLM when we were running the needle-in-the-haystack eval.
— Alex (@alexalbert__) March 4, 2024
For background, this tests a model’s recall ability by inserting a target sentence (the "needle") into a corpus of… pic.twitter.com/m7wWhhu6Fg
Aún así, antes de creer que esta generación de plataformas de inteligencia artificial está a punto de tomar conciencia de sí misma y apoderarse del mundo, conviene recordar la aclaración que hizo hace unos días Yann LeCun, investigador en jefe de IA de Meta (que tiene su propio GPT, llamado Llama): no hay que “confundir inteligencia con conocimiento. Los LLM [los modelos grandes de lenguaje, o motores de IA como GPT, Gemini, Claude y demás] tienen mucho conocimiento acumulado, pero muy poca inteligencia. Un elefante o un nene de 4 años son mucho más inteligentes que cualquier LLM”.
You are confusing intelligence and knowledge.
— Yann LeCun (@ylecun) February 20, 2024
LLMs have a lot of accumulated knowledge, but very little intelligence.
An elephant or a 4 year old are way smarter than any LLM.