Meta difunde resultados engañosos de su IA Maverick

Investigadores detectan diferencias entre la versión evaluada de Maverick en LM Arena y la disponible para desarrolladores, cuestionando la fiabilidad de los benchmarks.
TechCrunch
Un cartel grande en un entorno exterior con un símbolo azul en el centro.
Un cartel situado al aire libre, destacando un símbolo en azul sobre blanco, rodeado de vegetación.

Meta difunde resultados engañosos de su modelo de IA Maverick

La versión evaluada en LM Arena no coincide con la disponible para desarrolladores. Investigadores detectaron diferencias en el comportamiento del modelo, lo que cuestiona la fiabilidad de los benchmarks. El hecho se reveló tras el lanzamiento de Llama 4 el 6 de abril de 2025.

«Un Maverick distinto al promocionado»

Meta publicó que su modelo Maverick ocupaba el segundo puesto en LM Arena, una plataforma donde evaluadores humanos comparan respuestas de IA. Sin embargo, la versión sometida a prueba era una «variante experimental optimizada para conversación», no la disponible para uso general. Investigadores en X señalaron que el modelo en LM Arena usaba «emojis en exceso y respuestas extensas», mientras que la versión pública mostraba diferencias notables.

El problema de los benchmarks

Los benchmarks como LM Arena no son siempre fiables, pero las empresas no solían adaptar sus modelos para mejorar sus resultados. Meta no aclaró inicialmente que usó una versión modificada, lo que dificulta a los desarrolladores predecir el rendimiento real del modelo en aplicaciones prácticas.

Antecedentes: La carrera por destacar en IA

En un mercado competitivo, las empresas tecnológicas buscan demostrar superioridad en benchmarks para atraer desarrolladores. Meta lanzó Llama 4 como parte de su estrategia, pero la discrepancia en los resultados ha generado escepticismo sobre la transparencia en la evaluación de modelos de IA.

¿Qué significa esto para los usuarios?

La falta de coincidencia entre las versiones evaluadas y las disponibles puede afectar la confianza en los benchmarks y en las capacidades reales de los modelos. Hasta que Meta o LM Arena aclaren la situación, los desarrolladores tendrán que validar por su cuenta el rendimiento de Maverick.