Meta retrocede en ranking de IA tras usar versión experimental

TechCrunch

Meta's vanilla Maverick AI model ranks below rivals on a popular chat benchmark | TechCrunch
Kyle Wiggers
TechCrunch
inglés
Estados Unidos
en-US
Fecha de consulta: 2025-04-13T12:04:51Z
Fecha de consulta:1744545891
Fecha de publicación fuente: 2025-04-11T22:46:22Z
Fecha de publicación fuente: 1744545891
Fecha de actualización fuente: 2025-04-12T13:52:39Z
https://techcrunch.com/2025/04/11/metas-vanilla-maverick-ai-model-ranks-below-rivals-on-a-popular-chat-benchmark

Meta cayó al puesto 32 en LM Arena al evaluarse su modelo oficial Llama 4, tras críticas por usar una versión experimental optimizada para benchmarks.

Meta retrocede en ranking de IA tras usar versión experimental no lanzada

El modelo Llama 4 Maverick ocupa el puesto 32 en LM Arena tras ajustes. La compañía había logrado una alta puntuación con una versión optimizada para conversación, lo que generó críticas. El benchmark humano comparó su rendimiento con rivales como GPT-4o y Claude 3.5.

«Optimización engañosa» en prueba de referencia

Meta utilizó la variante «Llama-4-Maverick-03-26-Experimental», no disponible públicamente, para destacar en LM Arena. «Estaba optimizada para conversación», admitió la empresa. Los mantenedores del benchmark corrigieron la puntuación al evaluar la versión oficial, que quedó por debajo de modelos de OpenAI, Anthropic y Google.

Reacción y ajustes

LM Arena cambió sus políticas tras el incidente y recalificó el modelo «vanilla» de Meta, que ahora figura en el puesto 32. La compañía defendió sus pruebas: «Experimentamos con todo tipo de variantes», declaró un portavoz a TechCrunch.

Benchmarks bajo la lupa

LM Arena, que evalúa preferencias humanas entre respuestas de IA, ha sido cuestionado antes por su fiabilidad. Meta reconoció que adaptar un modelo a un test específico dificulta predecir su rendimiento real en otros contextos.

La carrera por la supremacía conversacional

El sector de IA enfrenta presiones para demostrar avances en benchmarks públicos. Meta, que lanzó Llama 4 como código abierto, busca que desarrolladores personalicen el modelo, aunque su versión base quedó rezagada frente a competidores consolidados.

Transparencia a prueba

El episodio refleja los desafíos de estandarizar evaluaciones de IA. Mientras Meta promete aprender del feedback, la comunidad tecnológica vigilará cómo equilibra innovación con rigor metodológico en futuras pruebas.

Post Views: 189