Meta retrocede en ranking de IA tras usar versión experimental

Meta cayó al puesto 32 en LM Arena al evaluarse su modelo oficial Llama 4, tras críticas por usar una versión experimental optimizada para benchmarks.
TechCrunch
Pantalla de un dispositivo móvil con la palabra 'LLama' frente a un fondo desenfocado con texto.
Imagen de un dispositivo móvil mostrando la palabra 'LLama' en su pantalla, contrastando con un fondo de texto colorido y desenfocado.

Meta retrocede en ranking de IA tras usar versión experimental no lanzada

El modelo Llama 4 Maverick ocupa el puesto 32 en LM Arena tras ajustes. La compañía había logrado una alta puntuación con una versión optimizada para conversación, lo que generó críticas. El benchmark humano comparó su rendimiento con rivales como GPT-4o y Claude 3.5.

«Optimización engañosa» en prueba de referencia

Meta utilizó la variante «Llama-4-Maverick-03-26-Experimental», no disponible públicamente, para destacar en LM Arena. «Estaba optimizada para conversación», admitió la empresa. Los mantenedores del benchmark corrigieron la puntuación al evaluar la versión oficial, que quedó por debajo de modelos de OpenAI, Anthropic y Google.

Reacción y ajustes

LM Arena cambió sus políticas tras el incidente y recalificó el modelo «vanilla» de Meta, que ahora figura en el puesto 32. La compañía defendió sus pruebas: «Experimentamos con todo tipo de variantes», declaró un portavoz a TechCrunch.

Benchmarks bajo la lupa

LM Arena, que evalúa preferencias humanas entre respuestas de IA, ha sido cuestionado antes por su fiabilidad. Meta reconoció que adaptar un modelo a un test específico dificulta predecir su rendimiento real en otros contextos.

La carrera por la supremacía conversacional

El sector de IA enfrenta presiones para demostrar avances en benchmarks públicos. Meta, que lanzó Llama 4 como código abierto, busca que desarrolladores personalicen el modelo, aunque su versión base quedó rezagada frente a competidores consolidados.

Transparencia a prueba

El episodio refleja los desafíos de estandarizar evaluaciones de IA. Mientras Meta promete aprender del feedback, la comunidad tecnológica vigilará cómo equilibra innovación con rigor metodológico en futuras pruebas.

Imagen sin título

Senador Ormachea pide expulsar a presuntos agentes rusos tras informe de injerencia

Imagen sin título

Alemania exige a varones jóvenes aprobación para estancias largas en el extranjero

El Papa León XIV durante la Vigilia Pascual en la Basílica de San Pedro.

El Papa León XIV pide en la Vigilia Pascual no dejarse paralizar por la guerra y la injusticia

Material electoral es preparado para la repetición de votación.

Bolivia repite votación en 105 mesas tras detectar irregularidades en comicios

El aeropuerto de Venecia, uno de los afectados por las restricciones.

Cuatro aeropuertos del norte de Italia restringen el suministro de combustible para aviones

Fragmentos del avión de combate estadounidense derribado el viernes por las fuerzas iraníes.

Desaparece un piloto estadounidense tras el derribo de su caza por Irán

Imagen sin título

Guardia agrede a repartidora en condominio de Santa Cruz; sujeto fue aprehendido

El primer ministro de Hungría, Viktor Orban, busca un quinto mandato.

Estados Unidos refuerza su apoyo a Viktor Orban antes de las elecciones en Hungría

El senador Wilder Veliz (izquierda) anunció la medida ante la CIDH.

Senador boliviano denuncia ante la CIDH la suspensión de la segunda vuelta en La Paz

Senador del PDC, Wilder Veliz.

Senador boliviano acude a la CIDH por garantías en segunda vuelta de La Paz

Imagen sin título

Policía aprehende a conductor con dos bolsas de marihuana en Quillacollo

Imagen sin título

Yacana cierra 2025 con pérdidas acumuladas y una ejecución presupuestaria del 9%

🌍 Top 10 Ciudades

📄 Meta retrocede en ranking de IA tras usar versión experimental
últimos 30 días
🥇
🇧🇴 Cochabamba , Departamento de Cochabamba
50.0%
🥈
🇫🇷 Paris , Paris Department
50.0%