Meta retrocede en ranking de IA tras usar versión experimental

Meta cayó al puesto 32 en LM Arena al evaluarse su modelo oficial Llama 4, tras críticas por usar una versión experimental optimizada para benchmarks.
TechCrunch
Pantalla de un dispositivo móvil con la palabra 'LLama' frente a un fondo desenfocado con texto.
Imagen de un dispositivo móvil mostrando la palabra 'LLama' en su pantalla, contrastando con un fondo de texto colorido y desenfocado.

Meta retrocede en ranking de IA tras usar versión experimental no lanzada

El modelo Llama 4 Maverick ocupa el puesto 32 en LM Arena tras ajustes. La compañía había logrado una alta puntuación con una versión optimizada para conversación, lo que generó críticas. El benchmark humano comparó su rendimiento con rivales como GPT-4o y Claude 3.5.

«Optimización engañosa» en prueba de referencia

Meta utilizó la variante «Llama-4-Maverick-03-26-Experimental», no disponible públicamente, para destacar en LM Arena. «Estaba optimizada para conversación», admitió la empresa. Los mantenedores del benchmark corrigieron la puntuación al evaluar la versión oficial, que quedó por debajo de modelos de OpenAI, Anthropic y Google.

Reacción y ajustes

LM Arena cambió sus políticas tras el incidente y recalificó el modelo «vanilla» de Meta, que ahora figura en el puesto 32. La compañía defendió sus pruebas: «Experimentamos con todo tipo de variantes», declaró un portavoz a TechCrunch.

Benchmarks bajo la lupa

LM Arena, que evalúa preferencias humanas entre respuestas de IA, ha sido cuestionado antes por su fiabilidad. Meta reconoció que adaptar un modelo a un test específico dificulta predecir su rendimiento real en otros contextos.

La carrera por la supremacía conversacional

El sector de IA enfrenta presiones para demostrar avances en benchmarks públicos. Meta, que lanzó Llama 4 como código abierto, busca que desarrolladores personalicen el modelo, aunque su versión base quedó rezagada frente a competidores consolidados.

Transparencia a prueba

El episodio refleja los desafíos de estandarizar evaluaciones de IA. Mientras Meta promete aprender del feedback, la comunidad tecnológica vigilará cómo equilibra innovación con rigor metodológico en futuras pruebas.

Acusan a Starmer de mentir sobre el embajador británico vinculado a Epstein

La oposición acusa a Keir Starmer de ocultar información sobre el exembajador Peter Mandelson y su vínculo con Jeffrey
Donald Trump y Peter Mandelson en la Oficina Oval en mayo de 2025. / Reuters/AFP / Clarín

Fiscal de Utah acusa de homicidio agravado a Tyler Robinson por asesinato de Charlie Kirk

El fiscal Jeff Gray presenta cargos de homicidio agravado capital contra Tyler Robinson por el asesinato del activista conservador
Tyler Robinson tras su detención. Está acusado de homicidio agravado. / EFE / EFE y AP

Egipto e Israel acuerdan gasoducto para aliviar crisis energética

Acuerdo energético entre Egipto e Israel para suministrar 600 millones de pies cúbicos diarios de gas mediante el gasoducto
Imagen sin título / Información de autor no disponible / Africa Intelligence Brief

diputado cuéllar pide arraigo contra arce para evitar su salida del país

Diputado del MAS solicita arraigo contra presidente Luis Arce para evitar que abandone el país, basándose en la Ley
el diputado del mas rolando cuéllar en la fiscalía general, en sucre. / Correo del Sur / Correo del Sur

España eleva el tono contra Israel por ofensiva en Gaza y palabras de canciller

España convoca a diplomática israelí y anuncia que condiciona su participación en Eurovisión 2026 a la no inclusión de
El presidente del gobierno de España, Pedro Sánchez, critica la ofensiva de Israel en Gaza. / EFE / Clarín

aprehenden a un hombre por provocar incendios en ascensión de guarayos

Vecinos detuvieron a un hombre por provocar incendios en Ascensión de Guarayos, mientras el COEM declara estado de emergencia
el aprehendido aguarda su comparecencia ante el juez en la carceleta de ascensión de guarayos / Información de autor no disponible / ELDEBER.com.bo

Fábricas de EE.UU. se estancan mientras el consumo mantiene el crecimiento

La producción industrial de EEUU crece levemente un 0,1% en agosto mientras las ventas minoristas se disparan un 0,6%,
Imagen sin título / Información de autor no disponible / Información de la fuente de la imagen no disponible

Lara acusa de fraude a Tuto y amenaza con salir a defender el voto

El candidato vicepresidencial Edmundo Lara anuncia movilizaciones ante posible fraude electoral en el balotaje boliviano.
El candidato a la Vicepresidencia por el PDC, Edmand Lara. / Archivo / Diario Correo del Sur

putin agradece a delegaciones extranjeras por participar en ejercicios zapad-2025

Putin reconoce en Nizhny Novgorod la colaboración extranjera en las maniobras militares conjuntas Zapad-2025.
vladimir putin durante su visita al campo de entrenamiento / Información de autor no disponible / clarín

Concejo Municipal de Santa Cruz distingue a hijos ilustres en aniversario

El Concejo Municipal de Santa Cruz distingue a 19 personalidades e instituciones por sus aportes al municipio en el
Imagen sin título / Información de autor no disponible / ELDEBER.com.bo

Abogado afirma que Arce acudió a la Fiscalía pero se abstuvo de declarar

El presidente boliviano Luis Arce se abstuvo de declarar en Fiscalía sobre la denuncia por abandono de mujer embarazada
Imagen sin título / Información de autor no disponible / Redacción Digital

diputado pide a fiscalía aplicar ley de arraigo contra luis arce

Un diputado solicita a la Fiscalía que aplique la ley de arraigo al presidente Luis Arce y sus ministros
rolando cuellar, diputado masista. al fondo evo morales junto a luis arce y su entorno. / Información de autor no disponible / ERBOL