Meta retrocede en ranking de IA tras usar versión experimental

Meta cayó al puesto 32 en LM Arena al evaluarse su modelo oficial Llama 4, tras críticas por usar una versión experimental optimizada para benchmarks.
TechCrunch
Pantalla de un dispositivo móvil con la palabra 'LLama' frente a un fondo desenfocado con texto.
Imagen de un dispositivo móvil mostrando la palabra 'LLama' en su pantalla, contrastando con un fondo de texto colorido y desenfocado.

Meta retrocede en ranking de IA tras usar versión experimental no lanzada

El modelo Llama 4 Maverick ocupa el puesto 32 en LM Arena tras ajustes. La compañía había logrado una alta puntuación con una versión optimizada para conversación, lo que generó críticas. El benchmark humano comparó su rendimiento con rivales como GPT-4o y Claude 3.5.

«Optimización engañosa» en prueba de referencia

Meta utilizó la variante «Llama-4-Maverick-03-26-Experimental», no disponible públicamente, para destacar en LM Arena. «Estaba optimizada para conversación», admitió la empresa. Los mantenedores del benchmark corrigieron la puntuación al evaluar la versión oficial, que quedó por debajo de modelos de OpenAI, Anthropic y Google.

Reacción y ajustes

LM Arena cambió sus políticas tras el incidente y recalificó el modelo «vanilla» de Meta, que ahora figura en el puesto 32. La compañía defendió sus pruebas: «Experimentamos con todo tipo de variantes», declaró un portavoz a TechCrunch.

Benchmarks bajo la lupa

LM Arena, que evalúa preferencias humanas entre respuestas de IA, ha sido cuestionado antes por su fiabilidad. Meta reconoció que adaptar un modelo a un test específico dificulta predecir su rendimiento real en otros contextos.

La carrera por la supremacía conversacional

El sector de IA enfrenta presiones para demostrar avances en benchmarks públicos. Meta, que lanzó Llama 4 como código abierto, busca que desarrolladores personalicen el modelo, aunque su versión base quedó rezagada frente a competidores consolidados.

Transparencia a prueba

El episodio refleja los desafíos de estandarizar evaluaciones de IA. Mientras Meta promete aprender del feedback, la comunidad tecnológica vigilará cómo equilibra innovación con rigor metodológico en futuras pruebas.

Imagen sin título

Joven herido de bala cerca de la Plaza San Francisco en La Paz

Imagen referencial.

Dirigente cocalero propone asilo político para Evo Morales y fin de vigilias

Imagen referencial de instalaciones de YPFB.

YPFB revela crisis en su sector industrial con refinerías operando al 34%

Captura de video que muestra camiones detenidos junto a un campo de fútbol.

Pobladores bolivianos detienen camiones de presuntos contrabandistas durante partido de fútbol

San Ignacio vota nuevamente tras observaciones en 98 mesas.

Repetición electoral en San Ignacio de Velasco transcurre sin incidentes

El dirigente Elmer Lizarazú habla en una asamblea sindical en el trópico de Cochabamba.

Dirigente cocalero sugiere asilo político para Evo Morales por desgaste de la vigilia

Un miembro del servicio de defensa irlandés durante la conmemoración en Dublín.

Irlanda conmemora el 110 aniversario del Alzamiento de Pascua en Dublín y Belfast

Imagen sin título

Tres personas mueren carbonizadas en un incendio doméstico en El Torno

Fancesa en Sucre.

Excandidato acusa a Doria Medina de financiar ambas campañas para controlar Fancesa

Papa Leo XIV bendice a los fieles al final de la Misa de Pascua en la Plaza de San Pedro.

Papa Leo XIV pide a líderes mundiales que elijan la paz en su primera Misa de Pascua

El zar antidroga de Bolivia, Ernesto Justiniano, habla durante una entrevista con EFE

Bolivia confisca 300 kilos de droga y desmantela fábricas en operativos simultáneos

Imagen sin título

Comisión de Ética de Diputados se instala este martes con elección de directiva

🌍 Top 10 Ciudades

📄 Meta retrocede en ranking de IA tras usar versión experimental
últimos 30 días
🥇
🇧🇴 Cochabamba , Departamento de Cochabamba
50.0%
🥈
🇫🇷 Paris , Paris Department
50.0%