| Inteligencia Artificial | Tecnología |

Meta niega manipulación en resultados de Llama 4

TechCrunch

Meta exec denies the company artificially boosted Llama 4's benchmark scores | TechCrunch
Kyle Wiggers
TechCrunch
inglés
Estados Unidos
en-US
Publicado el: 1744100181
1744100181
2025-04-08T08:16:21Z
2025-04-07T18:45:07Z
2025-04-07T23:06:00Z
https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores

El vicepresidente de IA generativa de Meta desmiente rumores sobre ajustes en benchmarks de sus modelos Maverick y Scout.

Ejecutivo de Meta niega manipulación de resultados de Llama 4

El vicepresidente de IA generativa desmiente rumores sobre ajustes en benchmarks. La polémica surgió tras acusaciones en redes sociales sobre posibles prácticas engañosas en la evaluación de los modelos Maverick y Scout.

«No es cierto que entrenáramos con datos de prueba»

Ahmad Al-Dahle, vicepresidente de IA generativa en Meta, afirmó en una publicación en X que es «falso» que los modelos Llama 4 se optimizaran para benchmarks específicos. Los rumores, sin fundamento conocido, sugerían que Meta usó conjuntos de prueba para inflar artificialmente los resultados.

Origen de la controversia

Las especulaciones comenzaron en un foro chino y se extendieron a X y Reddit. Un usuario anónimo aseguró haber renunciado a Meta por supuestas irregularidades. Además, las diferencias de rendimiento entre versiones de Maverick en LM Arena y las descargables avivaron las dudas.

Respuesta de Meta

Al-Dahle reconoció «variaciones en la calidad» entre proveedores de nube que alojan los modelos. Aseguró que se solucionarán con actualizaciones: «Implementaremos correcciones y trabajaremos con socios».

Benchmarks bajo la lupa

En IA, los test sets miden el rendimiento de los modelos tras su entrenamiento. Usarlos durante el desarrollo distorsionaría los resultados, dando una imagen inexacta de sus capacidades reales. Meta empleó una versión experimental de Maverick en LM Arena, lo que generó críticas.

La sombra de la desinformación

Los rumores se amplificaron por informes sobre fallos puntuales de Maverick y Scout en ciertas tareas. La falta de transparencia en benchmarks es un debate recurrente en la industria, pero Meta insiste en que sus modelos se lanzaron «tan pronto como estuvieron listos».

Esperando la calma

La credibilidad de los benchmarks de IA sigue en discusión. Meta enfrenta el reto de aclarar las discrepancias mientras los usuarios reportan inconsistencias. La compañía promete ajustes, pero el escepticismo persiste en la comunidad técnica.

Post Views: 36