Ejecutivo de Meta niega manipulación de resultados de Llama 4
El vicepresidente de IA generativa desmiente rumores sobre ajustes en benchmarks. La polémica surgió tras acusaciones en redes sociales sobre posibles prácticas engañosas en la evaluación de los modelos Maverick y Scout.
«No es cierto que entrenáramos con datos de prueba»
Ahmad Al-Dahle, vicepresidente de IA generativa en Meta, afirmó en una publicación en X que es «falso» que los modelos Llama 4 se optimizaran para benchmarks específicos. Los rumores, sin fundamento conocido, sugerían que Meta usó conjuntos de prueba para inflar artificialmente los resultados.
Origen de la controversia
Las especulaciones comenzaron en un foro chino y se extendieron a X y Reddit. Un usuario anónimo aseguró haber renunciado a Meta por supuestas irregularidades. Además, las diferencias de rendimiento entre versiones de Maverick en LM Arena y las descargables avivaron las dudas.
Respuesta de Meta
Al-Dahle reconoció «variaciones en la calidad» entre proveedores de nube que alojan los modelos. Aseguró que se solucionarán con actualizaciones: «Implementaremos correcciones y trabajaremos con socios».
Benchmarks bajo la lupa
En IA, los test sets miden el rendimiento de los modelos tras su entrenamiento. Usarlos durante el desarrollo distorsionaría los resultados, dando una imagen inexacta de sus capacidades reales. Meta empleó una versión experimental de Maverick en LM Arena, lo que generó críticas.
La sombra de la desinformación
Los rumores se amplificaron por informes sobre fallos puntuales de Maverick y Scout en ciertas tareas. La falta de transparencia en benchmarks es un debate recurrente en la industria, pero Meta insiste en que sus modelos se lanzaron «tan pronto como estuvieron listos».
Esperando la calma
La credibilidad de los benchmarks de IA sigue en discusión. Meta enfrenta el reto de aclarar las discrepancias mientras los usuarios reportan inconsistencias. La compañía promete ajustes, pero el escepticismo persiste en la comunidad técnica.