| Inteligencia Artificial | Tecnología |

Meta difunde resultados engañosos de su IA Maverick

TechCrunch

Meta's benchmarks for its new AI models are a bit misleading | TechCrunch
Kyle Wiggers
TechCrunch
inglés
Estados Unidos
en-US
Publicado el: 1744101964
1744101964
2025-04-08T08:46:04Z
2025-04-06T21:16:03Z
2025-04-07T16:37:38Z
https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading

Investigadores detectan diferencias entre la versión evaluada de Maverick en LM Arena y la disponible para desarrolladores, cuestionando la fiabilidad de los benchmarks.

Meta difunde resultados engañosos de su modelo de IA Maverick

La versión evaluada en LM Arena no coincide con la disponible para desarrolladores. Investigadores detectaron diferencias en el comportamiento del modelo, lo que cuestiona la fiabilidad de los benchmarks. El hecho se reveló tras el lanzamiento de Llama 4 el 6 de abril de 2025.

«Un Maverick distinto al promocionado»

Meta publicó que su modelo Maverick ocupaba el segundo puesto en LM Arena, una plataforma donde evaluadores humanos comparan respuestas de IA. Sin embargo, la versión sometida a prueba era una «variante experimental optimizada para conversación», no la disponible para uso general. Investigadores en X señalaron que el modelo en LM Arena usaba «emojis en exceso y respuestas extensas», mientras que la versión pública mostraba diferencias notables.

El problema de los benchmarks

Los benchmarks como LM Arena no son siempre fiables, pero las empresas no solían adaptar sus modelos para mejorar sus resultados. Meta no aclaró inicialmente que usó una versión modificada, lo que dificulta a los desarrolladores predecir el rendimiento real del modelo en aplicaciones prácticas.

Antecedentes: La carrera por destacar en IA

En un mercado competitivo, las empresas tecnológicas buscan demostrar superioridad en benchmarks para atraer desarrolladores. Meta lanzó Llama 4 como parte de su estrategia, pero la discrepancia en los resultados ha generado escepticismo sobre la transparencia en la evaluación de modelos de IA.

¿Qué significa esto para los usuarios?

La falta de coincidencia entre las versiones evaluadas y las disponibles puede afectar la confianza en los benchmarks y en las capacidades reales de los modelos. Hasta que Meta o LM Arena aclaren la situación, los desarrolladores tendrán que validar por su cuenta el rendimiento de Maverick.

Post Views: 46

| Corrupción y Ética |

septiembre 17, 2025

Lara acusa sin pruebas de fraude a Quiroga y Copa en la campaña electoral

El candidato vicepresidencial del PDC realiza acusaciones de fraude electoral sin presentar evidencias, generando tensión días antes del balotaje.

| Corrupción y Ética |

septiembre 17, 2025

Lara acusa a Tuto Quiroga de planear fraude electoral en Bolivia

El candidato vicepresidencial Edmundo Lara acusa a Jorge Tuto Quiroga de planear un fraude electoral y anuncia movilizaciones para

| Política |

septiembre 17, 2025

TSE sortea 213.000 jurados e imprime papeletas para segunda vuelta electoral

El Tribunal Supremo Electoral sortea 213.000 jurados e imprime más de 8 millones de papeletas con medidas de seguridad

| Salud |

septiembre 17, 2025

Fiscalía confirma que Naoki Ishida murió por broncoaspiración

La fiscalía confirma que Naoki Ishida, vocalista de Explosión Cumbiera, falleció por broncoaspiración, descartando signos de violencia o participación

| Política |

septiembre 16, 2025

ANP alerta sobre sanciones a radios que amenazan su supervivencia

La ANP advierte sobre multas desproporcionadas a radioemisoras por errores en propaganda electoral que amenazan su continuidad.

| Corrupción y Ética |

septiembre 16, 2025

Lara niega querer convulsionar pero insiste en denunciar un posible fraude electoral

El candidato vicepresidencial anuncia dos delegados por mesa para supervisar el proceso y evitar posibles irregularidades.

| Medio ambiente |

septiembre 16, 2025

fallece ‘jesús’, el emblemático caimán negro de las pampas del yacuma

El emblemático caimán negro de Santa Rosa de Yacuma murió tras un enfrentamiento territorial, dejando un legado conservacionista.

| Política |

septiembre 16, 2025

TSE definirá este miércoles sedes y formato de transmisión para debates

El Tribunal Supremo Electoral decidirá este miércoles las ciudades y formato de transmisión para los dos debates de la

| Medio ambiente |

septiembre 16, 2025

Diputada demanda al alcalde de San Ignacio de Velasco por contaminación ambiental

Diputada demanda al alcalde por vertedero ilegal sin licencia ambiental que opera desde hace 15 años, contaminando suelo y

| Medio ambiente |

septiembre 16, 2025

Doce incendios forestales activos en varios municipios de Santa Cruz

Doce incendios forestales activos en siete municipios de Santa Cruz mantienen en alerta roja a la región.

| Economía |

septiembre 16, 2025

Bolivia prevé su incorporación plena al Mercosur para agosto de 2028

Bolivia confirmó su incorporación plena al Mercosur para agosto de 2028, culminando un proceso histórico de integración regional.

| Economía |

septiembre 16, 2025

senado remite a comisión proyecto de diferimiento de créditos tras rechazo bancario

El Senado deriva a comisión un proyecto que difiere créditos y suspende embargos por 6 meses, generando rechazo bancario.