Analizar 12 modelos avanzados duplica el gasto frente a 80 convencionales. OpenAI y Anthropic lideran esta tendencia, donde pruebas como MMLU-Pro superan los 1.800 dólares por ejecución….
Meta cayó al puesto 32 en LM Arena al evaluarse su modelo oficial Llama 4, tras críticas por usar una versión experimental optimizada para benchmarks….