Apple lanzó nuevos modelos de IA, pero sus propios benchmarks muestran que no superan a GPT-4o de OpenAI ni a Llama 4 Scout de Meta en generación de texto y análisis de imágenes….
Analizar 12 modelos avanzados duplica el gasto frente a 80 convencionales. OpenAI y Anthropic lideran esta tendencia, donde pruebas como MMLU-Pro superan los 1.800 dólares por ejecución….
Meta cayó al puesto 32 en LM Arena al evaluarse su modelo oficial Llama 4, tras críticas por usar una versión experimental optimizada para benchmarks….