| Avances científicos | Inteligencia Artificial |

Modelos de IA «razonadores» elevan costes de evaluación hasta 5.200 dólares

TechCrunch

The rise of AI 'reasoning' models is making benchmarking more expensive | TechCrunch
Kyle Wiggers
TechCrunch
inglés
Estados Unidos
en-US
Publicado el: 1744546511
1744546511
2025-04-13T12:15:11Z
2025-04-10T13:30:00Z
2025-04-10T16:41:21Z
https://techcrunch.com/2025/04/10/the-rise-of-ai-reasoning-models-is-making-benchmarking-more-expensive

Analizar 12 modelos avanzados duplica el gasto frente a 80 convencionales. OpenAI y Anthropic lideran esta tendencia, donde pruebas como MMLU-Pro superan los 1.800 dólares por ejecución.

Los modelos de IA «razonadores» elevan costes de evaluación hasta 5.200 dólares

Analizar 12 modelos avanzados duplica el gasto frente a 80 convencionales. OpenAI y Anthropic lideran esta tendencia, donde pruebas como MMLU-Pro superan los 1.800 dólares por ejecución. La complejidad de los tests y el volumen de tokens generados explican el incremento.

«Verificar la IA ahora requiere un presupuesto»

Según Artificial Analysis, evaluar el modelo o1 de OpenAI en siete benchmarks costó 2.767,05 dólares, mientras que versiones no razonadoras como GPT-4o apenas alcanzaron los 108,85 dólares. George Cameron, cofundador de la firma, advierte: «Nuestro gasto mensual crecerá con cada nuevo lanzamiento».

¿Por qué son tan caros?

Los modelos generan ocho veces más tokens que sus predecesores. El o1 produjo 44 millones durante las pruebas, según datos de Artificial Analysis. Jean-Stanislas Denain, de Epoch AI, añade: «Los benchmarks actuales exigen tareas complejas, como ejecutar código o navegar por internet».

El dilema de la transparencia

Ross Taylor, CEO de General Reasoning, cuestiona la reproducibilidad: «Si los laboratorios gastan ‘y’ en computación, pero los académicos tienen recursos << y, ¿cómo validamos sus resultados?". Algunas empresas ofrecen acceso gratuito a sus modelos para evaluaciones, lo que genera dudas sobre la independencia de los tests.

De la física a la factura

OpenAI y Anthropic promueven modelos que resuelven problemas paso a paso en dominios como física o matemáticas. Sin embargo, su superioridad implica costes por token disparados: GPT-4.5 cobra 150 dólares por millón de tokens de salida, y el o1-pro de OpenAI, 600 dólares.

La ciencia bajo presión presupuestaria

El avance de la IA razonadora tensiona los recursos para validaciones independientes. Mientras los laboratorios privados escalan sus inversiones, académicos y pequeñas firmas enfrentan una brecha creciente en capacidad de verificación. El ritmo de innovación podría superar pronto los mecanismos de evaluación existentes.

Post Views: 36