Google lanza ‘caché implícito’ para reducir costes en IA

Google introduce el caché implícito en Gemini 2.5 Pro y Flash, reduciendo hasta un 75% los costes en solicitudes repetitivas de IA, tras críticas por facturación elevada.
TechCrunch
Pantalla con la palabra 'Gemini' sobre un fondo tecnológico.
Imagen de una pantalla que tiene la palabra 'Gemini' en el centro, con un fondo compuesto de luces y conexiones digitales.

Google lanza ‘caché implícito’ para abaratar el acceso a sus modelos de IA

La nueva función reduce un 75% los costes en solicitudes repetitivas. Disponible para Gemini 2.5 Pro y 2.5 Flash, automatiza el almacenamiento de respuestas frecuentes. La medida responde a las críticas por facturación elevada en la API.

«Ahorros automáticos sin configurar»

Google activó por defecto el caché implícito en su API Gemini, que reutiliza datos de peticiones similares para evitar reprocesamiento. Según la compañía, basta con que las solicitudes compartan un prefijo común para aplicar descuentos. «Los ahorros se reflejarán dinámicamente», explicó el equipo en un blog.

Detalles técnicos

El sistema requiere un mínimo de 1.024 tokens en Gemini 2.5 Flash y 2.048 en 2.5 Pro (equivalentes a ~750 palabras por cada mil tokens). Google recomienda colocar el contexto repetitivo al inicio de las peticiones para maximizar eficiencia.

De la polémica a la solución

La versión anterior (caché explícito) obligaba a los desarrolladores a definir manualmente las consultas frecuentes, generando facturas inesperadas y quejas masivas. Tras disculparse, Google implementó este sistema automático como alternativa.

Un mercado que exige eficiencia

El alto coste de los modelos de IA frontera ha impulsado la adopción de técnicas de optimización. El caché, común en la industria, evita recalcular respuestas idénticas. Gemini 2.5 Pro y Flash son los primeros modelos de Google en beneficiarse de esta mejora.

Esperando la prueba real

Google no ha proporcionado validación externa sobre los ahorros prometidos. Los desarrolladores evaluarán su efectividad durante las primeras implementaciones, especialmente tras los problemas previos con la API.