Google lanza ‘caché implícito’ para abaratar el acceso a sus modelos de IA
La nueva función reduce un 75% los costes en solicitudes repetitivas. Disponible para Gemini 2.5 Pro y 2.5 Flash, automatiza el almacenamiento de respuestas frecuentes. La medida responde a las críticas por facturación elevada en la API.
«Ahorros automáticos sin configurar»
Google activó por defecto el caché implícito en su API Gemini, que reutiliza datos de peticiones similares para evitar reprocesamiento. Según la compañía, basta con que las solicitudes compartan un prefijo común para aplicar descuentos. «Los ahorros se reflejarán dinámicamente», explicó el equipo en un blog.
Detalles técnicos
El sistema requiere un mínimo de 1.024 tokens en Gemini 2.5 Flash y 2.048 en 2.5 Pro (equivalentes a ~750 palabras por cada mil tokens). Google recomienda colocar el contexto repetitivo al inicio de las peticiones para maximizar eficiencia.
De la polémica a la solución
La versión anterior (caché explícito) obligaba a los desarrolladores a definir manualmente las consultas frecuentes, generando facturas inesperadas y quejas masivas. Tras disculparse, Google implementó este sistema automático como alternativa.
Un mercado que exige eficiencia
El alto coste de los modelos de IA frontera ha impulsado la adopción de técnicas de optimización. El caché, común en la industria, evita recalcular respuestas idénticas. Gemini 2.5 Pro y Flash son los primeros modelos de Google en beneficiarse de esta mejora.
Esperando la prueba real
Google no ha proporcionado validación externa sobre los ahorros prometidos. Los desarrolladores evaluarán su efectividad durante las primeras implementaciones, especialmente tras los problemas previos con la API.