Caché de prompts: ahorros de OpenAI vs Anthropic en 2026

El caché de prompts con OpenAI y Anthropic ahorra entre el 50 y el 90% en llamadas repetidas a la API. Cómo funciona, errores de implementación y qué modelos lo admiten realmente.

Si envías el mismo prompt de sistema en cada llamada a la API sin usar el caché de prompts, estás pagando el precio completo por tokens que el modelo ya ha procesado. En una aplicación de producción que envía 100.000 solicitudes al mes con un prompt de sistema de 2.000 tokens, eso son 200 millones de tokens por los que estás pagando de más —potencialmente cientos de dólares al mes dejados sobre la mesa.

desarrollador revisando código en un portátil, espacio de trabajo de oficina con luz natural
Photo by Unsplash photographer on Unsplash

Qué hace realmente el caché de prompts

El caché de prompts te permite preprocesar y almacenar un prefijo de tu prompt en la infraestructura del proveedor. Cuando las solicitudes posteriores comparten ese mismo prefijo, el proveedor reutiliza el cómputo almacenado en caché en lugar de volver a procesar esos tokens desde cero. Pagas una fracción de la tarifa estándar de tokens de entrada —y la solicitud se completa más rápido porque el modelo se salta el costoso paso de prefill para la parte en caché.

Piénsalo así: si tu prompt es un prompt de sistema de 3.000 tokens seguido de un mensaje de usuario de 200 tokens, y envías 10.000 solicitudes al día, estás enviando 30 millones de tokens del prompt de sistema diariamente. Sin caché, esos 30 millones de tokens se procesan de nuevo cada vez. Con caché, después de que la primera solicitud caliente el caché, esos 30 millones de tokens cuestan aproximadamente un 90% menos.

El ahorro se acumula rápidamente. Antes de implementar el caché, vale la pena medir tu distribución real de tokens. El contador gratuito de tokens de IA te muestra exactamente cuántos tokens usan tu prompt de sistema y tus mensajes típicos —ese desglose es lo que determina cuánto ahorrará realmente el caché.

Caché de prompts de OpenAI: cómo funciona

OpenAI introdujo el caché de prompts automático, lo que significa que no necesitas indicar explícitamente qué debe almacenarse en caché. El sistema almacena automáticamente en caché el prefijo común más largo de tu solicitud que cumple el umbral mínimo de tokens.

Precios actuales del caché de OpenAI (mediados de 2026):

  • GPT-5: $2,50/MTok entrada → $0,25/MTok en caché (descuento del 90%)
  • GPT-5.4 Mini: $0,75/MTok entrada → $0,075/MTok en caché (descuento del 90%)
  • GPT-4.1: $2,00/MTok entrada → $0,50/MTok en caché (descuento del 75%)
  • GPT-4.1 Nano: $0,10/MTok entrada → $0,025/MTok en caché (descuento del 75%)

El caché se almacena durante aproximadamente 5–10 minutos de inactividad. Las aplicaciones de alto tráfico con solicitudes continuas verán tasas de aciertos de caché cercanas al 100%. Las aplicaciones de bajo tráfico o con largos intervalos entre solicitudes pueden ver aciertos parciales de caché.

Longitud mínima del prompt para que aplique el caché: OpenAI requiere que el prefijo en caché tenga al menos 1.024 tokens. Si tu prompt de sistema tiene menos de eso, el caché de prompts no se activará. Vale la pena saberlo de antemano: algunos equipos tienen prompts de sistema cortos y eficientes que no cumplen los requisitos —en ese caso aplican otras tácticas.

La implementación desde tu lado es sencilla: no hay nada que cambiar. Si tu prompt supera los 1.024 tokens y envías el mismo prefijo de forma consistente, la API de OpenAI aplica automáticamente los precios del caché y devuelve indicadores de aciertos de caché en el objeto de uso de la respuesta (prompt_tokens_details.cached_tokens). Registra ese campo para verificar que el caché funciona.

Caché de prompts de Anthropic: cómo funciona

Anthropic adopta un enfoque diferente: el control del caché es explícito. Marcas bloques de contenido específicos para caché usando un parámetro cache_control en tu solicitud. Esto te da más control sobre lo que se almacena en caché, pero requiere un pequeño cambio de implementación.

Precios actuales del caché de Anthropic (mediados de 2026):

  • Claude Sonnet 4: $3,00/MTok entrada → $0,30/MTok lecturas en caché (descuento del 90%), pero $3,75/MTok para escrituras en caché (prima del 25% sobre entrada estándar)
  • Claude Haiku 4.5: $1,00/MTok entrada → $0,10/MTok lecturas en caché (descuento del 90%), $1,25/MTok escrituras en caché

La prima por escritura en caché es lo que la mayoría de los equipos pasan por alto. Cuando se crea una entrada de caché (primera solicitud para un prefijo dado), Anthropic cobra un 25% más que el precio estándar de entrada. Cada solicitud posterior que acierta el caché paga solo el 10% del estándar. Por tanto, la economía depende de cuántas veces reutilices el caché antes de que expire.

El TTL de caché de Anthropic es de 5 minutos tras el último uso. Para mantener los cachés de uso frecuente activos, puede que necesites una estrategia ligera de solicitudes de «mantenimiento» en periodos de bajo tráfico —una consideración de diseño que no aplica con el enfoque automático de OpenAI.

Umbral mínimo de tokens para el caché de Anthropic: 1.024 tokens, igual que OpenAI. El bloque de contenido que marcas para caché debe tener al menos 1.024 tokens.

equipo colaborando en un proyecto técnico, oficina moderna con espacio de trabajo abierto
Photo by Unsplash photographer on Unsplash

Ahorros en el mundo real: cómo se ven los números

Una investigación publicada a principios de 2026 evaluó el caché de prompts en flujos de trabajo agentivos y encontró ahorros de costes del 41–80% entre proveedores, con resultados específicos:

  • GPT-5.2: reducción de costes del 79–81% con caché activado
  • Claude Sonnet 4.5: reducción del 78–79%
  • GPT-4o: reducción del 46–48%
  • Gemini 2.5 Pro: reducción del 28–41% (menor porque el precio base de Gemini es más bajo, por lo que el ahorro absoluto es menor)

El tiempo hasta el primer token mejoró entre un 13 y un 31% entre proveedores —un beneficio secundario que importa para aplicaciones sensibles a la latencia.

Para poner esto en términos concretos: si gastas $1.000/mes en una aplicación basada en GPT-5, y el 70% de tus tokens de entrada están en un prompt de sistema estático de más de 1.024 tokens, activar el caché puede reducir tu factura mensual a aproximadamente $250–300. Son $700–750 al mes ahorrados sin cambiar ninguna lógica de negocio ni la selección del modelo.

El análisis de TrueFoundry sobre la economía del caché entre proveedores hace una observación útil: una vez activado el caché, los tokens de salida se convierten en la partida de costes dominante —aproximadamente el 58–65% del coste total en cargas de trabajo típicas. Esto cambia tus prioridades de optimización. Después de activar el caché, la siguiente palanca es reducir el volumen de tokens de salida mediante instrucciones más precisas y formatos de salida estructurados.

Qué casos de uso se benefician más del caché

El caché ofrece los mayores ahorros cuando se dan tres condiciones: el mismo prefijo se reutiliza con frecuencia, el prefijo es largo y el prefijo contiene contenido estático que no cambia entre solicitudes.

Los mejores candidatos para el caché:

Prompts de sistema grandes con instrucciones, ejemplos y reglas. Un asistente de codificación podría tener un prompt de sistema de 3.000 tokens que cubra estilo de código, herramientas disponibles y contexto del proyecto. Almacena esto en caché y cada sesión empieza con un coste de entrada casi nulo para ese prefijo.

Contenido de documentos o bases de conocimiento. Si construyes un sistema de preguntas y respuestas sobre una base de conocimiento fija, puedes almacenar en caché los documentos recuperados como parte del prefijo del prompt. Una base de conocimiento de 10.000 tokens almacenada en caché en 50.000 solicitudes mensuales ahorra aproximadamente 450 millones de tokens de cómputo de entrada a tarifas estándar.

Historial de conversación en sesiones largas. El control explícito de caché de Anthropic te permite almacenar en caché los turnos anteriores de una conversación para que solo el turno más reciente se cobre al precio completo. Esto es especialmente valioso para asistentes de codificación o herramientas de investigación donde las sesiones abarcan docenas de turnos.

El caché no ayuda cuando:

  • El prefijo de tu prompt varía significativamente entre usuarios (prompts de sistema personalizados, contexto específico del usuario)
  • Las solicitudes llegan con demasiada poca frecuencia para mantener los cachés activos
  • La parte que podría almacenarse en caché tiene menos de 1.024 tokens
  • Estás ejecutando trabajos por lotes en los que cada prompt es único

Errores de implementación que hay que evitar

Error 1: Cambiar el prefijo invalida el caché. Cualquier modificación al contenido en caché —aunque sea añadir una marca de tiempo, cambiar un espacio o reordenar una lista— provoca un fallo de caché y activa un cargo completo de escritura en caché (en Anthropic) o un cargo de cómputo completo (en OpenAI). Mantén tu prefijo estático completamente estático. Mueve el contenido dinámico (información del usuario, datos de sesión) al final del prompt, después del prefijo en caché.

Error 2: Coste de calentamiento del caché en Anthropic. La primera solicitud para cualquier entrada de caché de Anthropic paga la prima de escritura del 25%. Para solicitudes de baja frecuencia, el coste de escritura puede superar lo que ahorras en lecturas de caché. Haz los números: el coste de escritura amortizado sobre las lecturas esperadas debe ser menor que el coste de entrada estándar. Con un descuento de lectura del 90%, el punto de equilibrio llega tras aproximadamente 1,3 lecturas en caché por escritura.

Error 3: Los límites de velocidad pueden saltar el caché. Si tu aplicación supera los límites de velocidad y las solicitudes se ponen en cola o se reintentan a través de infraestructura diferente, puede que veas más fallos de caché de lo esperado. Monitorea las tasas de aciertos de caché en los metadatos de respuesta.

Error 4: Las definiciones de herramientas y funciones cuentan para el prefijo en caché. Esto se pasa por alto con frecuencia. Si pasas una lista extensa de definiciones de herramientas en cada llamada, esos tokens se incluyen en el prefijo que puede almacenarse en caché. Un conjunto de 15–20 definiciones de funciones puede añadir fácilmente entre 2.000 y 4.000 tokens a tu entrada. Inclúyelas en tu prefijo estático para beneficiarte del caché.

equipo de ingeniería en discusión técnica, sala de reuniones con pizarras, personas señalando diagramas en la pizarra
Photo by Unsplash photographer on Unsplash

Mide tus costes de tokens antes y después

La forma más rápida de verificar que el caché funciona y ahorra dinero es registrar cached_tokens de las respuestas de tu API y comparar tu coste efectivo por solicitud a lo largo del tiempo. Tanto OpenAI como Anthropic incluyen información sobre los aciertos de caché en el campo de uso de cada respuesta.

Antes de implementar, establece una línea base clara: cuenta los tokens de tu prompt de sistema y estima tu volumen mensual de solicitudes. El contador gratuito de tokens de IA te da los recuentos exactos de tokens para cualquier prompt —pega tu mensaje de sistema completo y una entrada de usuario representativa para ver el desglose completo. Luego ejecuta el cálculo de ahorro: tokens en caché × (tarifa estándar - tarifa en caché) × solicitudes mensuales. Ese número es lo que tienes disponible para recuperar con una tarde de trabajo de implementación.

Para la mayoría de las aplicaciones en producción que envían prompts de sistema consistentes, el caché de prompts es la optimización con mayor ROI disponible —mayor que cambiar de modelo, mayor que comprimir prompts, mayor que cambios arquitectónicos. No requiere ningún sacrificio de calidad porque el comportamiento del modelo es idéntico tanto si los tokens provienen del caché como de cómputo nuevo.

Preguntas frecuentes

¿El caché de prompts afecta la calidad o el comportamiento del modelo? No. Los tokens en caché producen exactamente el mismo comportamiento del modelo que el procesamiento normal. El caché almacena el estado interno (caché KV) tras procesar esos tokens —el modelo «ve» la misma información en cualquier caso. No obtendrás respuestas diferentes por usar el caché.

¿Cómo sé si mis prompts se están almacenando realmente en caché? Para OpenAI, comprueba response.usage.prompt_tokens_details.cached_tokens en la respuesta de la API. Un valor mayor que cero significa que se usaron tokens del caché. Para Anthropic, usage.cache_read_input_tokens te dice cuántos tokens se sirvieron desde el caché. Registra estos campos en producción y tendrás datos reales de tasa de aciertos de caché en pocas horas.

¿Puedo almacenar en caché diferentes prompts para diferentes usuarios? Sí, pero solo si el prefijo en caché es el mismo entre usuarios. El patrón habitual es: prompt de sistema estático (almacenable en caché) + contexto específico del usuario (no almacenable en caché) + mensaje del usuario. Almacena en caché el prompt de sistema y envía el contenido específico del usuario sin caché. Si tu prompt de sistema está completamente personalizado por usuario, pierdes el beneficio del caché y deberías reconsiderar la arquitectura de tu prompt.

¿Funciona el caché con respuestas en streaming? Sí. El streaming es un mecanismo de entrega de respuestas y no afecta a si los tokens de entrada se almacenan en caché. Puedes usar streaming para una UX en tiempo real mientras te beneficias de los tokens de entrada en caché.

¿Cuál es el punto de equilibrio para la prima de escritura en caché de Anthropic? Con Anthropic, las escrituras en caché cuestan un 25% más que la entrada estándar. Las lecturas en caché cuestan el 10% del estándar. Si la entrada estándar es $3,00/MTok, una escritura cuesta $3,75/MTok y una lectura cuesta $0,30/MTok. Ahorras $2,70/MTok en cada lectura en caché frente al estándar. La prima de escritura es $0,75/MTok sobre el estándar. El punto de equilibrio es 0,75 / 2,70 = 0,28 lecturas adicionales —lo que significa que solo necesitas una lectura en caché para cubrir el coste de escritura y salir beneficiado. En la práctica, cualquier sistema con más de 2 solicitudes por escritura en caché se beneficia del caché.

Lecturas relacionadas

Sigue aprendiendo

finance

Guía de descuentos en la API por lotes de IA: ahorra un 50% en 2026

Cómo usar las API por lotes de OpenAI y Anthropic para reducir tus costos de IA a la mitad. Incluye los compromisos en latencia, cuándo tiene sentido usar lotes y una guía completa de implementación.

Leer lección →
finance

Cómo calcular el coste de IA por 1.000 solicitudes (Guía 2026)

Calcula el coste de tu API de IA por 1.000 solicitudes en 30 segundos — fórmulas exactas, ejemplos prácticos y una calculadora gratuita para presupuestar cualquier funcionalidad de IA.

Leer lección →
finance

Proyección de costos de IA: marco de presupuestación a 12 meses 2026

Cómo los equipos de finanzas proyectan el gasto en IA para los próximos 12 meses. Un marco paso a paso con plantillas, tablas de costos de modelos y supuestos de crecimiento para defender tu.

Leer lección →