La mayoría de los equipos que construyen funcionalidades de IA se llevan una sorpresa con su primera factura. Hicieron pruebas con unos cientos de solicitudes, los números parecían bien, y al segundo mes alcanzaron 50.000 solicitudes y la factura triplicó sus proyecciones. La fórmula es simple —el error casi siempre está en no medir los recuentos reales de tokens antes de estimar los costes.
La fórmula central del coste de IA por solicitud
Cada llamada a la API de IA tiene dos componentes de coste: tokens de entrada (todo lo que envías al modelo) y tokens de salida (lo que devuelve el modelo). La fórmula del coste por solicitud es:
Coste por solicitud = (Tokens de entrada × Precio por token de entrada) + (Tokens de salida × Precio por token de salida)
Como los precios se cotizan por millón de tokens, se divide entre 1.000.000:
Coste por solicitud = (Tokens de entrada / 1.000.000 × Precio MTok entrada) + (Tokens de salida / 1.000.000 × Precio MTok salida)
Para escalar al coste por 1.000 solicitudes, simplemente se multiplica por 1.000:
Coste por 1K solicitudes = [(Media tokens entrada × Precio MTok entrada) + (Media tokens salida × Precio MTok salida)] / 1.000
Este es el número que va en tu modelo de costes de producto. Ejecuta este cálculo antes de escribir el código de integración, no después de recibir tu primera factura de producción.
Ejemplo práctico: resumen de tickets de soporte al cliente
Imagina que estás construyendo una funcionalidad que resume los tickets de soporte al cliente y sugiere una categoría de resolución. Un prompt típico podría ser:
- Prompt de sistema: 500 tokens (instrucciones, lista de categorías, ejemplos)
- Mensaje del cliente: 200 tokens (longitud media del ticket)
- Total de entrada: 700 tokens
La salida del modelo —un resumen más una categoría— suele ser de aproximadamente 150 tokens.
Ejecutando esto con GPT-5 ($2,50 de entrada / $15,00 de salida por MTok):
- Coste de entrada por solicitud: 700 / 1.000.000 × $2,50 = $0,00175
- Coste de salida por solicitud: 150 / 1.000.000 × $15,00 = $0,00225
- Coste total por solicitud: $0,004
- Coste por 1.000 solicitudes: $4,00
Con 10.000 tickets al mes, eso son $40/mes. Razonable para una funcionalidad seria.
Ahora ejecuta el mismo cálculo con GPT-4.1 Mini ($0,40 de entrada / $1,60 de salida por MTok):
- Entrada: 700 / 1.000.000 × $0,40 = $0,00028
- Salida: 150 / 1.000.000 × $1,60 = $0,00024
- Total: $0,00052 por solicitud
- Coste por 1K solicitudes: $0,52
El modelo más económico maneja la misma tarea a aproximadamente 1/8 del coste. Para una tarea de clasificación con entradas bien estructuradas, la brecha de calidad suele ser mínima. Ese es el cálculo que vale la pena hacer antes de optar por defecto a un modelo de vanguardia.
Usa el contador gratuito de tokens de IA para pegar tu prompt de sistema real y un mensaje representativo, obtener el recuento exacto de tokens y ejecutar esta fórmula con números reales en lugar de estimaciones.
La proporción entrada-salida lo cambia todo
La mayor fuente de error en la estimación de costes es malentender la proporción entrada-salida para tu caso de uso específico. Como los tokens de salida cuestan entre 4 y 10 veces más que los de entrada, una tarea con mucha generación es fundamentalmente diferente de una de extracción.
Tareas de extracción (clasificar, etiquetar, extraer datos estructurados): normalmente 85–95% de entrada, 5–15% de salida. El precio de entrada domina. Elige el modelo más económico que logre una precisión aceptable.
Tareas de resumen (condensar documentos largos): normalmente 80–90% de entrada, 10–20% de salida. Sigue siendo dominante en entrada, pero el coste de salida se vuelve significativo cuando tu modelo es verboso.
Tareas de generación (escribir contenido, redactar respuestas, crear textos): normalmente 30–50% de entrada, 50–70% de salida. El precio de salida se convierte en el factor dominante. Un modelo con entrada barata pero salida cara puede sorprenderte aquí.
Tareas de conversación (chat de múltiples turnos): la proporción cambia en cada turno a medida que crece el historial de la conversación. En el turno 5, una sesión de chat que empezó con un mensaje de 200 tokens puede tener 2.000 tokens de entrada solo por el historial acumulado. Los costes del modelo pueden aumentar entre 3 y 5 veces a lo largo de una sesión larga en comparación con una solicitud nueva.
Medir la proporción real para tu tarea vale la pena hacerlo una vez. Ejecuta entre 50 y 100 solicitudes representativas, registra los recuentos de tokens de entrada y salida, y calcula tu proporción real. Todo lo que viene después —selección de modelo, estimaciones de precios, previsiones de presupuesto— se vuelve más preciso.
Construir una proyección de costes mensuales
Una vez que tienes el coste por 1.000 solicitudes, la fórmula de proyección mensual es:
Coste mensual = (Volumen de solicitudes diarias × 30 × Coste por solicitud)
O de forma equivalente:
Coste mensual = (Solicitudes mensuales / 1.000) × Coste por 1K solicitudes
Para un presupuesto anual realista, añade tres multiplicadores que los equipos con experiencia encuentran sistemáticamente necesarios:
- Margen de crecimiento (+25%): El uso crece a medida que más usuarios descubren la funcionalidad. Planifícalo.
- Sobrecarga de infraestructura (+30%): La orquestación, el monitoreo, el manejo de errores y la lógica de limitación de velocidad añaden llamadas reales a la API que tu estimación inicial no incluye.
- Presupuesto de experimentación (+15%): Probarás nuevos modelos, optimizarás prompts y ejecutarás pruebas A/B. Presupuesta esto como una partida en lugar de dejar que aparezca como un exceso no planificado.
El presupuesto anual realista es aproximadamente 1,7× tu cálculo base. Los equipos que se saltan estos multiplicadores subestiman sistemáticamente el gasto real.
Un punto de referencia aproximado de proyectos de alumnos de NMM: una funcionalidad de SaaS B2B que maneja 50.000 solicitudes al mes con un promedio de 1.500 tokens de entrada y 400 de salida cuesta aproximadamente $200–250/mes con GPT-4.1 Mini, frente a $1.800–2.100/mes con GPT-5. Misma funcionalidad, misma calidad para trabajo de extracción —diferencia de coste de 8–9×.
Cinco factores que inflan los costes reales
La fórmula te da un suelo, no un techo. Esto es lo que añade al número teórico:
1. Tamaño del prompt de sistema. Un prompt de sistema de 2.000 tokens se cobra en cada solicitud. En 100.000 solicitudes mensuales, eso son 200 millones de tokens de entrada solo por el prompt de sistema. El caché de prompts hace esto económico —la entrada en caché de OpenAI cuesta $0,25/MTok frente a $2,50/MTok estándar, una reducción del 90%. Si tu prompt de sistema es grande y estático, almacenarlo en caché es la optimización de costes con mayor efecto disponible.
2. Tokens de razonamiento. Si usas un modelo de razonamiento como o3, o4-mini o DeepSeek R1, el modelo genera tokens internos de «pensamiento» que se contabilizan en el coste de salida. Son invisibles en la respuesta pero muy visibles en tu factura. Una llamada de razonamiento que devuelve 500 tokens de salida visible puede haber generado 3.000 tokens de razonamiento interno cobrados a tarifas de salida.
3. Lógica de reintento. Una tasa de error del 5% con reintentos automáticos significa aproximadamente un 5% más de llamadas a la API de lo que estima tu base. Una tasa de error del 15% en un modelo más barato puede costar más en reintentos de lo que ahorras con las tarifas por token más bajas.
4. Acumulación de contexto en conversaciones. Las aplicaciones de múltiples turnos donde incluyes el historial completo de la conversación crecen en coste con cada turno. Una conversación en el turno 10 envía 9 turnos de historial como entrada en esa llamada. Diseña lógica de truncado o resumen para limitar el tamaño del contexto.
5. Sobrecarga del streaming. Algunas implementaciones transmiten token a token para una UX en tiempo real. El streaming no cambia tu recuento de tokens, pero si tu implementación envía confirmaciones de respuesta parcial o mantiene conexiones abiertas, comprueba que tu capa proxy no añada sobrecarga.
Cuenta tus tokens en 30 segundos
El error más habitual en la planificación de costes de IA es estimar los recuentos de tokens en lugar de medirlos. «Probablemente son unos 500 tokens» es una estimación aproximada que puede diferir en un factor de 3–4 según la estructura del prompt, el idioma, los espacios en blanco y los caracteres especiales.
El contador gratuito de tokens de IA te permite pegar tu prompt de sistema exacto y un mensaje de usuario representativo, y muestra el recuento preciso de tokens, los equivalentes en palabras y caracteres, y una estimación de coste comparativa para GPT-5, GPT-4.1 Mini, Claude Sonnet 4, Gemini 2.5 Flash y otros. Ejecútalo en tus solicitudes del percentil 10, la mediana y el percentil 90 para entender tu distribución de costes —no solo tu caso promedio.
Una vez que tienes los recuentos reales de tokens, la fórmula anterior te da una proyección de costes con base sólida que realmente puedes llevar a una reunión de presupuesto o a una discusión de hoja de ruta de producto.
Preguntas frecuentes
¿Cómo obtengo mis recuentos medios de tokens si aún no he construido la funcionalidad? Ensambla manualmente entre 10 y 20 prompts representativos tal como los enviaría tu aplicación —prompt de sistema más entradas de usuario realistas. Ejecútalos a través de un contador de tokens para obtener los recuentos. Esto lleva entre 20 y 30 minutos y te da una estimación mucho mejor que adivinar. Para los tokens de salida, pide al modelo que complete una serie de solicitudes de muestra y registra lo que devuelve.
¿El ajuste de temperatura del modelo afecta a mis costes de tokens? No. La temperatura controla la aleatoriedad en la salida pero no cambia los recuentos de tokens. Una temperatura más alta puede producir respuestas ligeramente más largas o cortas como efecto secundario de diferentes elecciones de palabras, pero el efecto es de nivel ruido en comparación con las decisiones de diseño del prompt.
¿El procesamiento por lotes siempre es más económico? Sí, si tu caso de uso tolera la latencia. La API Batch de OpenAI procesa solicitudes de forma asíncrona (resultados en 24 horas) con un 50% de descuento sobre el precio estándar. Anthropic ofrece un descuento por lotes similar. Para cualquier tarea que no sea en tiempo real —generación de informes nocturna, enriquecimiento en segundo plano, resúmenes programados— el procesamiento por lotes reduce a la mitad tu coste efectivo por token.
¿Cómo registro el uso de tokens por solicitud en producción?
Todos los proveedores principales devuelven el uso de tokens en la respuesta de la API. OpenAI devuelve usage.prompt_tokens y usage.completion_tokens en cada objeto de respuesta. Regístralos en tu almacén de análisis (Datadog, Mixpanel, tu propia base de datos) y en una semana de despliegue tendrás atribución real de costes por funcionalidad, usuario y tipo de solicitud.
¿Cuál es un objetivo de coste razonable por acción asistida por IA para un producto SaaS B2B? Un punto de referencia aproximado de la experiencia de NMM: la mayoría de los equipos de SaaS B2B fijan el precio de su producto de forma que los costes de IA representen menos del 10–15% de los ingresos por usuario. Si tu plan cobra $50/usuario/mes, mantener los costes de IA por debajo de $5–7,50/usuario/mes es un objetivo saludable. Eso se traduce en aproximadamente 1.000–3.000 acciones de IA por usuario al mes a $0,002–0,005 por acción, según el nivel del modelo.