Los equipos de finanzas que nunca han presupuestado el gasto en IA tienen un problema recurrente: los primeros meses parecen baratos, luego un pipeline escala, el uso crece más rápido de lo esperado y el tercer trimestre llega con un 40 % por encima del plan. Construir una proyección de costos de IA a 12 meses que sea defendible no es complicado, pero requiere pensar en el uso de una manera diferente a la de las suscripciones SaaS o el número de empleados.
Por qué los costos de IA son diferentes de otros costos de software
Las herramientas SaaS tienen precios fijos o predecibles: $X por puesto al mes, $Y por GB de almacenamiento, $Z por nivel de funcionalidad. Negocias un contrato, configuras una orden de compra y listo. Los costos de la API de IA son fundamentalmente basados en el consumo y correlacionados con el crecimiento de tu producto — lo que significa que escalan de forma no lineal a medida que aumenta el uso.
Hay tres dinámicas que hacen que los costos de IA sean difíciles de presupuestar sin un marco de trabajo:
El crecimiento del uso se compone. Si construyes una función que llama a GPT-4o una vez por usuario al día, y tu base de usuarios crece un 15 % mes a mes, tu gasto en tokens crece un 15 % mes a mes. Eso parece obvio, pero los equipos frecuentemente presupuestan el volumen del mes 1 y lo extienden sin cambios a lo largo del año.
La longitud de los prompts aumenta gradualmente. Los ingenieros iteran sobre los prompts. Los system prompts crecen a medida que añades manejo de casos extremos. Las ventanas de contexto se llenan a medida que añades recuperación. Un prompt que tenía 800 tokens en enero puede tener 1.400 tokens en septiembre, simplemente por la iteración del producto. Si no contemplas el crecimiento del prompt, tus proyecciones de costos estarán sistemáticamente por debajo.
Las actualizaciones de modelos cambian la curva de costos. Cuando pasas de GPT-4o-mini a GPT-4o para una función, el costo por llamada aumenta aproximadamente 20 veces para los tokens de entrada y 10 veces para los tokens de salida. Aunque estés seguro de que no actualizarás durante 12 meses, tu proyección debería modelar el costo si lo haces — porque los directivos te lo preguntarán.
Los cuatro datos que necesitas antes de presupuestar
Una proyección fiable a 12 meses requiere cuatro cifras para cada flujo de trabajo o función impulsada por IA:
- Tokens promedio por llamada (entrada + salida combinados, desglosados por separado si se usan tarifas de facturación diferentes)
- Volumen de llamadas actual (llamadas por día, semana o mes)
- Tasa de crecimiento de volumen esperada (porcentaje de crecimiento mensual basado en la hoja de ruta del producto o datos históricos)
- Modelo y proveedor objetivo (determina el precio por token)
Puedes obtener el dato 1 ejecutando tus prompts reales en el Contador de tokens de IA, que muestra los recuentos exactos de tokens por modelo. Para los datos 2 y 3, consulta a tu equipo de análisis o ingeniería. Para el dato 4, usa tu modelo actual o el modelo en tu hoja de ruta.
El modelo de proyección
Para cada flujo de trabajo, la fórmula de costo mensual es:
Costo mensual = (Tokens de entrada por llamada × Precio de entrada por millón ÷ 1.000.000
+ Tokens de salida por llamada × Precio de salida por millón ÷ 1.000.000)
× Llamadas mensuales
Y las llamadas mensuales en el mes N son:
Llamadas(N) = Llamadas(Mes 1) × (1 + tasa_de_crecimiento)^(N-1)
Para una proyección a 12 meses, calcula esto para cada mes y suma todos los flujos de trabajo.
Ejemplo: Una función de clasificación de soporte al cliente usa GPT-4o-mini (entrada: 0,15 $/M, salida: 0,60 $/M). La llamada promedio tiene 1.200 tokens de entrada y 300 tokens de salida. El volumen actual es de 2.000 llamadas/día, creciendo un 8 % al mes.
Costo del mes 1: ((1.200 × 0,15) + (300 × 0,60)) ÷ 1.000.000 × 60.000 = (180 + 180) ÷ 1.000.000 × 60.000 = 21,60 $/mes
Costo del mes 12 (con un crecimiento mensual del 8 %, volumen de llamadas ≈ 129.000/día): ≈ 46,60 $/mes
Total a 12 meses para esta sola función: aproximadamente 400-420 dólares.
Escala esto a cinco funciones similares con diferentes tasas de crecimiento y niveles de modelo, y el presupuesto total de IA toma forma.
Tabla de referencia de costos de modelos (mediados de 2026)
Para propósitos de proyección, aquí están los precios de tokens de entrada/salida para los modelos más utilizados a mediados de 2026:
| Modelo | Entrada ($/M tokens) | Salida ($/M tokens) |
|---|---|---|
| GPT-4o | $2,50 | $10,00 |
| GPT-4o-mini | $0,15 | $0,60 |
| GPT-4o (por lotes) | $1,25 | $5,00 |
| GPT-4o-mini (por lotes) | $0,075 | $0,30 |
| Claude 3.5 Sonnet | $3,00 | $15,00 |
| Claude 3.5 Haiku | $0,80 | $4,00 |
| Claude Sonnet (por lotes) | $1,50 | $7,50 |
| Claude Haiku (por lotes) | $0,40 | $2,00 |
| Gemini 1.5 Flash | $0,075 | $0,30 |
| Gemini 1.5 Pro | $1,25 | $5,00 |
Los precios cambian — verifica siempre en las páginas de precios del proveedor antes de finalizar un presupuesto. Estas cifras son un punto de referencia aproximado para la planificación direccional.
Construcción de la hoja de cálculo de presupuesto
Estructura tu hoja de cálculo de proyección con una pestaña por flujo de trabajo y un resumen consolidado. Cada pestaña de flujo de trabajo debe contener:
- Sección de datos de entrada: tokens/llamada (entrada y salida por separado), llamadas diarias actuales, tasa de crecimiento mensual, selección de modelo, precios actuales por token
- Tabla de proyección mensual: 12 filas, una por mes. Columnas: volumen de llamadas, costo mensual, costo acumulado
- Columnas de escenarios: caso base (tasa de crecimiento actual), caso conservador (la mitad de la tasa de crecimiento), caso optimista (2 veces la tasa de crecimiento)
La pestaña de resumen consolida todos los flujos de trabajo por mes y muestra el gasto total en IA por mes en toda la ventana de proyección.
Añade tres líneas que los equipos suelen olvidar:
- Buffer de inflación de prompts: añade un 15-20 % a tu estimación base de tokens para contemplar el crecimiento de los prompts durante 12 meses
- Escenarios de actualización de modelos: muestra qué le ocurre al costo total si actualizas un nivel (p. ej., de GPT-4o-mini a GPT-4o) en tu flujo de trabajo de mayor volumen
- Costos de errores y reintentos: las llamadas a la API que fallan y se reintentan siguen consumiendo tokens en el primer intento. Presupuesta un 3-5 % de sobrecarga para reintentos.
Cómo establecer correctamente tu línea base de tokens
El error más común en la presupuestación de IA es usar el recuento de tokens incorrecto como línea base. Los equipos frecuentemente estiman los tokens basándose en el recuento de palabras y luego se sorprenden cuando la factura real es entre un 25 y un 40 % más alta, porque olvidaron el system prompt, no contabilizaron el historial de conversación en las funciones de múltiples turnos o usaron el tokenizador de un modelo diferente como referencia.
Usa el Contador de tokens de IA para medir tu prompt real con el tokenizador de tu modelo real — no una estimación. Pega tu system prompt completo más un mensaje de usuario representativo y anota el recuento exacto de tokens de entrada. Haz lo mismo para 10-15 ejemplos representativos para obtener un promedio realista, no solo el caso mediano.
Esa línea base medida, aplicada a tus proyecciones de volumen, produce previsiones que se sostienen cuando tu director financiero pregunta cómo llegaste a la cifra.
Cómo presentar el presupuesto de IA a finanzas
Los equipos de finanzas quieren tres cifras: el total anual del caso base, el escenario al alza (si el crecimiento se acelera) y las palancas de eficiencia disponibles si los costos se disparan. Estructura tu presentación en torno a estos tres resultados:
Caso base: modelo actual, tasa de crecimiento actual, inflación de prompts proyectada. Esta es tu cifra de «no cambiar nada».
Escenario al alza: tasa de crecimiento de 1,5-2 veces, posible actualización de modelo en funciones clave. Este es el techo hasta el que necesitas aprobación para gastar sin volver a pedir re-aprobación.
Palancas de eficiencia: mover X % del volumen a la API por lotes (50 % de ahorro en ese volumen), cambiar el flujo de trabajo Y de GPT-4o a GPT-4o-mini (ahorro de 5-20 veces por llamada), o autoalojar el flujo de trabajo Z con un modelo pequeño después del mes 6 (posible reducción de costos del 60-70 % tras el punto de equilibrio). Preséntalo como escenarios, no como compromisos.
Este enfoque hace que la conversación sea productiva: finanzas entiende el rango, sabe qué está aprobando y conoce las palancas disponibles si los costos se disparan.
Construye tu proyección en 30 segundos
Comienza con tu línea base de tokens. Pega tus prompts reales en el Contador de tokens de IA, obtén los recuentos exactos de tokens por modelo y luego aplica tus supuestos de volumen y crecimiento. La herramienta genera estimaciones de costos por modelo que encajan directamente en tu hoja de cálculo de proyección — sin necesidad de consultas manuales a tablas de precios.
Preguntas frecuentes
¿Cómo debo gestionar los modelos de IA que cobran por solicitud y no por token? Algunos proveedores y servicios wrapper cobran tarifas fijas por solicitud en lugar de por token. Para propósitos de proyección, trata el costo por solicitud como una «tasa de token efectiva» dividiéndolo entre los tokens promedio consumidos. Esto te permite modelar el crecimiento usando el mismo marco. Si el modelo por solicitud tiene límites (p. ej., máximo 2.000 tokens por solicitud), modela tu volumen en el límite, no en el promedio, para evitar subestimar.
¿Cómo contabilizo los costos de la ventana de contexto en conversaciones de múltiples turnos? En una función de chat, cada turno de la conversación añade a la ventana de contexto, por lo que el costo de tokens por llamada aumenta a medida que las conversaciones se alargan. Para modelar esto, calcula la longitud promedio de la conversación en turnos, estima los tokens promedio por turno (incluyendo el historial) y usa un recuento de tokens promedio ponderado. Una conversación de 10 turnos donde cada turno añade 200 tokens significa que el turno final cuesta aproximadamente 2.000 tokens de contexto — 10 veces el primero.
¿Qué tasa de crecimiento debo asumir si estamos antes del lanzamiento? Antes del lanzamiento, usa la tasa de crecimiento temprano de tu producto análogo si tienes uno, o construye un modelo ascendente a partir de tu previsión de adquisición de usuarios: usuarios activos diarios proyectados × llamadas estimadas de IA por usuario activo por día. Si no tienes datos comparables, usa una tasa de crecimiento mensual conservadora del 20 % para los meses 1-3 y del 10 % para los meses 4-12. Es mejor presupuestar en exceso y devolver margen que quedarse sin presupuesto de IA a mitad de año.
¿Debo presupuestar cambios en el precio de los modelos a lo largo de 12 meses? Los precios de los modelos de IA han tendido generalmente a bajar con el tiempo — el precio de GPT-4o-mini bajó significativamente entre su lanzamiento y principios de 2026. Sin embargo, presupuestar asumiendo que los precios bajarán es arriesgado. Usa los precios actuales para tu caso base y muestra un «escenario de bajada de precios» por separado. Si los precios bajan, tendrás margen en el presupuesto; si no bajan, estás cubierto.
¿Cómo hago seguimiento del gasto real en IA frente a mis proyecciones mes a mes? El panel de la API de OpenAI proporciona informes de uso por modelo y fecha. Anthropic tiene informes similares en «Uso» en la consola. Expórtalos mensualmente, mapéalos a tus totales proyectados por flujo de trabajo (necesitarás etiquetar las solicitudes con identificadores de flujo de trabajo en tu código) e identifica cualquier línea que supere el 20 % del gasto proyectado — esa es tu alerta temprana para un pipeline desbocado.
Lecturas relacionadas
- Contador de tokens de IA — mide el uso de tokens y modela tus costos mensuales
- Guía de descuentos en la API por lotes de IA — reduce los costos proyectados un 50 % en cargas de trabajo asíncronas
- Fórmula de ROI de IA para ejecutivos