Si realizas más de unos miles de llamadas a la API de IA al día, casi con certeza estás dejando dinero sobre la mesa. La API por lotes de OpenAI y la API de lotes de mensajes de Anthropic ofrecen ambas un descuento fijo del 50 %, con la condición de que tus solicitudes se completan en un plazo de 24 horas en lugar de en tiempo real. Para una parte sorprendentemente amplia de las cargas de trabajo en producción, ese intercambio es completamente aceptable.

panel de análisis en monitor panorámico, escritorio de oficina moderna — Photo by Unsplash photographer on Unsplash

Qué es realmente la API por lotes (y qué no es)

Tanto OpenAI como Anthropic tienen endpoints de API independientes diseñados para cargas de trabajo asíncronas de alto volumen. Envías un archivo de solicitudes —hasta 50.000 prompts individuales en el caso de OpenAI— y el proveedor los procesa durante las horas de menor demanda, devolviendo los resultados en un plazo de 24 horas. El descuento en precios es exactamente del 50 % respecto a la tarifa estándar de la API síncrona.

Esta no es una función en fase beta ni un atajo poco conocido. OpenAI puso su API por lotes a disposición general en 2024, y Anthropic la siguió con su API de lotes de mensajes poco después. Ambas son de nivel de producción, con acuerdos de nivel de servicio (SLA), límites de cuota y documentación dedicada.

Lo que el procesamiento por lotes no es: no se trata de una forma más económica de alimentar un chatbot, un widget de traducción en tiempo real ni ninguna función donde el usuario está esperando activamente una respuesta. La ventana de 24 horas es una limitación estricta, no una recomendación flexible. Si tu caso de uso requiere una respuesta en menos de unos segundos, los lotes simplemente no son la herramienta adecuada.

Cuándo tiene sentido financiero usar lotes

El cálculo es directo: si tu gasto mensual en la API es de 2.000 dólares hoy y puedes migrar el 60 % de las solicitudes a lotes, ahorras 600 dólares al mes, es decir, 7.200 dólares al año, sin ningún cambio en la calidad del modelo ni en el formato de salida. Antes de asumir que tus cargas de trabajo no pueden tolerar el procesamiento asíncrono, analiza para qué estás llamando realmente a la API.

Cargas de trabajo habituales que son genuinamente asíncronas y aptas para lotes:

Pipelines de enriquecimiento de contenido: etiquetar, clasificar o resumir documentos existentes de forma nocturna
Generación de metadatos SEO: título, descripción y marcado de esquema generados para un catálogo de productos según un calendario
Análisis de sentimientos: puntuación de comentarios de clientes, reseñas o tickets de soporte que no necesitan una valoración instantánea
Enriquecimiento de leads: generación de resúmenes de empresas o investigación de contactos para registros de CRM añadidos durante el día
Generación de informes: elaboración de secciones redactadas por IA para informes semanales que se publican el lunes por la mañana

Según nuestra experiencia con los estudiantes de NMM que gestionan sistemas de IA en producción, aproximadamente entre el 40 y el 60 % del volumen de sus llamadas a la API puede migrar a lotes sin ningún impacto para el usuario final. Eso es una reducción significativa. Para entender el panorama completo de costos antes y después, usa el Contador de tokens de IA gratuito para medir tu consumo real de tokens por tarea y estimar el costo de lotes frente a sincrónico con tu volumen actual.

API por lotes de OpenAI: guía de implementación

La API por lotes de OpenAI usa archivos .jsonl —un objeto JSON por línea, cada uno representando una única solicitud a la API—. Esta es la estructura mínima:

{"custom_id": "req-001", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "gpt-4o-mini", "messages": [{"role": "user", "content": "Resume esto: <texto>"}], "max_tokens": 200}}

Paso 1: crea tu archivo JSONL. Cada línea recibe un custom_id único —así es como relacionas las salidas con las entradas—. Usa IDs con significado (p. ej., producto-sku-1234) en lugar de enteros secuenciales.

Paso 2: sube el archivo. Usa el endpoint /v1/files con purpose: "batch". La API devuelve un file_id.

Paso 3: envía el lote. Haz un POST a /v1/batches con tu file_id, endpoint: "/v1/chat/completions" y completion_window: "24h". Recibirás un batch_id de inmediato.

Paso 4: consulta el estado. Haz un GET a /v1/batches/{batch_id} para verificar el estado. Cuando status sea "completed", la respuesta incluirá un output_file_id.

Paso 5: descarga los resultados. Haz un GET a /v1/files/{output_file_id}/content para obtener el JSONL de salida. Cada línea se vincula de nuevo a tu custom_id.

El ciclo completo para un lote de 10.000 solicitudes suele completarse en 2 a 6 horas en la práctica, muy dentro de la ventana de 24 horas. Configura tu pipeline para comprobar el estado cada 30 minutos en lugar de hacer consultas agresivas.

desarrollador revisando código en laptop, configuración de oficina en casa — Photo by Unsplash photographer on Unsplash

Lotes de mensajes de Anthropic: diferencias clave

La implementación de Anthropic es conceptualmente idéntica, pero tiene algunas diferencias estructurales que vale la pena conocer. Los lotes se envían como un array JSON (no como un archivo .jsonl), donde cada elemento contiene un custom_id y un objeto params que refleja el cuerpo estándar de la solicitud a /v1/messages. El endpoint es /v1/messages/batches.

Los precios de Anthropic siguen el mismo principio de descuento del 50 %. A mediados de 2026, Claude 3.5 Haiku mediante lotes cuesta 0,40 dólares por millón de tokens de entrada frente a 0,80 dólares en modo síncrono. Claude 3.5 Sonnet baja de 3,00 a 1,50 dólares por millón de tokens de entrada en modo por lotes. A escala, esas cifras se acumulan rápidamente.

Una diferencia práctica: la ventana de lotes de Anthropic también es de 24 horas, pero los resultados se transmiten como un flujo de Server-Sent Events al descargarlos, no como una descarga de archivo única. Tu código de recuperación necesita gestionar esto, aunque cualquier librería cliente de SSE lo hace de forma sencilla.

Ambas APIs son compatibles con los mismos modelos disponibles en sus endpoints síncronos, por lo que no renuncias a ninguna capacidad del modelo, solo a la latencia de respuesta.

Gestión de errores y cuotas que debes conocer

Los trabajos por lotes no son inmunes a los errores. Las solicitudes individuales dentro de un lote pueden fallar (por política de contenido, entrada incorrecta o violaciones del límite de contexto) sin que falle todo el lote. El JSONL de salida incluye un campo error para las filas fallidas —procesa siempre los errores por separado de los éxitos—.

La cuota predeterminada de lotes de OpenAI es de 100.000 tokens en cola por modelo por minuto, y el tamaño total de lotes en vuelo está limitado a 200.000 solicitudes o 50 millones de tokens entre todos los lotes pendientes. Si superas estos límites, el envío del lote fallará. Comprueba la cuota de lotes de tu cuenta en «Límites de velocidad» en el panel de OpenAI y solicita aumentos si estás llegando al tope.

Anthropic impone límites por cuenta para los trabajos de lotes simultáneos. Para la mayoría de las cuentas, son 100 solicitudes por llamada de lote y 10 lotes simultáneos. Las cuentas empresariales obtienen límites más altos bajo petición.

Modelar el ahorro real antes de migrar

Antes de refactorizar tu base de código, haz los cálculos. Los costos de tokens varían según el modelo, y el descuento por lotes se aplica de forma uniforme, pero también debes considerar:

Tiempo de ingeniería: refactorizar pipelines síncronos para que sean asíncronos requiere horas reales
Cambios de infraestructura: necesitas una cola de trabajos, un comprobador de estado y almacenamiento de resultados
Casos extremos: ¿qué ocurre cuando falla un trabajo por lotes? Necesitas una ruta alternativa

Un marco de referencia aproximado: si tu gasto mensual en IA en un flujo de trabajo supera los 500 dólares y el cambio de latencia es aceptable, la inversión en ingeniería (normalmente 4-8 horas para un pipeline bien documentado) se recupera en 2-3 meses. Por debajo de los 200 dólares al mes, el retorno de la inversión es marginal a menos que ya cuentes con un sistema de trabajos asíncronos.

Usa el Contador de tokens de IA para obtener una estimación mensual precisa de tokens para cada flujo de trabajo antes de comprometerte con la migración. Introduce la longitud promedio de tu prompt, el volumen de llamadas esperado y el modelo objetivo —la herramienta muestra tanto el costo síncrono como el de lotes, uno junto al otro, para que puedas calibrar la oportunidad con precisión—.

Obtén tu estimación de costos por lotes en 30 segundos

Deja de hacer estimaciones en una hoja de cálculo. Pega un prompt de muestra en el Contador de tokens de IA, introduce tu volumen mensual de llamadas y selecciona tu modelo. La herramienta muestra el precio síncrono actual, el precio efectivo por lotes con un 50 % de descuento y el ahorro anual, todo sin necesidad de registrarte.

Preguntas frecuentes

¿La API por lotes usa la misma calidad de modelo que la API síncrona? Sí. Las solicitudes por lotes se ejecutan sobre los mismos pesos de modelo que las solicitudes en tiempo real. La única diferencia es la programación: tus solicitudes se ponen en cola y se procesan en periodos de menor demanda. La calidad de salida, los límites de longitud de contexto y la compatibilidad con funciones (como la llamada a funciones y el modo JSON) son idénticos.

¿Qué ocurre si mi trabajo por lotes no se completa en 24 horas? OpenAI y Anthropic garantizan la ventana de finalización de 24 horas como parte del contrato de la API. En la práctica, la mayoría de los lotes se completan en 2-8 horas. Si un lote supera las 24 horas —algo poco frecuente y que suele deberse a problemas del lado del servicio—, puedes cancelarlo y volver a enviarlo. Ninguno de los dos proveedores cobra por lotes incompletos o cancelados.

¿Puedo mezclar distintos modelos en un único archivo de lotes? Con OpenAI, cada trabajo de lotes apunta a un único endpoint y modelo —especificas el modelo por solicitud en el cuerpo, por lo que técnicamente puedes mezclar GPT-4o y GPT-4o-mini en un mismo archivo de lotes—. Anthropic también requiere que especifiques el modelo por solicitud. Sin embargo, la contabilidad de facturación y cuota es por modelo, así que verifica que tus límites se apliquen a cada modelo por separado.

¿Existe un tamaño mínimo de lote para obtener el descuento? No hay mínimo. Un lote con una sola solicitud sigue siendo elegible para el 50 % de descuento. En la práctica, enviar solicitudes individuales como lotes de un solo elemento añade latencia innecesaria y complejidad operativa —el descuento solo tiene sentido práctico cuando tienes al menos varias docenas de solicitudes que agrupar—.

¿Cómo gestiono los fallos parciales en un lote grande? Construye tu script de recuperación para separar las filas exitosas de las filas con error al descargar. Para cada custom_id fallido, registra el código de error y vuelve a poner en cola solo esas solicitudes en un lote de seguimiento o a través de la API síncrona. Nunca reenvíes el lote completo: estarías facturando dos veces las solicitudes que ya se completaron con éxito.

Lecturas relacionadas

laptop con gráficos financieros, escritorio limpio y ordenado, gráficos de barras con comparación de costos antes y después — Photo by Unsplash photographer on Unsplash

Guía de descuentos en la API por lotes de IA: ahorra un 50% en 2026

Qué es realmente la API por lotes (y qué no es)

Cuándo tiene sentido financiero usar lotes

API por lotes de OpenAI: guía de implementación

Lotes de mensajes de Anthropic: diferencias clave

Gestión de errores y cuotas que debes conocer

Modelar el ahorro real antes de migrar

Obtén tu estimación de costos por lotes en 30 segundos

Preguntas frecuentes

Lecturas relacionadas

Sigue aprendiendo

Cómo calcular el coste de IA por 1.000 solicitudes (Guía 2026)

Proyección de costos de IA: marco de presupuestación a 12 meses 2026

La fórmula de ROI de IA que todo ejecutivo debe conocer en 2026