Cada vez que pagas una factura de la API de IA, estás pagando por tokens —pero la mayoría de los desarrolladores y profesionales no pueden definir con precisión qué es un token. Esa brecha genera problemas reales: capacidad de contexto sobreestimada, sorpresas en el presupuesto y prompts que alcanzan los límites de longitud sin previo aviso.

mujer en ordenador de escritorio trabajando con datos y texto, oficina moderna y luminosa con monitor grande — Photo by Unsplash photographer on Unsplash

Qué es realmente un token

Un token es la unidad mínima de texto que procesa un modelo de lenguaje. No es un carácter, ni una palabra, ni una sílaba —aunque los tokens a menudo parecen fragmentos de palabras.

Cuando un texto entra en un modelo de lenguaje, un componente llamado tokenizador lo convierte en una secuencia de enteros. Cada entero corresponde a un token —un fragmento de texto que existe en el vocabulario del modelo. El modelo nunca ve tu texto en bruto directamente; ve una lista de números que se corresponden con fragmentos de texto.

Para prosa en inglés típica, un token corresponde a aproximadamente 0,75 palabras, o unos 4 caracteres. Esa regla general es útil para estimaciones aproximadas, pero la tokenización real varía considerablemente según lo que escribas. Una oración simple como «La reunión empieza a las 9 h» podría tokenizarse así: ["La", " reunión", " empieza", " a", " las", " 9", " h"] —7 tokens para 7 palabras, cerca de la proporción de 0,75. Pero los recuentos de tokens para código, texto en otros idiomas y caracteres especiales se desvían significativamente.

El tamaño del vocabulario también importa. El tiktoken de OpenAI (usado para GPT-4o y GPT-5) utiliza un vocabulario de aproximadamente 100.000 tokens. El tokenizador de Anthropic (usado para Claude) tiene un tamaño similar. Estos vocabularios grandes permiten que las palabras comunes en inglés se correspondan con un único token, mientras que las palabras poco frecuentes o el texto en otros idiomas se dividen en múltiples tokens de sub-palabra.

Cómo se tokenizan los distintos tipos de contenido

Entender las diferencias de tokenización entre tipos de contenido explica mucho del comportamiento contra-intuitivo de los costes de la API.

Prosa estándar en inglés: Alta eficiencia de tokens. Palabras comunes como «the», «is», «at», «of» se corresponden cada una con un solo token. Un párrafo de 500 palabras de texto empresarial suele usar alrededor de 650–700 tokens.

Vocabulario técnico y poco común: Menor eficiencia. Palabras como «cryptocurrency», «immunotherapy» o «photolithography» suelen dividirse en varios tokens. «cryptocurrency» puede tokenizarse como ["crypto", "currency"] —dos tokens para una sola palabra. El contenido con mucha jerga suele ser entre un 20 y un 30% más largo que las proporciones estándar del inglés en tokens.

Código: Significativamente más tokens por carácter que la prosa. El código usa sangría, caracteres especiales, nombres de variables y sintaxis que los tokenizadores no manejan tan eficientemente como el lenguaje natural. Una función de Python de 100 líneas puede tokenizarse en entre 400 y 700 tokens según la complejidad, la densidad de comentarios y el estilo de nomenclatura de variables. Los nombres de variables largos y descriptivos son más caros que los cortos —no es un argumento para nombres crípticos, pero conviene saberlo.

JSON: Normalmente poco eficiente. Los caracteres de estructura JSON ({, }, [, ], :, ") consumen tokens cada uno. El JSON formateado con sangría cuesta entre un 20 y un 30% más que el JSON compacto. Una API bien diseñada que recibe cargas útiles de JSON grandes debería eliminar el formato antes de enviarlas a un LLM.

Scripts no latinos y texto multilingüe: A menudo el tipo de contenido más costoso por carácter visible. El chino, el japonés, el coreano, el árabe y otros scripts no latinos se tokenizan frecuentemente a 2–4 tokens por carácter en lugar de 4 caracteres por token. Esto significa que un texto de 100 palabras en chino puede costar entre 3 y 5 veces más tokens que 100 palabras en inglés. Esto tiene implicaciones reales de coste para las aplicaciones que sirven a usuarios de habla no inglesa.

Números y fechas: Variable. Los números cortos se tokenizan de forma eficiente; las cadenas numéricas largas pueden dividirse inesperadamente. «2026» suele ser un solo token. Un número de teléfono largo o un ID de producto puede tokenizarse carácter por carácter.

manos en el teclado de un portátil trabajando con código, escritorio con taza de café y cuaderno cerca — Photo by Unsplash photographer on Unsplash

Tokens frente a ventanas de contexto

La ventana de contexto es el número máximo de tokens que un modelo puede procesar en una sola solicitud —entrada más salida combinadas. Entender este límite es esencial para diseñar prompts y flujos de trabajo.

GPT-4o tiene una ventana de contexto de 128.000 tokens. Los modelos Claude Sonnet y Opus 4 admiten 200.000 tokens. Gemini 2.0 Flash y Pro admiten hasta 1 millón de tokens (con 2M disponibles en algunas configuraciones). Son números grandes, pero se llenan más rápido de lo que la mayoría espera.

Considera un asistente de documentos basado en RAG: prompt de sistema (500 tokens) + fragmentos de documento recuperados con 10 fragmentos × 1.500 tokens cada uno (15.000 tokens) + historial de conversación con 10 turnos × 600 tokens (6.000 tokens) + pregunta del usuario (100 tokens) = 21.600 tokens antes de que el modelo genere una sola palabra. A $5 por millón de tokens de entrada en GPT-4o, cada consulta cuesta unos $0,108 —en el contexto de miles de usuarios diarios, eso se acumula rápidamente.

La ventana de contexto también determina qué ocurre cuando la superas: la API devuelve un error o (en algunas implementaciones) trunca silenciosamente el contenido más antiguo. Conocer el tamaño medio de tu prompt como recuento de tokens —no como recuento de palabras— te permite planificar esto antes de que cause problemas en producción.

Cómo se conectan los tokens con los costes de la API

Todas las principales APIs de IA cobran por token. Entender la mecánica de facturación evita sorpresas.

La mayoría de los proveedores facturan los tokens de entrada y los de salida por separado, siendo los tokens de salida entre 2 y 5 veces más caros que los de entrada. La razón: generar tokens es computacionalmente más costoso que leerlos. Esta asimetría significa que la estructura de costes premia la salida concisa —un modelo configurado para escribir ensayos de 1.000 palabras por defecto cuesta significativamente más que uno configurado para escribir resúmenes de 200 palabras con densidad de información equivalente.

La facturación también es por token, no por palabra ni por carácter. Si tu prompt contiene 743 tokens, se te facturan exactamente 743 tokens —la facturación de tokens parciales no aplica. La granularidad importa a escala: una reducción de 50 tokens en el prompt de sistema en 100.000 llamadas diarias ahorra 5 millones de tokens de entrada al día.

Para ver exactamente cuántos tokens consumen tus prompts antes de ejecutarlos, pega tu texto en el contador gratuito de tokens de IA —muestra el recuento de tokens para GPT-4o, GPT-3.5 y los esquemas de tokenización de Claude, más una estimación de coste según tu volumen de llamadas especificado.

Por qué la tokenización difiere entre modelos

No todos los modelos de IA usan el mismo tokenizador, y las diferencias importan cuando cambias entre proveedores.

El tiktoken de OpenAI (usado para GPT-4o, GPT-5 y GPT-3.5) y el tokenizador de Anthropic para Claude producen recuentos de tokens ligeramente distintos para el mismo texto —normalmente dentro del 5–15% entre sí para prosa en inglés, pero divergiendo más para código y lenguas no latinas.

Si ejecutas el mismo flujo de trabajo en modelos de OpenAI y Anthropic y comparas costes, usa el tokenizador real de cada uno. Contar tokens de OpenAI y aplicarlos a los precios de Claude (o viceversa) introduce un error sistemático en tus proyecciones de costes.

Esto también importa para los cálculos de la ventana de contexto. Si gestionas el historial de conversación para mantenerte dentro de un límite de contexto, un recuento de tokens de un tokenizador puede infracontar el uso real del otro modelo. El enfoque más seguro es usar la librería del tokenizador oficial de cada modelo —tiktoken para OpenAI, el contador de tokens de Anthropic para Claude.

persona planificando flujo de trabajo en calendario con notas adhesivas, escritorio organizado con pizarra visible al fondo — Photo by Unsplash photographer on Unsplash

Cuenta tus tokens antes de ejecutar los prompts

La brecha entre el recuento estimado de tokens y el recuento real es donde ocurren las sorpresas en el presupuesto de la API. Antes de construir un flujo de trabajo a escala, mide el consumo de tokens de tus prompts reales. Nuestro contador gratuito de tokens de IA muestra el recuento de tokens de cualquier texto que pegues —inglés, código, JSON o multilingüe— junto con una estimación de coste comparativa para GPT-4o, GPT-4o mini y Claude Sonnet según tu volumen esperado de llamadas. Es la forma más rápida de convertir una estimación intuitiva en un número real.

Preguntas frecuentes

¿1 token siempre equivale a 4 caracteres? Eso es una media aproximada para texto estándar en inglés, no una regla precisa. Las palabras comunes en inglés tienden a tokenizarse de forma eficiente, a menudo correspondiéndose con un solo token por palabra. Pero el código, los números, los scripts no latinos y el vocabulario poco común pueden tokenizarse a 1–2 tokens por carácter. Para recuentos precisos, usa el tokenizador real en lugar de la aproximación por caracteres.

¿El modelo cobra tokens por los espacios en blanco y la puntuación? Sí. Todos los caracteres de tu prompt, incluidos los espacios, los saltos de línea y la puntuación, se tokenizan y facturan. Los espacios en blanco adicionales y los caracteres de formato innecesarios añaden a tu recuento de tokens sin añadir valor semántico.

¿Cuántos tokens puedo meter en la ventana de contexto de GPT-4o? GPT-4o admite una ventana de contexto de 128.000 tokens para la entrada y la salida combinadas. Una ventana de contexto de 128.000 tokens contiene aproximadamente 96.000 palabras en inglés —el equivalente a una novela corta. En la práctica, los contextos muy largos también aumentan la latencia y, en el extremo de la ventana, pueden afectar a la capacidad del modelo para recuperar información de principios del contexto.

¿Las imágenes cuentan como tokens? Sí, para los modelos con capacidad de visión. Las imágenes se convierten en tokens a una tasa que depende del tamaño y el nivel de detalle de la imagen. Una imagen de 512×512 suele costar entre 170 y 340 tokens. Las imágenes de alta resolución o con mucho detalle pueden costar más de 1.000 tokens. Por eso las aplicaciones con muchas imágenes deben tener en cuenta el consumo de tokens visuales, no solo de texto.

¿Por qué obtengo a veces recuentos de tokens distintos de diferentes herramientas? Las distintas herramientas pueden usar diferentes versiones del tokenizador. La librería tiktoken de OpenAI es la fuente autorizada para los modelos GPT. La herramienta de recuento oficial de Anthropic es la autoridad para Claude. Los contadores de tokens de terceros pueden aproximar o quedarse detrás de las actualizaciones del tokenizador. Para estimaciones de costes en producción, usa la librería oficial o una herramienta que la integre directamente.

¿Qué es un token en los modelos de IA? Guía completa 2026

Qué es realmente un token

Cómo se tokenizan los distintos tipos de contenido

Tokens frente a ventanas de contexto

Cómo se conectan los tokens con los costes de la API

Por qué la tokenización difiere entre modelos

Cuenta tus tokens antes de ejecutar los prompts

Preguntas frecuentes

Lecturas relacionadas

Sigue aprendiendo

Comparativa de ventanas de contexto de IA 2026: Gemini, GPT, Claude

¿Cuántos tokens hay en una página de texto? Guía completa 2026

Ingeniería de prompts para principiantes: 5 patrones que funcionan en 2026