Los prompts zero-shot fallan en dos tipos de tareas: cualquier cosa que requiera un formato de salida específico que el modelo no tiene razón para adivinar, y cualquier cosa donde el “tono” o “estilo” predeterminado del modelo no coincida con lo que realmente necesitas. Añadir un ejemplo bien elegido suele resolver ambos problemas a la vez — sin ajuste fino, sin malabarismos con el system prompt, solo una demostración concreta de lo que quieres.

persona, laptop en un escritorio de trabajo ordenado, manos sobre el teclado con documento y notas visibles — Photo by Unsplash photographer on Unsplash

Por qué el zero-shot falla con el formato y el estilo

Cuando le das a un LLM un prompt zero-shot — solo instrucciones, sin ejemplos — el modelo recurre a lo más habitual en su distribución de entrenamiento. Para preguntas generales eso funciona bien. Para cualquier cosa donde tengas requisitos estructurales específicos o una voz distintiva, el modelo elige la interpretación promedio de tu instrucción, que rara vez es lo que quieres.

Considera la diferencia entre “escribe un asunto para un correo en frío” (zero-shot) y proporcionar tres asuntos de ejemplo que ya has escrito o aprobado. Los ejemplos codifican inmediatamente longitud, tono, especificidad y estilo de una manera que párrafos de instrucciones no pueden lograr. El modelo deja de adivinar qué significa “directo pero sin ser agresivo” y empieza a hacer coincidir patrones con evidencia concreta.

La investigación es inequívoca: el prompting few-shot supera consistentemente al zero-shot en tareas de clasificación, extracción, traducción y generación estructurada. La mejora es más pronunciada cuando el formato de salida es poco estándar o cuando el tono es muy específico — dos situaciones que aparecen constantemente en flujos de trabajo reales de marketing, ventas y contenido.

Cuándo un solo ejemplo es suficiente

Un ejemplo (prompting one-shot) suele ser suficiente cuando:

Necesitas una estructura de salida específica y esa estructura es simple (un nivel de jerarquía)
La tarea es de clasificación con categorías claras
Estás aplicando una restricción de formato como JSON, una lista numerada o un patrón de oración fijo

Aquí hay un prompt one-shot real para extraer elementos de acción de notas de reunión:

Extrae los elementos de acción de las siguientes notas de reunión. Formatea cada uno como:
- [Responsable]: [Tarea] para el [Fecha límite]

Ejemplo:
Notas: "Sara actualizará la presentación antes del jueves. Marcos necesita consultar con el área legal antes del lunes."
Elementos de acción:
- Sara: Actualizar la presentación para el jueves
- Marcos: Consultar con el área legal antes del lunes

Ahora extrae de estas notas:
[tus notas aquí]

Un ejemplo es suficiente porque la estructura de salida es simple y la tarea es determinista. Añadir más ejemplos aquí no mejora la precisión — solo añade tokens. Al construir este tipo de prompts de extracción estructurada a escala, el generador gratuito de prompts de IA te permite definir el campo de formato por separado, de modo que tu patrón de extracción sea consistente para distintas entradas sin reescribir el prompt cada vez.

Cuándo necesitas 2–3 ejemplos

Pasa a dos o tres ejemplos cuando:

El estilo de salida importa tanto como la estructura (tono, vocabulario, ritmo de las oraciones)
La tarea implica decisiones de criterio que un solo ejemplo no especifica suficientemente
Trabajas con una categoría que tiene variaciones significativas dentro de ella

Un buen ejemplo de esto: generar descripciones de productos para una marca de comercio electrónico con una voz específica. Un ejemplo podría ser ambiguo entre “esta marca es coloquial” y “este producto particular tiene un enfoque informal”. Tres ejemplos de diferentes categorías de productos confirman que la voz es consistente en distintos contextos, no incidental.

Tres es generalmente el límite práctico antes de que aparezcan los rendimientos decrecientes. Más allá de tres ejemplos, lo más conveniente suele ser mover los ejemplos al system prompt (si usas un modelo de chat) o considerar el ajuste fino si necesitas un estilo consistente a gran volumen. Pasar de cinco ejemplos en el turno del usuario perjudica activamente el rendimiento en algunos modelos — el modelo empieza a promediar entre ejemplos en lugar de emularlos.

equipo, oficina con pizarras y laptops, personas colaborando alrededor de una mesa con documentos impresos — Photo by Unsplash photographer on Unsplash

Cómo elegir los ejemplos correctos

Elegir los ejemplos equivocados es la razón más común por la que el prompting few-shot no cumple las expectativas. Los ejemplos incorrectos confunden al modelo con señales contradictorias o lo anclan demasiado a una interpretación estrecha.

Haz coincidir la distribución de tus entradas reales. Si generas titulares para productos SaaS, tus ejemplos deben ser titulares SaaS, no titulares de productos de consumo B2C. El desajuste de dominio en los ejemplos es sutil pero medible — el modelo derivará hacia el dominio del ejemplo aunque la entrada real sea diferente.

Varía los ejemplos en el espacio de entrada. No uses tres ejemplos casi idénticos. Si estás demostrando un tono, elige ejemplos que cubran diferentes temas. El modelo debe aprender “este tono funciona en todas partes”, no “así se escribe sobre el tema X”.

Mantén los ejemplos representativos, no óptimos. Usar tu mejor pieza de contenido de todos los tiempos como único ejemplo establece un objetivo poco realista. Incluye una combinación de resultados sólidos al nivel de calidad que realmente necesitas producir de forma consistente. Los ejemplos aspiracionales pueden llevar al modelo fuera de la distribución de lo que puede generar de manera confiable.

Elimina de los ejemplos todo aquello que no quieres en el resultado. Si tu ejemplo incluye una frase de cierre que no quieres en producción, el modelo la reproducirá. Los ejemplos son especificaciones, no ilustraciones.

Few-shot vs. cadena de pensamiento: cómo combinarlos

El prompting few-shot y la cadena de pensamiento son complementarios, no competidores. Puedes incluir trazas de razonamiento en tus ejemplos:

Ejemplo:
Entrada: "Nuestra tasa de abandono aumentó del 4% al 7% el último trimestre."
Razonamiento: El redactor necesita reconocer la tendencia negativa sin alarmar a los inversores. Enmarcar como contexto para una respuesta estratégica.
Salida: "La tasa de abandono subió al 7% el trimestre pasado, lo que aceleró nuestra inversión en mejoras de incorporación que ahora están en pruebas."

Ahora procesa esta entrada: [tu entrada]

Esto se denomina few-shot con cadena de pensamiento. Combina la claridad de formato de los ejemplos con el andamiaje de razonamiento del CoT. Es más eficaz que cualquiera de los dos por separado para tareas que requieren tanto un estilo específico como un juicio de múltiples pasos. Para profundizar en el lado CoT, la guía de prompting por cadena de pensamiento cubre las tres variantes que superan a “piensa paso a paso”.

Ejemplos few-shot reales por caso de uso

Clasificación de sentimientos (1-shot):

Clasifica la reseña del cliente como Positiva, Negativa o Neutral.
Ejemplo: "El envío fue lento, pero el producto es exactamente lo que necesitaba." → Neutral
Reseña: [texto de la reseña]

Reescritura con la voz de la marca (3-shot): Proporciona tres pares de [texto original → texto reescrito] que demuestren la voz, luego añade “Ahora reescribe: [nuevo texto].”

Extracción de datos estructurados (1-shot): Muestra un par de entrada/salida con el formato exacto de JSON o tabla, luego pasa la nueva entrada.

Asuntos de correo en frío (2-shot): Dos ejemplos establecen el patrón (longitud, especificidad, ausencia de clickbait). Tres empieza a sentirse redundante para esta tarea.

Crea tus prompts few-shot más rápido

Armar prompts few-shot a mano — formatear los ejemplos, estructurar el separador, redactar instrucciones claras — lleva más tiempo del que debería. El generador de prompts de IA gestiona los campos de Rol, Tarea, Contexto y Formato por separado, lo que encaja perfectamente con la construcción few-shot: el Rol define quién es el modelo, el Contexto contiene tus ejemplos y el Formato define cómo debe ser el resultado. Pruébalo gratis en neuralmindmastery.com/tools/ai-prompt-generator/ — puedes tener un prompt few-shot completo redactado y listo para probar en menos de un minuto.

Si ejecutas prompts few-shot a gran volumen en un pipeline de API, revisa cuidadosamente los recuentos de tokens. Tres ejemplos detallados pueden añadir entre 400 y 800 tokens a cada llamada, lo que se acumula rápidamente a escala.

persona, escritorio con laptop y código en pantalla, primer plano de la pantalla del laptop mostrando texto estructurado — Photo by Unsplash photographer on Unsplash

Preguntas frecuentes

¿Cuántos ejemplos debo incluir en un prompt few-shot? Comienza con uno. Si el formato o el estilo del resultado sigue siendo inconsistente, añade un segundo ejemplo que cubra un caso límite diferente. Tres ejemplos es el máximo práctico antes de que aparezcan rendimientos decrecientes — y en algunos modelos, la calidad puede bajar con cinco o más ejemplos porque el modelo empieza a promediar en lugar de seguir el patrón.

¿Los ejemplos deben ser reales o puedo escribirlos desde cero? Pueden escribirse específicamente para el prompt. De hecho, los ejemplos sintéticos suelen ser mejores que los reales porque puedes controlar exactamente qué señales envían. El único requisito es que representen con precisión el resultado que deseas — no uses ejemplos aspiracionales que sean significativamente mejores de lo que el modelo puede producir de manera confiable.

¿Deben ir los ejemplos few-shot en el system prompt o en el turno del usuario? En modelos de chat (GPT-4o, Claude), poner los ejemplos en el system prompt mantiene limpio el turno del usuario y hace que los ejemplos se apliquen a todos los mensajes de la conversación. Para uso de API de una sola llamada, no importa mucho. Para conjuntos de ejemplos muy largos, el system prompt es preferible porque los modelos han sido entrenados para atenderlo de manera consistente.

¿Por qué mis prompts few-shot funcionan bien en ChatGPT pero mal en Claude? Los distintos modelos fueron entrenados con distribuciones de datos y preferencias de RLHF diferentes. Un conjunto de ejemplos ajustado para GPT-4o puede no transferirse directamente a Claude. La solución es probar dos o tres de tus ejemplos en cada modelo y verificar dónde divergen — normalmente es una convención de tono o formato que los modelos interpretan de manera diferente.

¿Cuándo debo usar el ajuste fino en lugar del prompting few-shot? Usa el ajuste fino cuando necesites un estilo o formato consistente en miles de llamadas y un prompt few-shot en cada llamada se vuelve costoso o poco confiable. El punto de referencia aproximado de los profesionales de NMM: si ejecutas más de 50.000 llamadas al mes con la misma estructura few-shot, el ajuste fino generalmente se paga solo. Por debajo de ese nivel, el prompting few-shot con una plantilla de prompt bien probada es más flexible y fácil de iterar.

Ejemplos de prompting few-shot: cuándo 1–3 ejemplos superan al zero-shot (2026)

Por qué el zero-shot falla con el formato y el estilo

Cuándo un solo ejemplo es suficiente

Cuándo necesitas 2–3 ejemplos

Cómo elegir los ejemplos correctos

Few-shot vs. cadena de pensamiento: cómo combinarlos

Ejemplos few-shot reales por caso de uso

Crea tus prompts few-shot más rápido

Preguntas frecuentes

Lecturas relacionadas

Sigue aprendiendo

ROI del marketing de contenidos con IA: las métricas que importan en 2026

Guía de prompting por cadena de pensamiento: cuándo funciona (2026)

ChatGPT vs Claude para redacción: cuál gana en 2026