
Revolut selects ElevenLabs Agents to bolster customer support
Reducing time to ticket resolution by 8x with multilingual conversational agents.
Crear prompts adecuados para un modelo de lenguaje grande en un sistema de IA Conversacional puede marcar la diferencia.
Hoy en día, el LLM se ha convertido en el corazón de los sistemas de IA conversacional. Específicamente, los LLMs permiten que la IA conversacional — originalmente construida alrededor de extensos árboles telefónicos — ofrezca funcionalidad dinámica y proporcione experiencias similares a las humanas. Sin embargo, los LLMs no son una solución mágica; requieren prompts especializados ya que no están ajustados por defecto al habla humana.
Los desarrolladores cometen un error común al crear prompts para LLMs en IA conversacional: reciclar el mismo enfoque que se usó para entrenar a empleados humanos. Esta estrategia, aunque parece sencilla, rara vez es fructífera. Los LLMs hacen suposiciones diferentes a las de los humanos típicos, y su tono y alcance por defecto no son adecuados para interacciones verbales.
Hoy, descubriremos lo que sabemos sobre cómo crear prompts para LLMs y construir sistemas de IA conversacional exitosos. También puedes leer una guía más completa y técnica sobre este tema en la documentación para desarrolladores de ElevenLabs.
Antes de los LLMs, los sistemas de IA conversacional utilizaban extensos árboles lógicos que gestionaban las solicitudes basándose en entradas verbales. Este sistema era popular entre los números de atención al cliente (por ejemplo, líneas aéreas) y sistemas de pago (por ejemplo, servicios telefónicos de tarjetas de crédito).
Estos sistemas antiguos eran lentos, parecían robóticos y solo permitían entradas humanas muy limitadas. Es probable que hayas experimentado esto, gritando “SÍ” al teléfono para responder a un prompt. Esta mala experiencia llevó a la mayoría de los usuarios a intentar “vencer al sistema” para forzar una conversación con un agente humano.
Sin embargo, había una ventaja en estos árboles telefónicos: estaban contenidos. Había un número limitado de caminos que una conversación podía tomar, y los desarrolladores podían implementar fácilmente límites para ignorar entradas no permitidas. Esta restricción subraya los pros y contras de los LLMs: se expanden dramáticamente más allá de la naturaleza limitada de los árboles telefónicos, pero también son impredecibles, abriendo una caja de Pandora de problemas — como hacer promesas imposibles, enfadarse con los clientes o violar datos sensibles.
Si los LLMs se entrenan simplemente con un manual diseñado originalmente para humanos, tendrán un éxito mediocre debido a algunas brechas fundamentales. Entender estas brechas te ayudará a diseñar prompts para abordarlas:
Los LLMs se entrenan mediante aprendizaje por refuerzo, donde la retroalimentación humana incentiva a los LLMs a devolver respuestas estructuradas. Específicamente, las respuestas de los LLM tienden a ser verbosas y llenas de viñetas, bloques destacados y titulares.
Sin embargo, en el contexto de la IA conversacional, los LLMs necesitan emular la naturaleza concisa y directa de las interacciones verbales.
Los LLMs tienden a llenar cualquier desconocido con conocimiento inferido en lugar de hacer preguntas. Esto puede llevarlos a hacer suposiciones incorrectas que desorienten a los usuarios o lleven a errores costosos (por ejemplo, promesas de reembolsos). Más adelante, veremos cómo podemos usar una base de conocimiento y límites para evitar que los LLMs hagan promesas incorrectas y ejecuten acciones no permitidas.
Los LLMs pueden invocar llamadas a funciones programáticamente, recopilando y escribiendo datos en nombre de los humanos. Aunque generalmente esta es una de las mayores ventajas de los LLMs, también significa que las instrucciones de entrenamiento anteriores, que permitían a los agentes de llamadas “ganar tiempo” mientras realizaban tareas, ya no son necesarias. Sin embargo, las llamadas a funciones tampoco son instantáneas, lo que significa que los LLMs deben advertir con precisión al usuario siempre que se espere un retraso (por ejemplo, “dame un momento para examinar tu caso”).
Los LLMs son bastante exitosos al ajustar el tono para coincidir con un estilo. Un LLM podría configurarse para sonar amigable, humorístico, conciso, formal o una combinación de estilos. Este es un input importante al crear un prompt para un LLM.
Por ejemplo, los desarrolladores de una aplicación de IA conversacional de servicio al cliente diseñada para apoyar a clientes descontentos de aerolíneas podrían usar un prompt como:
Nicole
Los LLMs necesitan recibir instrucciones explícitas sobre cómo responder. Para asegurarse de que no incluyan texto adicional, se debe proporcionar a los LLMs una estructura que encapsule la respuesta que se pasa al usuario.
Por ejemplo, se podría pedir a los LLMs que:
Esta estructura anima al LLM a proporcionar una respuesta diseñada para ser hablada en voz alta.
Sin embargo, los LLMs a veces pueden tropezar con cosas que podrían no diferir intuitivamente del contenido escrito. Un ejemplo común son los números: un LLM podría imprimir un código postal como 10023, lo que hará que el modelo de texto a voz diga, “diez mil veintitrés.” En su lugar, se debe indicar explícitamente al LLM que diga los números individualmente, señalando lo que significan, por ejemplo, “El código postal es uno cero cero dos tres.”
La temperatura es un parámetro crítico al configurar LLMs para IA conversacional. Una temperatura baja produce respuestas más enfocadas y deterministas, ideales para conversaciones orientadas a tareas, mientras que temperaturas más altas crean respuestas más creativas y variadas.
Una temperatura baja es ideal para sistemas de IA conversacional que prefieren respuestas consistentes (por ejemplo, una línea de servicio al cliente para reembolsos). Mientras tanto, para sistemas que quieren proporcionar una experiencia más atractiva y realista a los clientes (por ejemplo, un entrenador digital), una temperatura alta es mejor:
Para sistemas de IA conversacional que acceden a grandes reservas de conocimiento, se debe utilizar una base de conocimiento para minimizar la longitud del prompt. En producción, esto se logra típicamente a través de una base de datos vectorial (como Pinecone o Elasticsearch) o el almacén de conocimiento directo del proveedor de LLM.
En general, las bases de conocimiento son esenciales para fundamentar las respuestas de los LLM en información factual y aprobada. Al construir un sistema de IA conversacional, debes proporcionar al LLM una base de conocimiento completa que contenga información precisa y actualizada sobre productos, servicios, políticas y procedimientos. Esto evita que el LLM imagine o invente información mientras fomenta respuestas consistentes y confiables en las conversaciones.
Debido a que los LLMs a menudo invocan funciones en nombre del usuario, también necesitan saber qué entradas son necesarias explícitamente. Por ejemplo, si el trabajo de un LLM es ayudar a un usuario a programar una cita para un corte de pelo, necesitarán asegurarse de tener:
Una implementación ingenua podría resultar en que el LLM pida toda la información en un solo turno de la conversación. Esto está perfectamente bien como texto, pero en una conversación, puede ser abrumador:
Debido a que la información generalmente se recopila de manera incremental a través de la conversación, se debe animar a los LLMs a obtener esta información de manera fragmentada. El resultado es una experiencia mucho más conversacional:
Al construir sistemas distribuidos, asumes que tu servidor fallará en algún momento. De igual manera, al construir sistemas de IA, debes asumir que tu LLM cometerá un error en algún momento. Para minimizar el impacto de ese error, debes dar a estos sistemas los permisos más bajos necesarios para el trabajo en cuestión. A continuación, algunos ejemplos de cómo puedes hacer esto:
Al crear sistemas de agente de voz IA que toman acciones mediante el uso de herramientas, es útil construir un proceso de validación y verificación para asegurarte de que estás recopilando la información correcta de los usuarios. Hoy en día, cuando hablas con un agente humano, repiten cualquier información crítica que les das para verificar que la escucharon correctamente y que el cliente no se equivocó al hablar. Los LLMs podrían beneficiarse de un nivel similar de verificación de errores:
Para la validación, cualquier información recibida del cliente debe verificarse contra la estructura típica de esa información. ¿El número de teléfono tiene el número correcto de dígitos? ¿La edad dada por el cliente está dentro de un rango razonable? ¿El cliente proporcionó una dirección válida?
Dependiendo de tu caso de uso, puedes verificar toda la información recibida o solo la información que falló en la verificación. Además, puedes decidir verificar cada pieza de información a medida que llega o verificar todo al final.
Crear prompts exitosos para un sistema de agente de IA implica equilibrar las configuraciones y límites adecuados para generar una experiencia que emule hablar con un humano con mayor eficiencia. El proceso no es tan trivial como usar materiales de entrenamiento antiguos para crear un prompt para un LLM; en cambio, los LLMs son herramientas que necesitan una estructura y estrategia especializadas para crear resultados predecibles y efectivos.

Reducing time to ticket resolution by 8x with multilingual conversational agents.
.webp&w=3840&q=95)
Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.