
Revolut selects ElevenLabs Agents to bolster customer support
Reducing time to ticket resolution by 8x with multilingual conversational agents.
Ein großes Sprachmodell richtig für den Einsatz in einem Konversations-KI-System anzuleiten, kann entscheidend sein.
Heute ist das LLM das Herzstück von Konversations-KI-Systemen. Insbesondere ermöglichen LLMsKonversations-KI — ursprünglich um umfangreiche Telefonbäume herum aufgebaut — dynamische Funktionalität und bieten menschenähnliche Erlebnisse. Allerdings sind LLMs kein Allheilmittel; sie erfordern spezialisierte Anleitungen, da sie nicht standardmäßig auf menschliche Sprache abgestimmt sind.
Entwickler machen oft den Fehler, bei der Anleitung von LLMs für Konversations-KI das gleiche Vorgehen zu verwenden, das zur Schulung menschlicher Mitarbeiter genutzt wurde. Diese Strategie, obwohl sie einfach klingt, ist selten erfolgreich. LLMs treffen andere Annahmen als typische Menschen, und ihr Standardton und -umfang sind nicht für verbale Interaktionen geeignet.
Heute werden wir aufdecken, was wir darüber wissen, wie man LLMs anleitet, um erfolgreiche Konversations-KI-Systeme zu bauen. Sie können auch einen umfassenderen und technischeren Leitfaden zu diesem Thema in denElevenLabs Entwicklerdokumentenlesen.
Vor den LLMs nutzten Konversations-KI-Systeme umfangreiche Logikbäume, durch die Anfragen basierend auf verbalen Eingaben geleitet wurden. Dieses Setup war bei Kundendienstnummern (z. B. Fluggesellschaften) und Zahlungssystemen (z. B. Kreditkarten-Telefondienste) beliebt.
Diese älteren Systeme waren träge, wirkten roboterhaft und erlaubten nur sehr begrenzte menschliche Eingaben. Wahrscheinlich haben Sie selbst erlebt, wie Sie „JA“ in ein Telefon gebrüllt haben, um eine Aufforderung zu beantworten. Diese schlechte Erfahrung führte dazu, dass die meisten Nutzer versuchten, das System zu „überlisten“, um ein Gespräch mit einem menschlichen Agenten zu erzwingen.
Allerdings hatten diese Telefonbäume einen Vorteil — sie waren begrenzt. Es gab nur so viele Wege, die ein Gespräch nehmen konnte, und Entwickler konnten leicht Leitplanken implementieren, um unzulässige Eingaben zu ignorieren. Diese Einschränkung bildet die Grundlage für die Vor- und Nachteile von LLMs: Sie erweitern sich dramatisch über die begrenzte Natur von Telefonbäumen hinaus, sind aber auch unvorhersehbar und öffnen eine Büchse der Pandora voller Fallstricke — wie das Abgeben unmöglicher Versprechen, das Verärgern von Kunden oder das Verletzen sensibler Daten.
Wenn LLMs einfach auf einem ursprünglich für Menschen entwickelten Handbuch trainiert werden, werden sie aufgrund einiger grundlegender Lücken nur mäßigen Erfolg haben. Das Verständnis dieser Lücken hilft Ihnen, Anleitungen zu entwerfen, um sie zu adressieren:
LLMs werden durch Verstärkungslernen trainiert, bei dem menschliches Feedback LLMs dazu anregt, strukturiertes Feedback zu geben. Insbesondere neigen LLM-Antworten dazu, ausführlich zu sein und mit Aufzählungen, Hervorhebungen und Überschriften gefüllt zu sein.
Im Kontext von Konversations-KI müssen LLMs jedoch die prägnante und flache Natur verbaler Interaktionen nachahmen.
LLMs neigen dazu, Unbekanntes mit abgeleitetem Wissen zu füllen, anstatt Fragen zu stellen. Dies kann dazu führen, dass sie falsche Annahmen treffen, die Benutzer in die Irre führen oder zu kostspieligen Fehlern führen (z. B. versprochene Rückerstattungen). Später werden wir sehen, wie wir eine Wissensbasis und Leitplanken nutzen können, um die LLMs besser zu verankern und falsche Versprechen und unzulässige Aktionen zu vermeiden.
LLMs können programmatisch Funktionsaufrufe ausführen, Daten im Namen von Menschen sammeln und schreiben. Während dies im Allgemeinen einer der größten Vorteile von LLMs ist, bedeutet es auch, dass frühere Schulungsanweisungen, die es Call-Agenten ermöglichten, „Zeit zu gewinnen“, während sie Aufgaben ausführten, nicht mehr benötigt werden. Allerdings sind Funktionsaufrufe auch nicht sofortig, was bedeutet, dass LLMs den Benutzer genau vorwarnen müssen, wann immer eine Verzögerung zu erwarten ist (z. B. „Geben Sie mir einen Moment, um Ihren Fall zu prüfen“).
LLMs sind ziemlich erfolgreich darin, den Ton anzupassen, um einem Stil zu entsprechen. Ein LLM könnte so konfiguriert werden, dass es freundlich, humorvoll, prägnant, formell oder eine Kombination von Stilen klingt. Dies ist ein wichtiger Input bei der Anleitung eines LLM.
Zum Beispiel könnten Entwickler einer Konversations-KI-Anwendung für den Kundendienst, die unzufriedene Fluggesellschaftskunden unterstützt, eine Anleitung wie folgt verwenden:
Nicole
LLMs müssen explizite Anweisungen erhalten, wie sie antworten sollen. Um sicherzustellen, dass sie keinen zusätzlichen Text einfügen, sollten LLMs eine Struktur erhalten, die die an den Benutzer übermittelte Antwort umfasst.
Zum Beispiel könnten LLMs dazu angeleitet werden:
Dieses Gerüst ermutigt das LLM, eine Antwort zu geben, die zum Vorlesen gedacht ist.
Allerdings können LLMs manchmal bei Dingen stolpern, die sich nicht intuitiv von geschriebenem Inhalt unterscheiden. Ein häufiges Beispiel sind Zahlen — ein LLM könnte eine Postleitzahl wie 10023 ausgeben, was dazu führt, dass dasText-to-SpeechModell „zehntausenddreiundzwanzig“ sagt. Stattdessen sollte das LLM explizit dazu angeleitet werden, die Zahlen einzeln zu sagen und anzugeben, was die Zahlen bedeuten, z. B. „Die Postleitzahl ist eins null null zwei drei.“
Die Temperatur ist ein kritischer Parameter bei der Konfiguration von LLMs für Konversations-KI. Eine niedrigere Temperatur erzeugt fokussiertere, deterministische Antworten, die ideal für aufgabenorientierte Gespräche sind, während höhere Temperaturen kreativere, abwechslungsreichere Antworten erzeugen.
Eine niedrige Temperatur ist ideal für Konversations-KI-Systeme, die konsistente Antworten bevorzugen (z. B. eine Kundendienstlinie für Rückerstattungen). Für Systeme, die ein ansprechenderes undrealistischesGefühl für Kunden bieten möchten (z. B. ein digitaler Coach), ist eine hohe Temperatur besser:
Für Konversations-KI-Systeme, die auf größere Wissensreservoirs zugreifen, sollte eine Wissensbasis genutzt werden, um die Länge der Anleitung zu minimieren. In der Produktion wird dies typischerweise über eine Vektordatenbank (wie Pinecone oder Elasticsearch) oder den direkten Wissensspeicher des LLM-Anbieters erreicht.
Im Allgemeinen sind Wissensbasen unerlässlich, um LLM-Antworten in faktisch korrekten, genehmigten Informationen zu verankern. Beim Aufbau eines Konversations-KI-Systems sollten Sie dem LLM eine umfassende Wissensbasis zur Verfügung stellen, die genaue, aktuelle Informationen über Produkte, Dienstleistungen, Richtlinien und Verfahren enthält. Dies verhindert, dass das LLM halluziniert oder Informationen erfindet, und fördert konsistente und zuverlässige Antworten in Gesprächen.
Da LLMs oft Funktionen im Namen des Benutzers aufrufen, müssen sie auch wissen, welche Eingaben explizit benötigt werden. Zum Beispiel, wenn die Aufgabe eines LLM darin besteht, einem Benutzer bei der Terminvereinbarung für einen Haarschnitt zu helfen, müssen sie sicherstellen, dass sie haben:
Eine naive Implementierung könnte dazu führen, dass das LLM alle Informationen in einem Gesprächsdurchgang abfragt. Dies ist als Text völlig in Ordnung, kann aber in einem Gespräch überwältigend sein:
Da Informationen normalerweise schrittweise über ein Gespräch gesammelt werden, müssen LLMs ermutigt werden, diese Informationen stückweise abzurufen. Das Ergebnis ist ein viel konversationelleres Erlebnis:
Beim Aufbau verteilter Systeme gehen Sie davon aus, dass Ihr Server irgendwann abstürzt. Ebenso sollten Sie beim Aufbau von KI-Systemen davon ausgehen, dass Ihr LLM irgendwann einen Fehler macht. Um den Schaden dieses Fehlers zu minimieren, sollten Sie diesen Systemen die geringsten erforderlichen Berechtigungen für die jeweilige Aufgabe geben. Nachfolgend einige Beispiele, wie Sie dies tun können:
Beim Erstellen von Konversations-KI-SprachagentenSystemen, die Aktionen durch Werkzeugnutzung ausführen, ist es hilfreich, einen Validierungs- und Verifizierungsprozess einzubauen, um sicherzustellen, dass Sie die richtigen Informationen von Benutzern sammeln. Heute, wenn Sie mit einem menschlichen Agenten sprechen, wiederholen sie alle kritischen Informationen, die Sie geben, um zu überprüfen, ob sie richtig gehört wurden und dass der Kunde sich nicht versprochen hat. LLMs könnten von einem ähnlichen Maß an Fehlerüberprüfung profitieren:
Zur Validierung sollten alle vom Kunden erhaltenen Informationen mit der typischen Struktur dieser Informationen abgeglichen werden. Hat die Telefonnummer die richtige Anzahl von Ziffern? Liegt das vom Kunden angegebene Alter in einem vernünftigen Bereich? Hat der Kunde eine gültige Adresse angegeben?
Je nach Anwendungsfall können Sie alle erhaltenen Informationen oder nur Informationen, die die Verifizierung nicht bestanden haben, überprüfen. Zusätzlich können Sie entscheiden, ob Sie jede Information bei ihrem Eintreffen oder alles am Ende verifizieren.
Ein Konversations-KI-Agenterfolgreich anzuleiten, erfordert das richtige Gleichgewicht zwischen Konfigurationen und Leitplanken, um ein Erlebnis zu schaffen, das einem Gespräch mit einem Menschen mit erhöhter Effizienz ähnelt. Der Prozess ist nicht so trivial wie die Verwendung alter Schulungsmaterialien zur Anleitung eines LLM; stattdessen sind LLMs Werkzeuge, die eine spezialisierte Struktur und Strategie benötigen, um vorhersehbare, effektive Ergebnisse zu erzielen.

Reducing time to ticket resolution by 8x with multilingual conversational agents.
.webp&w=3840&q=95)
Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.