Direkt zum Inhalt

Wie man ein Konversations-KI-System anleitet

Ein großes Sprachmodell richtig für den Einsatz in einem Konversations-KI-System anzuleiten, kann entscheidend sein.

A split image showing the interior of a circular parking garage on the left and a blue background with radiating black lines on the right.

Heute ist das LLM das Herzstück von Konversations-KI-Systemen. Insbesondere ermöglichen LLMsKonversations-KI — ursprünglich um umfangreiche Telefonbäume herum aufgebaut — dynamische Funktionalität und bieten menschenähnliche Erlebnisse. Allerdings sind LLMs kein Allheilmittel; sie erfordern spezialisierte Anleitungen, da sie nicht standardmäßig auf menschliche Sprache abgestimmt sind.

Entwickler machen oft den Fehler, bei der Anleitung von LLMs für Konversations-KI das gleiche Vorgehen zu verwenden, das zur Schulung menschlicher Mitarbeiter genutzt wurde. Diese Strategie, obwohl sie einfach klingt, ist selten erfolgreich. LLMs treffen andere Annahmen als typische Menschen, und ihr Standardton und -umfang sind nicht für verbale Interaktionen geeignet.

Heute werden wir aufdecken, was wir darüber wissen, wie man LLMs anleitet, um erfolgreiche Konversations-KI-Systeme zu bauen. Sie können auch einen umfassenderen und technischeren Leitfaden zu diesem Thema in denElevenLabs Entwicklerdokumentenlesen.

Das alte System

Vor den LLMs nutzten Konversations-KI-Systeme umfangreiche Logikbäume, durch die Anfragen basierend auf verbalen Eingaben geleitet wurden. Dieses Setup war bei Kundendienstnummern (z. B. Fluggesellschaften) und Zahlungssystemen (z. B. Kreditkarten-Telefondienste) beliebt.

Diese älteren Systeme waren träge, wirkten roboterhaft und erlaubten nur sehr begrenzte menschliche Eingaben. Wahrscheinlich haben Sie selbst erlebt, wie Sie „JA“ in ein Telefon gebrüllt haben, um eine Aufforderung zu beantworten. Diese schlechte Erfahrung führte dazu, dass die meisten Nutzer versuchten, das System zu „überlisten“, um ein Gespräch mit einem menschlichen Agenten zu erzwingen.

Allerdings hatten diese Telefonbäume einen Vorteil — sie waren begrenzt. Es gab nur so viele Wege, die ein Gespräch nehmen konnte, und Entwickler konnten leicht Leitplanken implementieren, um unzulässige Eingaben zu ignorieren. Diese Einschränkung bildet die Grundlage für die Vor- und Nachteile von LLMs: Sie erweitern sich dramatisch über die begrenzte Natur von Telefonbäumen hinaus, sind aber auch unvorhersehbar und öffnen eine Büchse der Pandora voller Fallstricke — wie das Abgeben unmöglicher Versprechen, das Verärgern von Kunden oder das Verletzen sensibler Daten.

Die Standardlücken

Wenn LLMs einfach auf einem ursprünglich für Menschen entwickelten Handbuch trainiert werden, werden sie aufgrund einiger grundlegender Lücken nur mäßigen Erfolg haben. Das Verständnis dieser Lücken hilft Ihnen, Anleitungen zu entwerfen, um sie zu adressieren:

Ton-Mismatch

LLMs werden durch Verstärkungslernen trainiert, bei dem menschliches Feedback LLMs dazu anregt, strukturiertes Feedback zu geben. Insbesondere neigen LLM-Antworten dazu, ausführlich zu sein und mit Aufzählungen, Hervorhebungen und Überschriften gefüllt zu sein.

Im Kontext von Konversations-KI müssen LLMs jedoch die prägnante und flache Natur verbaler Interaktionen nachahmen.

Annahme-Lücken

LLMs neigen dazu, Unbekanntes mit abgeleitetem Wissen zu füllen, anstatt Fragen zu stellen. Dies kann dazu führen, dass sie falsche Annahmen treffen, die Benutzer in die Irre führen oder zu kostspieligen Fehlern führen (z. B. versprochene Rückerstattungen). Später werden wir sehen, wie wir eine Wissensbasis und Leitplanken nutzen können, um die LLMs besser zu verankern und falsche Versprechen und unzulässige Aktionen zu vermeiden.

Latenz

LLMs können programmatisch Funktionsaufrufe ausführen, Daten im Namen von Menschen sammeln und schreiben. Während dies im Allgemeinen einer der größten Vorteile von LLMs ist, bedeutet es auch, dass frühere Schulungsanweisungen, die es Call-Agenten ermöglichten, „Zeit zu gewinnen“, während sie Aufgaben ausführten, nicht mehr benötigt werden. Allerdings sind Funktionsaufrufe auch nicht sofortig, was bedeutet, dass LLMs den Benutzer genau vorwarnen müssen, wann immer eine Verzögerung zu erwarten ist (z. B. „Geben Sie mir einen Moment, um Ihren Fall zu prüfen“).

Konfigurationen

Persönlichkeit

LLMs sind ziemlich erfolgreich darin, den Ton anzupassen, um einem Stil zu entsprechen. Ein LLM könnte so konfiguriert werden, dass es freundlich, humorvoll, prägnant, formell oder eine Kombination von Stilen klingt. Dies ist ein wichtiger Input bei der Anleitung eines LLM.

Zum Beispiel könnten Entwickler einer Konversations-KI-Anwendung für den Kundendienst, die unzufriedene Fluggesellschaftskunden unterstützt, eine Anleitung wie folgt verwenden:

Sie sind ein freundlicher Kundendienstmitarbeiter, der in prägnanten, klaren, einfühlsamen Sätzen spricht.
American
Whispering
Mysterious
Gaming
Lively
Irish
Soothing
Audiobook

Nicole

Format

LLMs müssen explizite Anweisungen erhalten, wie sie antworten sollen. Um sicherzustellen, dass sie keinen zusätzlichen Text einfügen, sollten LLMs eine Struktur erhalten, die die an den Benutzer übermittelte Antwort umfasst.

Zum Beispiel könnten LLMs dazu angeleitet werden:

Antworten Sie ausschließlich mit dem Text, der dem Benutzer vorgelesen werden soll

Dieses Gerüst ermutigt das LLM, eine Antwort zu geben, die zum Vorlesen gedacht ist.

Allerdings können LLMs manchmal bei Dingen stolpern, die sich nicht intuitiv von geschriebenem Inhalt unterscheiden. Ein häufiges Beispiel sind Zahlen — ein LLM könnte eine Postleitzahl wie 10023 ausgeben, was dazu führt, dass dasText-to-SpeechModell „zehntausenddreiundzwanzig“ sagt. Stattdessen sollte das LLM explizit dazu angeleitet werden, die Zahlen einzeln zu sagen und anzugeben, was die Zahlen bedeuten, z. B. „Die Postleitzahl ist eins null null zwei drei.“

Temperatur

Die Temperatur ist ein kritischer Parameter bei der Konfiguration von LLMs für Konversations-KI. Eine niedrigere Temperatur erzeugt fokussiertere, deterministische Antworten, die ideal für aufgabenorientierte Gespräche sind, während höhere Temperaturen kreativere, abwechslungsreichere Antworten erzeugen.

Eine niedrige Temperatur ist ideal für Konversations-KI-Systeme, die konsistente Antworten bevorzugen (z. B. eine Kundendienstlinie für Rückerstattungen). Für Systeme, die ein ansprechenderes undrealistischesGefühl für Kunden bieten möchten (z. B. ein digitaler Coach), ist eine hohe Temperatur besser:

Niedrige Temperatur: Vielen Dank, dass Sie den ElevenLabs-Support angerufen haben. Wie kann ich Ihnen helfen?
Hohe Temperatur: Hey hey! Sie sind beim ElevenLabs-Support gelandet — bereit, Ihre technischen Probleme zu lösen! Was liegt Ihnen auf dem Herzen?

Wissensbasen

Für Konversations-KI-Systeme, die auf größere Wissensreservoirs zugreifen, sollte eine Wissensbasis genutzt werden, um die Länge der Anleitung zu minimieren. In der Produktion wird dies typischerweise über eine Vektordatenbank (wie Pinecone oder Elasticsearch) oder den direkten Wissensspeicher des LLM-Anbieters erreicht.

Im Allgemeinen sind Wissensbasen unerlässlich, um LLM-Antworten in faktisch korrekten, genehmigten Informationen zu verankern. Beim Aufbau eines Konversations-KI-Systems sollten Sie dem LLM eine umfassende Wissensbasis zur Verfügung stellen, die genaue, aktuelle Informationen über Produkte, Dienstleistungen, Richtlinien und Verfahren enthält. Dies verhindert, dass das LLM halluziniert oder Informationen erfindet, und fördert konsistente und zuverlässige Antworten in Gesprächen.

Prozess

Da LLMs oft Funktionen im Namen des Benutzers aufrufen, müssen sie auch wissen, welche Eingaben explizit benötigt werden. Zum Beispiel, wenn die Aufgabe eines LLM darin besteht, einem Benutzer bei der Terminvereinbarung für einen Haarschnitt zu helfen, müssen sie sicherstellen, dass sie haben:

  1. Den Namen des Benutzers
  2. Das gewünschte Datum und die Uhrzeit
  3. Die Adresse des Benutzers
  4. Die Dienstleistungspräferenz des Benutzers

Eine naive Implementierung könnte dazu führen, dass das LLM alle Informationen in einem Gesprächsdurchgang abfragt. Dies ist als Text völlig in Ordnung, kann aber in einem Gespräch überwältigend sein:

Support-Agent: Könnten Sie mir bitte Ihren Namen, Ihre Adresse, wann Sie den Service wünschen und welchen Service Sie möchten, mitteilen?
Kunde: Mein Name ist Mathew und jeder Mittwochnachmittag passt. Was haben Sie noch gefragt?

Da Informationen normalerweise schrittweise über ein Gespräch gesammelt werden, müssen LLMs ermutigt werden, diese Informationen stückweise abzurufen. Das Ergebnis ist ein viel konversationelleres Erlebnis:

Support-Agent: Könnten Sie mir bitte Ihren Namen mitteilen?
Kunde: Mein Name ist Mathew Pregasen.
Support-Agent: Danke, Mathew. Wann möchten Sie einen Termin vereinbaren?
Kunde: Jeder Mittwochnachmittag passt gut.
Support-Agent: Großartig. Kann ich jetzt Ihre Adresse bekommen, um den nächstgelegenen Standort zu finden?
Kunde: 555 West Main Street
Support-Agent: Perfekt. Welche Dienstleistung suchen Sie?
Kunde: Ich suche einen Haarschnitt und wenn Sie auch meinen Bart machen könnten, wäre das großartig!

Leitplanken

Berechtigungen

Beim Aufbau verteilter Systeme gehen Sie davon aus, dass Ihr Server irgendwann abstürzt. Ebenso sollten Sie beim Aufbau von KI-Systemen davon ausgehen, dass Ihr LLM irgendwann einen Fehler macht. Um den Schaden dieses Fehlers zu minimieren, sollten Sie diesen Systemen die geringsten erforderlichen Berechtigungen für die jeweilige Aufgabe geben. Nachfolgend einige Beispiele, wie Sie dies tun können:

  • Lesen/Schreiben-Berechtigungen korrekt setzen: Wenn das LLM nur Informationen aus einer Datenquelle lesen muss, stellen Sie sicher, dass es einen Nur-Lese-Endpunkt erhält.
  • Zugriff auf API-Endpunkte einschränken: Wenn das LLM nur Zugriff auf bestimmte Endpunkte benötigt, stellen Sie sicher, dass es keinen Zugriff auf andere hat.
  • Mensch-in-der-Schleife-Eskalationen: Wenn eine risikoreiche Aktion ausgeführt werden muss, ziehen Sie einen Mensch-in-der-Schleife-Workflow in Betracht, der eine „Managergenehmigung“ erfordert, bevor die Aktion ausgeführt wird.

Validierung und Verifizierung

Beim Erstellen von Konversations-KI-SprachagentenSystemen, die Aktionen durch Werkzeugnutzung ausführen, ist es hilfreich, einen Validierungs- und Verifizierungsprozess einzubauen, um sicherzustellen, dass Sie die richtigen Informationen von Benutzern sammeln. Heute, wenn Sie mit einem menschlichen Agenten sprechen, wiederholen sie alle kritischen Informationen, die Sie geben, um zu überprüfen, ob sie richtig gehört wurden und dass der Kunde sich nicht versprochen hat. LLMs könnten von einem ähnlichen Maß an Fehlerüberprüfung profitieren:

Support-Agent: Großartig. Kann ich jetzt Ihre Adresse bekommen, um den nächstgelegenen Standort zu finden?
Kunde: 555 West Main Street
Support-Agent: Ich habe fünf fünf fünf West Main Street verstanden. Habe ich etwas übersehen?

Zur Validierung sollten alle vom Kunden erhaltenen Informationen mit der typischen Struktur dieser Informationen abgeglichen werden. Hat die Telefonnummer die richtige Anzahl von Ziffern? Liegt das vom Kunden angegebene Alter in einem vernünftigen Bereich? Hat der Kunde eine gültige Adresse angegeben?

Support-Agent: Welche Rückrufnummer wäre gut für Sie?
Kunde: 317-798-97289
Support-Agent: Ich glaube, ich habe mich verhört. Ich habe 11 Zahlen gehört. Könnten Sie das bitte noch einmal wiederholen?

Je nach Anwendungsfall können Sie alle erhaltenen Informationen oder nur Informationen, die die Verifizierung nicht bestanden haben, überprüfen. Zusätzlich können Sie entscheiden, ob Sie jede Information bei ihrem Eintreffen oder alles am Ende verifizieren.

Ein abschließender Gedanke

Ein Konversations-KI-Agenterfolgreich anzuleiten, erfordert das richtige Gleichgewicht zwischen Konfigurationen und Leitplanken, um ein Erlebnis zu schaffen, das einem Gespräch mit einem Menschen mit erhöhter Effizienz ähnelt. Der Prozess ist nicht so trivial wie die Verwendung alter Schulungsmaterialien zur Anleitung eines LLM; stattdessen sind LLMs Werkzeuge, die eine spezialisierte Struktur und Strategie benötigen, um vorhersehbare, effektive Ergebnisse zu erzielen.

Entdecken Sie Artikel des ElevenLabs-Teams

ElevenLabs

AI-Audioinhalte in höchster Qualität generieren

Kostenlos registrieren

Haben Sie bereits ein Konto? Anmelden