
Revolut selects ElevenLabs Agents to bolster customer support
Reducing time to ticket resolution by 8x with multilingual conversational agents.
Unser Streaming-Sprach-zu-Text-Modell mit extrem niedriger Latenz, optimiert für agentische Anwendungsfälle, ist jetzt auf der Agents-Plattform verfügbar.
Diese Woche haben wir
Scribe v2 Realtime transcribes speech in under 150ms with state-of-the-art accuracy, enabling agents to respond as naturally as humans do in conversation.
Die meisten Sprach-zu-Text-Systeme funktionieren gut in sauberen Testumgebungen, haben jedoch Schwierigkeiten in der Realität - bei lauten Hintergründen, unterschiedlichen Akzenten oder Identifikatoren wie Namen, E-Mails und IDs.
Scribe v2 Realtime wurde genau für diese Herausforderungen trainiert.
In internen Benchmarks mit Hunderten von herausfordernden englischen Gesprächsproben mit schlechter Audioqualität, unterschiedlichen Akzenten und Füllwörtern erfasste Scribe v2 Realtime die Benutzerabsicht genauer als jedes konkurrierende Echtzeit-ASR-Modell.
Unten sind ein paar reale Beispiele, bei denen wir die Transkriptionsgenauigkeit von Scribe v2 Realtime in verschiedenen Umgebungen getestet haben.
Als globales Unternehmen mit einem großen Anteil an Agenten, die in Spanisch, Portugiesisch, Hindi und vielen anderen Sprachen eingesetzt werden, war es entscheidend, dass Scribe v2 Realtime in allen Regionen eine erstklassige Leistung beibehält.
Beim FLEURS-Mehrsprachen-Benchmark, der die Genauigkeit in 30 Sprachen misst, erreichte Scribe v2 Realtime die niedrigste Wortfehlerrate (WER) aller ASR-Modelle mit niedriger Latenz.
Dies ermöglicht es Unternehmen, mehrsprachige Agenten einzusetzen, die sofort und genau reagieren, ohne Kompromisse bei Geschwindigkeit oder Präzision einzugehen.
Scribe v2 Realtime ist vollständig in ElevenLabs Agents integriert und kann im Abschnitt Erweiterte Konfiguration aktiviert werden.


Reducing time to ticket resolution by 8x with multilingual conversational agents.
.webp&w=3840&q=95)
Yampa leverages ElevenLabs Flash V2.5 to scale human-like outbound voice agents with ultra-low latency and massive concurrency.