Gå till innehåll

Nu lanserar vi multimodal Conversational AI

Våra AI-agenter kan nu hantera både talade ord och textinmatning samtidigt, vilket ger mer naturliga, effektiva och flexibla användarupplevelser.

Multimodal

Idag är vi på ElevenLabs glada att kunna presentera en stor förbättring av vår Conversational AI: nu introducerar vi äkta text- och röst-multimodalitet. Våra AI-agenter kan nu förstå och bearbeta både tal och text samtidigt. Det här gör det möjligt att skapa mer naturliga, flexibla och effektiva interaktioner för många olika användningsområden.

Vi löser begränsningar med endast röstbaserade interaktioner

Även om röst är ett kraftfullt och intuitivt sätt att kommunicera, AI-agenter som bara använder röst kan stöta på utmaningar i vissa situationer. Vi har sett vanliga problem i företagsmiljöer, till exempel:

  • Fel vid transkribering: Att fånga in specifika tecken som e-postadresser, ID eller spårningsnummer helt korrekt via röst kan vara svårt. Fel kan leda till problem längre fram, som att fel kunduppgifter används.
  • Användarupplevelse vid komplexa inmatningar: Att be användare säga långa siffersekvenser, som kortnummer, kan vara frustrerande och lätt leda till misstag.

Styrkan i multimodalitet: text och röst tillsammans

Genom att låta agenter hantera både text och röst ger vi användare möjlighet att välja det inmatningssätt som passar bäst. Det här gör samtalen smidigare och mer robusta. Du kan prata som vanligt och när det krävs precision eller känns enklare att skriva, växla till text – allt i samma interaktion.

Viktigaste fördelarna

Att kombinera text och röst ger flera tydliga fördelar:

  • Högre precision i interaktioner: Du kan skriva in information som är svår att säga eller lätt blir fel vid transkribering.
  • Bättre användarupplevelse: Ger flexibilitet och gör att interaktionerna känns mer naturliga, särskilt vid känslig eller komplex datainmatning.
  • Fler slutförda uppgifter: Färre fel och mindre frustration leder till bättre resultat.
  • Mer naturligt samtalsflöde: Lätt att växla mellan olika inmatningssätt, precis som i vanliga samtal.

Viktiga funktioner

Vår multimodala Conversational AI har bland annat dessa funktioner:

  • Samtidig hantering: Agenter kan tolka och svara på både röst- och textinmatning i realtid.
  • Enkel inställning: Textinmatning aktiveras enkelt i widgetens inställningar.
  • Endast text-läge: Agenter kan ställas in att fungera som vanliga textbaserade chattbotar om det behövs.

Smidig integration och driftsättning

Den här nya multimodala funktionen stöds direkt i hela vår plattform:

  • Widget: Kan användas med en enda rad HTML.
  • SDK:er: Fullt stöd för utvecklare som vill integrera på djupet.
  • WebSocket: Realtidskommunikation åt båda håll med multimodala möjligheter.

Bygger vidare på en ledande plattform

Multimodala interaktioner drar nytta av alla innovationer i vår Conversational AI:

  • Branschledande röster: Tillgång till röster av högsta kvalitet på över 32 språk.
  • Avancerade talmodeller: Vi använder den senaste tekniken för både speech-to-text och text-to-speech.
  • Global infrastruktur: Redan tillgänglig överallt med Twilio och SIP-trunking.

Kom igång

Så här börjar du använda text och röst-multimodalitet med dina ElevenLabs Conversational AI-agenter:

  1. Gå till inställningarna för din widget.
  2. Aktivera alternativet "Tillåt textinmatning".

Vi tror att text+röst-multimodalitet kommer att förbättra både funktionalitet och användarupplevelse i Conversational AI. Vi ser fram emot att se hur du använder den här nya möjligheten.

Utforska artiklar av ElevenLabs-teamet

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in