Skip to main content
Assistentes de IA na Sua SofIA podem falar em três modos distintos. Cada modo determina como a fala de um chamador é compreendida e como a resposta do assistente é gerada:
Escolher o modo certo pode melhorar o tempo de resposta, naturalidade e experiência geral da chamada.

1. Pipeline

Rótulo na UIPipeline
Como funcionaFala-para-Texto → LLM → Texto-para-Fala
Latência~800 – 1500 ms (depende do idioma e modelo)
Melhor paraRaciocínio complexo, prompts dinâmicos, respostas com múltiplas frases
O modo Pipeline primeiro transcreve as palavras do chamador em texto, executa esse texto através do modelo de linguagem e, em seguida, converte a resposta de volta em áudio. É uma abordagem testada e comprovada que oferece flexibilidade máxima:
  • Suporta todas as vozes da biblioteca (incluindo vozes clonadas personalizadas).
  • Lida bem com respostas longas ou em estilo de parágrafo.
  • Permite que o LLM injete variáveis e referencie contexto anterior de forma limpa.

Quando escolher Pipeline

  1. Você precisa de respostas ricas com múltiplas frases (por exemplo, consultas de suporte, explicações detalhadas).
  2. O assistente deve raciocinar sobre dados estruturados ou prompts complexos.
  3. Você prefere controle absoluto da voz falada (voz clonada ou de marca).

2. Speech-to-Speech (Multimodal)

Rótulo na UISpeech-to-speech
Como funcionaGeração direta fala-para-fala (sem texto intermediário)
Latência~300 – 600 ms (ultra baixa)
Melhor paraConversação natural de ida e volta, respostas curtas e reativas
O modo speech-to-speech ignora transcrição e TTS separados. Em vez disso, usa um modelo multimodal que ouve e fala diretamente, produzindo um fluxo de conversação mais natural:
  • Troca de turnos rápida – chamadores experimentam respostas quase instantâneas.
  • Gera prosódia mais expressiva nativamente (entonação, preenchimentos).
  • Atualmente suporta um conjunto limitado de vozes, mas mais são adicionadas regularmente.

Quando escolher Speech-to-Speech

  1. A conversação precisa parecer ágil (vendas, confirmações de reserva).
  2. Suas respostas são geralmente frases curtas ou reconhecimentos rápidos.
  3. Você está satisfeito com as opções de voz fornecidas pelo sistema para interação mais rápida.
Speech-to-speech está evoluindo rapidamente. Se você precisa de uma voz clonada personalizada com baixa latência, experimente Dualplex.

3. Dualplex (Beta)

Rótulo na UIDualplex
Como funcionaSTT multimodal + LLM (fala-para-fala) com saída TTS ElevenLabs
LatênciaBaixa (varia por voz e modelo)
Melhor paraRespostas rápidas e naturais com vozes de alta qualidade/marca (clonadas)
Dualplex combina a capacidade de resposta do speech-to-speech com as vozes premium e clonagem do ElevenLabs usadas no Pipeline. O assistente usa o modelo multimodal para entender o chamador e planejar a resposta, depois renderiza a fala final através do ElevenLabs para saída consistente e de alta fidelidade.
  • Troca de turnos quase instantânea semelhante ao speech-to-speech.
  • Acesso à biblioteca de vozes do ElevenLabs, incluindo vozes clonadas personalizadas.
  • Ótimo para respostas curtas a médias com prosódia expressiva.
  • Padrão recomendado para a maioria dos casos de uso hoje; atualmente em Beta.

Quando escolher Dualplex

  1. Você quer ida e volta rápida, mas precisa de uma voz de marca ou clonada.
  2. Você quer entrega mais expressiva sem abrir mão da escolha precisa da voz.
  3. Você está confortável usando um novo recurso que ainda está em Beta.

Alternando modos

Você pode escolher o modo para cada assistente em Assistente → Configurações → Motor de Voz. Teste os três modos para ver qual oferece o melhor equilíbrio de velocidade e qualidade para seu caso de uso. Dualplex está atualmente rotulado como Beta.
Dica Profissional: Grave duas chamadas – uma em cada modo – e compare a latência percebida pelo chamador e o nível de engajamento para decidir qual se adequa ao seu fluxo.