Escolher o modo certo pode melhorar o tempo de resposta, naturalidade e experiência geral da chamada.
1. Pipeline
| Rótulo na UI | Pipeline |
| Como funciona | Fala-para-Texto → LLM → Texto-para-Fala |
| Latência | ~800 – 1500 ms (depende do idioma e modelo) |
| Melhor para | Raciocínio complexo, prompts dinâmicos, respostas com múltiplas frases |
- Suporta todas as vozes da biblioteca (incluindo vozes clonadas personalizadas).
- Lida bem com respostas longas ou em estilo de parágrafo.
- Permite que o LLM injete variáveis e referencie contexto anterior de forma limpa.
Quando escolher Pipeline
- Você precisa de respostas ricas com múltiplas frases (por exemplo, consultas de suporte, explicações detalhadas).
- O assistente deve raciocinar sobre dados estruturados ou prompts complexos.
- Você prefere controle absoluto da voz falada (voz clonada ou de marca).
2. Speech-to-Speech (Multimodal)
| Rótulo na UI | Speech-to-speech |
| Como funciona | Geração direta fala-para-fala (sem texto intermediário) |
| Latência | ~300 – 600 ms (ultra baixa) |
| Melhor para | Conversação natural de ida e volta, respostas curtas e reativas |
- Troca de turnos rápida – chamadores experimentam respostas quase instantâneas.
- Gera prosódia mais expressiva nativamente (entonação, preenchimentos).
- Atualmente suporta um conjunto limitado de vozes, mas mais são adicionadas regularmente.
Quando escolher Speech-to-Speech
- A conversação precisa parecer ágil (vendas, confirmações de reserva).
- Suas respostas são geralmente frases curtas ou reconhecimentos rápidos.
- Você está satisfeito com as opções de voz fornecidas pelo sistema para interação mais rápida.
Speech-to-speech está evoluindo rapidamente. Se você precisa de uma voz clonada personalizada com baixa latência, experimente Dualplex.
3. Dualplex (Beta)
| Rótulo na UI | Dualplex |
| Como funciona | STT multimodal + LLM (fala-para-fala) com saída TTS ElevenLabs |
| Latência | Baixa (varia por voz e modelo) |
| Melhor para | Respostas rápidas e naturais com vozes de alta qualidade/marca (clonadas) |
- Troca de turnos quase instantânea semelhante ao speech-to-speech.
- Acesso à biblioteca de vozes do ElevenLabs, incluindo vozes clonadas personalizadas.
- Ótimo para respostas curtas a médias com prosódia expressiva.
- Padrão recomendado para a maioria dos casos de uso hoje; atualmente em Beta.
Quando escolher Dualplex
- Você quer ida e volta rápida, mas precisa de uma voz de marca ou clonada.
- Você quer entrega mais expressiva sem abrir mão da escolha precisa da voz.
- Você está confortável usando um novo recurso que ainda está em Beta.
Alternando modos
Você pode escolher o modo para cada assistente em Assistente → Configurações → Motor de Voz. Teste os três modos para ver qual oferece o melhor equilíbrio de velocidade e qualidade para seu caso de uso.Dualplex está atualmente rotulado como Beta.
Dica Profissional: Grave duas chamadas – uma em cada modo – e compare a latência percebida pelo chamador e o nível de engajamento para decidir qual se adequa ao seu fluxo.

