Modos do Assistente

1. Pipeline
Quando escolher Pipeline
2. Speech-to-Speech (Multimodal)
Quando escolher Speech-to-Speech
3. Dualplex (Beta)
Quando escolher Dualplex
Alternando modos

Assistentes de IA na Sua SofIA podem falar em três modos distintos. Cada modo determina como a fala de um chamador é compreendida e como a resposta do assistente é gerada:

Escolher o modo certo pode melhorar o tempo de resposta, naturalidade e experiência geral da chamada.

1. Pipeline


Rótulo na UI	`Pipeline`
Como funciona	Fala-para-Texto → LLM → Texto-para-Fala
Latência	~800 – 1500 ms (depende do idioma e modelo)
Melhor para	Raciocínio complexo, prompts dinâmicos, respostas com múltiplas frases

O modo Pipeline primeiro transcreve as palavras do chamador em texto, executa esse texto através do modelo de linguagem e, em seguida, converte a resposta de volta em áudio. É uma abordagem testada e comprovada que oferece flexibilidade máxima:

Suporta todas as vozes da biblioteca (incluindo vozes clonadas personalizadas).
Lida bem com respostas longas ou em estilo de parágrafo.
Permite que o LLM injete variáveis e referencie contexto anterior de forma limpa.

Quando escolher Pipeline

Você precisa de respostas ricas com múltiplas frases (por exemplo, consultas de suporte, explicações detalhadas).
O assistente deve raciocinar sobre dados estruturados ou prompts complexos.
Você prefere controle absoluto da voz falada (voz clonada ou de marca).

2. Speech-to-Speech (Multimodal)


Rótulo na UI	`Speech-to-speech`
Como funciona	Geração direta fala-para-fala (sem texto intermediário)
Latência	~300 – 600 ms (ultra baixa)
Melhor para	Conversação natural de ida e volta, respostas curtas e reativas

O modo speech-to-speech ignora transcrição e TTS separados. Em vez disso, usa um modelo multimodal que ouve e fala diretamente, produzindo um fluxo de conversação mais natural:

Troca de turnos rápida – chamadores experimentam respostas quase instantâneas.
Gera prosódia mais expressiva nativamente (entonação, preenchimentos).
Atualmente suporta um conjunto limitado de vozes, mas mais são adicionadas regularmente.

Quando escolher Speech-to-Speech

A conversação precisa parecer ágil (vendas, confirmações de reserva).
Suas respostas são geralmente frases curtas ou reconhecimentos rápidos.
Você está satisfeito com as opções de voz fornecidas pelo sistema para interação mais rápida.

Speech-to-speech está evoluindo rapidamente. Se você precisa de uma voz clonada personalizada com baixa latência, experimente Dualplex.

3. Dualplex (Beta)


Rótulo na UI	`Dualplex`
Como funciona	STT multimodal + LLM (fala-para-fala) com saída TTS ElevenLabs
Latência	Baixa (varia por voz e modelo)
Melhor para	Respostas rápidas e naturais com vozes de alta qualidade/marca (clonadas)

Dualplex combina a capacidade de resposta do speech-to-speech com as vozes premium e clonagem do ElevenLabs usadas no Pipeline. O assistente usa o modelo multimodal para entender o chamador e planejar a resposta, depois renderiza a fala final através do ElevenLabs para saída consistente e de alta fidelidade.

Troca de turnos quase instantânea semelhante ao speech-to-speech.
Acesso à biblioteca de vozes do ElevenLabs, incluindo vozes clonadas personalizadas.
Ótimo para respostas curtas a médias com prosódia expressiva.
Padrão recomendado para a maioria dos casos de uso hoje; atualmente em Beta.

Quando escolher Dualplex

Você quer ida e volta rápida, mas precisa de uma voz de marca ou clonada.
Você quer entrega mais expressiva sem abrir mão da escolha precisa da voz.
Você está confortável usando um novo recurso que ainda está em Beta.

Alternando modos

Você pode escolher o modo para cada assistente em Assistente → Configurações → Motor de Voz. Teste os três modos para ver qual oferece o melhor equilíbrio de velocidade e qualidade para seu caso de uso. Dualplex está atualmente rotulado como Beta.

Dica Profissional: Grave duas chamadas – uma em cada modo – e compare a latência percebida pelo chamador e o nível de engajamento para decidir qual se adequa ao seu fluxo.

Ações Pós-Chamada Melhores práticas do assistente

⌘I

Introdução

Primeiros Passos

Visão Geral dos Assistentes de IA

Campaigns

Leads

Dashboards Personalizados

Conversas

WhatsApp Business

Números de Telefone

Chamadas de Entrada

Chamadas de Saída

Design de Prompt de IA & Conversação

Automação & Integrações

Custos & Preços

Provisionamento de Números

Solução de Problemas & FAQs

Modos do Assistente

1. Pipeline

Quando escolher Pipeline

2. Speech-to-Speech (Multimodal)

Quando escolher Speech-to-Speech

3. Dualplex (Beta)

Quando escolher Dualplex

Alternando modos

Introdução

Primeiros Passos

Visão Geral dos Assistentes de IA

Campaigns

Leads

Dashboards Personalizados

Conversas

WhatsApp Business

Números de Telefone

Chamadas de Entrada

Chamadas de Saída

Design de Prompt de IA & Conversação

Automação & Integrações

Custos & Preços

Provisionamento de Números

Solução de Problemas & FAQs

​1. Pipeline

​Quando escolher Pipeline

​2. Speech-to-Speech (Multimodal)

​Quando escolher Speech-to-Speech

​3. Dualplex (Beta)

​Quando escolher Dualplex

​Alternando modos

1. Pipeline

Quando escolher Pipeline

2. Speech-to-Speech (Multimodal)

Quando escolher Speech-to-Speech

3. Dualplex (Beta)

Quando escolher Dualplex

Alternando modos