Guia de Início Rápido
Pronto para configurar seu primeiro assistente de IA? Aqui está o fluxo essencial:- Escolha a Direção da Chamada: Entrada (atende chamadas) ou Saída (faz chamadas)
- Defina o Nome do Assistente: Rótulo interno como “Bot de Suporte” ou “Bot de Vendas”
- Configure Números de Telefone: Atribua números da plataforma, SIP ou ID de Chamador
- Selecione Voz e Idioma: Escolha entre vozes integradas ou clone vozes personalizadas
- Ajuste Configurações Avançadas: Ajuste modelos, temporização e parâmetros de áudio
Siga esta página seção por seção para configurar seu assistente. Cada configuração inclui explicações detalhadas e melhores práticas para ajudá-lo a fazer as escolhas certas.
Direção da Chamada e Configuração Básica
Tipo de Assistente
Escolha se seu assistente gerencia chamadas de entrada ou de saída. Esta escolha fundamental afeta quais outras opções ficam disponíveis. Entrada (Receber chamadas): Gerencia chamadas recebidas de clientes. Veja Visão geral de chamadas de entrada. Saída (Fazer chamadas): Inicia chamadas para leads ou clientes. Veja Visão geral de chamadas de saída.Nome do Assistente
Um nome descritivo para identificar seu assistente no painel. Use algo memorável que descreva o propósito do assistente (ex: “Qualificador de Vendas”, “Bot de Suporte”, “Agendador de Compromissos”).Configuração de Número de Telefone
Seu assistente precisa de um número de telefone para operar. As opções disponíveis dependem da sua escolha de direção de chamada.Para Assistentes de Saída
Você pode usar:- Números da plataforma: Números alugados diretamente da nossa plataforma
- Números SIP: Conecte seu sistema VOIP/PBX existente
- Somente ID de Chamador: Verifique a propriedade de um número existente para exibi-lo em chamadas de saída
Para Assistentes de Entrada
Você pode usar:- Números da plataforma: Números alugados diretamente da nossa plataforma
- Números SIP: Conecte seu sistema VOIP/PBX existente
Preços e Custos
- Números da plataforma: Taxas de aluguel mensal a partir de $3.99/mês. Veja alugar um número dedicado para preços detalhados.
- Integração SIP: Sem taxa mensal, apenas $0.00045/min para ponte de IA. Veja preços de integração SIP.
- ID de Chamador: Sem taxa mensal, taxas por minuto baseadas na região (ex: $0.01/min nos EUA). Veja preços de ID de Chamador.
Tipo de Motor (Modo de Processamento de Voz)
Escolha como sua IA processa a fala e gera respostas. Cada modo é otimizado para diferentes casos de uso. Veja Modos de assistente para comparações detalhadas.Modo Pipeline
Pipeline tradicional Fala-para-Texto → LLM → Texto-para-Fala. Oferece controle máximo sobre seleção de voz e geração de resposta. Melhor para: Raciocínio complexo, chamada de funções, requisitos de voz personalizadaModo Fala-para-Fala
Geração direta de fala para fala sem processamento de texto intermediário. Fornece o fluxo de conversa mais natural. Melhor para: Conversas rápidas, diálogo natural de ida e voltaModo Dualplex (Beta)
Combina processamento multimodal rápido com saída de voz premium ElevenLabs. Melhor para: A maioria dos casos de uso - padrão recomendadoConfiguração de Idioma
Idioma Principal
O idioma principal que seu assistente usará para reconhecimento e síntese de fala. Isso afeta:- Precisão de reconhecimento de fala
- Opções de voz disponíveis
- Frases de áudio de preenchimento
- Seleção de modelo de voz
Idiomas Secundários
Idiomas adicionais que seu assistente pode entender e falar. Útil para:- Suporte ao cliente multilíngue
- Negócios internacionais
- Conversas com alternância de código
Seleção de Voz de IA
Seu assistente pode escolher entre vozes existentes, clonar vozes personalizadas ou solicitar vozes da biblioteca ElevenLabs.Opções de Voz
Você tem três maneiras de obter a voz perfeita para seu assistente: 1. Escolha entre vozes existentes:- Vozes profissionais: Opções pré-treinadas de alta qualidade da ElevenLabs
- Múltiplos sotaques: Disponíveis para a maioria dos idiomas
- Opções de gênero: Vozes masculinas e femininas para cada idioma
- Variedade de tom: De negócios formais a conversação casual
- Amostra de áudio clara e de alta qualidade (1-5 minutos recomendado)
- Formato MP3 ou WAV
- Ritmo e tom de fala consistentes
- Ruído de fundo mínimo
- Mesma voz usada ao longo
- Grave você mesmo ou um dublador lendo texto de amostra
- Faça upload do arquivo de áudio nas configurações do assistente
- Aguarde a conclusão do treinamento (alguns minutos a horas)
- Teste a voz clonada antes de usar em produção
- Consistência de marca com porta-voz da empresa
- Toque pessoal para relacionamentos com clientes
- Combinar voz com persona empresarial específica
Configuração de Fuso Horário
Fuso Horário
Defina o fuso horário em que seu assistente opera. Isso afeta:- Variáveis baseadas em tempo nas conversas
- Funções de agendamento de compromissos
- Referências de “hora atual” em prompts do sistema
- Carimbos de data/hora em logs de chamadas e extração de dados
Configurações de Aprimoramento de Áudio
Som Ambiente
Som de fundo opcional misturado sob a voz do seu assistente para mascarar atrasos de processamento e criar uma experiência de áudio mais natural. Opções:- Nenhum: Sem som de fundo (padrão)
- Escritório: Sons sutis de ambiente de escritório
Áudio de Preenchimento
Frases conversacionais curtas como “mhm”, “ok”, “Eu entendo” que tocam durante o tempo de processamento da IA. Veja Guia de áudio de preenchimento para detalhes completos.Benefícios
- Elimina silêncios estranhos durante o processamento
- Mantém os chamadores engajados
- Cria fluxo de conversa mais natural
- Reduz taxas de desligamento
Respostas positivas
Respostas positivas
“Ótimo!”, “Perfeito!”, “Super!”
Respostas negativas
Respostas negativas
“Hmm.”, “Entendo.”, “Ok.”
Respostas a perguntas
Respostas a perguntas
“Certo?”, “Sério?”, “Como assim?”
Respostas neutras
Respostas neutras
“Ok.”, “Eu entendo.”, “Entendi.”
Habilite por padrão - a maioria das conversas se beneficia de preenchimentos. Teste com seu público-alvo e ajuste as frases para combinar com a personalidade do seu assistente.
Configurações Avançadas
Seleção de Modelo LLM
Escolha o melhor modelo de linguagem para o modo do seu assistente. Veja Guia de seleção de modelo LLM para recomendações detalhadas. Modelos recomendados por modo:| Modelo | Pontos Fortes | Melhor para |
|---|---|---|
| GPT-5 Mini | Raciocínio balanceado com baixa latência | Modo Pipeline para raciocínio complexo |
| GPT-5 Realtime | Turnos de voz de latência ultra-baixa | Fala-para-Fala e Dualplex |
| GPT-4o | Raciocínio forte e compreensão multimodal | Tarefas complexas (maior latência) |
| Gemini Flash 2.0/2.5 | Ultra-rápido para turnos de voz | Dualplex/Multimodal para latência mínima |
- Velocidade é crítica: Use GPT-5 Realtime ou Gemini Flash 2.0/2.5
- Raciocínio rico necessário: Use GPT-4o ou GPT-5 Mini com áudios de preenchimento para compensar latência
Temperatura LLM
Faixa: 0.0 - 1.0 | Padrão: 0.1 Ajuste o nível de criatividade da IA ao gerar respostas. Valor mais baixo produz melhores resultados de chamada de função.Mais Baixa (0.0-0.3)
Mais estável: Respostas previsíveis, melhor para chamada de função e casos de uso empresariais
Mais Alta (0.7-1.0)
Mais aleatória: Respostas criativas e variadas, bom para conversas casuais
Comportamento especial: Para modelos GPT-5 Mini e GPT-5 Nano no modo Pipeline, a temperatura é automaticamente definida como 1.0 para desempenho ideal.
Configurações de Duração
Controle tempo e limites de chamada para otimizar a experiência do usuário e custos:Intervalo de Re-engajamento
Intervalo de Re-engajamento
Faixa: 7 - 600 segundos | Padrão: 30 segundosA IA tentará re-engajar o usuário se nenhuma resposta for detectada dentro deste tempo.Recomendado: 30-60 segundos para chamadas profissionais.
Duração Máxima da Chamada
Duração Máxima da Chamada
Faixa: 20 - 1200 segundos | Padrão: 600 segundos (10 minutos)A chamada terminará automaticamente se este valor for atingido.Recomendado: 5-10 minutos para qualificação de leads para controlar custos.
Duração Máxima de Silêncio
Duração Máxima de Silêncio
Faixa: 1 - 120 segundos | Padrão: 40 segundosA chamada terminará se o usuário não responder dentro deste tempo.Recomendado: 30-45 segundos para equilibrar paciência com eficiência.
Tempo de Toque
Tempo de Toque
Faixa: 1 - 60 segundos | Padrão: 30 segundosPor quanto tempo a chamada tocará antes de marcar como não atendida. Bom quando você quer evitar correio de voz definindo um valor mais baixo.
Configurações de Proteção de Chamada
Cancelamento de Ruído
Cancelamento de Ruído
Padrão: HabilitadoFiltra o ruído de fundo do chamador para reconhecimento de fala mais claro. Desligue se estiver enfrentando cortes de áudio.
Encerrar Chamada em Correio de Voz
Encerrar Chamada em Correio de Voz
Padrão: HabilitadoEncerra imediatamente a chamada se correio de voz for detectado durante chamadas de saída (economiza custos).
Gravar Chamadas
Gravar Chamadas
Padrão: HabilitadoGrava áudio de chamada para revisão e análise. Garanta conformidade com leis locais de gravação.
Silêncio Inicial Máximo
Silêncio Inicial Máximo
Faixa: 1 - 120 segundos | Padrão: 20 segundos (quando habilitado)Se habilitado, encerra a chamada se não houver primeira resposta do usuário dentro deste tempo. Conta apenas desde o início da chamada até a primeira resposta do usuário.Caso de uso: Detectar se alguém realmente atendeu o telefone.
Configurações do Sintetizador
Configure parâmetros de voz texto-para-fala para conversas com som natural. Disponível para: Modos Pipeline e Dualplex apenas. O modo Fala-para-Fala usa geração de voz nativa.Parâmetros de Ajuste de Voz
Ajuste as características de voz do seu assistente para desempenho ideal:Estabilidade de Voz
Estabilidade de Voz
Faixa: 0.0 - 1.0 | Padrão: 0.7Configurações mais baixas tornam a voz mais expressiva, mas menos previsível, enquanto configurações mais altas a tornam mais estável, mas menos emocional.
Mais Expressiva (0.0-0.3)
Entrega dinâmica e variada, mas menos previsível
Mais Estável (0.7-1.0)
Consistente e constante, mas menos amplitude emocional
Similaridade de Voz
Similaridade de Voz
Faixa: 0.0 - 1.0 | Padrão: 0.5Determina quão próxima a IA corresponde à voz original. Configurações mais altas potencialmente incluem ruído indesejado da gravação original.
Mais Estável (0.0-0.4)
Áudio mais limpo, mas menos preciso em relação à voz original
Mais Similar (0.6-1.0)
Preciso em relação ao original, mas pode incluir ruído de fundo
Velocidade de Fala
Velocidade de Fala
Faixa: 0.7 - 1.2 | Padrão: 1.0Ajuste a velocidade da fala da IA para compreensão e experiência do usuário ideais.
Mais Lenta (0.7-0.85)
Melhor para informações complexas ou dados demográficos mais velhos
Normal (0.9-1.1)
Ritmo de conversa padrão para a maioria dos casos de uso
Mais Rápida (1.15-1.2)
Conversas rápidas ou cenários sensíveis ao tempo
Configurações do Transcritor
Configure reconhecimento de fala-para-texto para precisão e velocidade ideais. Disponível para: Modo Pipeline apenas. Os modos Fala-para-Fala e Dualplex usam transcrição integrada.Seleção de Provedor
Escolha o melhor transcritor para seu idioma e caso de uso. O provedor que será usado para transcrever a fala do usuário.Azure
Precisão: ⭐⭐⭐⭐
Latência: Mais lentaMelhor para máxima fidelidade de transcrição quando a precisão é crítica.
Gladia
Precisão: ⭐⭐⭐
Latência: Mais rápidaBom equilibrado para a maioria dos idiomas. Suporta configurações multilíngues.
Deepgram
Precisão: ⭐⭐⭐
Latência: Mais rápidaEscolha sólida para inglês e idiomas principais.
Diferentes idiomas, sotaques ou ruído de fundo podem impactar cada provedor de forma diferente. Teste qual tem melhor desempenho para seu idioma específico e configuração de áudio.
Configuração de Endpoint
Detecção de Turno de IA
Usa IA para detectar inteligentemente quando o chamador terminou de falar
Detecção de Atividade de Voz (VAD)
Padrão: Detecção de atividade de voz tradicionalEscolha como a IA detectará o fim da frase do usuário
Detecção de Atividade de Voz (VAD)
Controle quando seu assistente começa e para de falar. Veja Guia de tratamento de interrupções para configuração detalhada de VAD.Sensibilidade de Endpoint
Sensibilidade de Endpoint
Faixa: 0 - 5 segundos | Padrão: 0.5Ajuste o tempo que a IA esperará que o usuário fale após a última palavra. Valores mais baixos tornam a IA mais rápida, valores mais altos são melhores para frases longas do usuário.
- 0 (Mais rápida): Respostas rápidas, mas pode cortar chamadores
- 5 (Mais lenta): Espera mais tempo, reduz interrupções
Sensibilidade de Interrupção
Sensibilidade de Interrupção
Com que facilidade o assistente para quando o chamador fala por cima dele. Controla a sensibilidade para detectar quando um chamador está tentando interromper.
Palavras Mínimas de Interrupção
Palavras Mínimas de Interrupção
Requer pelo menos N palavras do chamador antes de interromper o assistente.
Uso: Impede disparos falsos de ruído de fundo ou sons breves.

