Por que treinamos nossos próprios modelos para a telefonia brasileira

Série "IA especializada em telefonia BR", post 1 de 6
Em 2025, processamos mais de 1 milhão de minutos de áudio de telefonia na SipPulse AI. Chamadas reais: 8 kHz, G.711, ruído de rua, sotaque de todo canto do Brasil, gente falando por cima uma da outra. E a lição que esse volume nos deu foi desconfortável: os modelos de nuvem que brilham nos rankings públicos desabam quando o áudio vem do telefone.
Não é um problema de ajuste fino. É um problema de domínio. Os grandes modelos de transcrição, como Whisper, gpt-4o-transcribe, Deepgram e AssemblyAI, foram treinados em palestras, audiobooks, vídeos, leitura em estúdio. Áudio limpo, banda larga, fala preparada. Uma ligação de call center brasileiro não se parece com nada disso: a banda é estreita, o codec comprime, a linha chia, e o português falado ao telefone tem uma dinâmica que nenhum corpus público captura direito.
Por isso decidimos treinar nossos próprios modelos. Não como exercício acadêmico, mas como necessidade de produto. Nossos agentes de voz atendem cobranças, agendamentos e suporte por telefone, todos os dias. Cada ponto de WER (Word Error Rate, a taxa de erro por palavra) a mais é um agente que entende errado um CPF, uma data, um "pode ser na sexta?".
A linha BR-PT
O resultado é uma família de modelos criada para um domínio específico: telefonia em português do Brasil.
- pulse-precision-turbo é o novo motor de reconhecimento de voz, sucessor do pulse-precision-pro. Rápido e preciso, treinado para chamadas reais, e tão eficiente que roda até em CPU. Traz na mesma API diarização estéreo, anonimização de PII, sumarização, análise de sentimento e análises personalizadas, e não alucina, por construção. É o assunto principal desta série: acabamos de medi-lo contra OpenAI, Deepgram, AssemblyAI e ElevenLabs num conjunto privado de 261 trechos de chamadas com transcrição revisada por humanos. Os números vêm no próximo post.
- pulse-streaming-agent é o ouvido dos nossos agentes de voz: um modelo específico para streaming, executado via WebSocket, com VAD embutido e ajuste fino para telefonia e português do Brasil.
- pulse-tts-agent é a voz: menos de 100 ms de latência, usada nos agentes e em narrações.
- pulse-tts-narration é a voz expressiva da linha, para narração com emoção e intenção. Chega no fim de julho, junto com o Voice Designer.
Tudo isso roda em infraestrutura própria: o áudio dos seus clientes é processado no Brasil. Isso não é um detalhe de compliance. Muda a conta de custo (o post 5 desta série é inteiro sobre os tributos de importação que quase ninguém soma) e muda o que se pode prometer em LGPD.
O que esta série vai mostrar
Nos próximos posts: o benchmark honesto e por que rankings de áudio limpo enganam; por que alucinação em transcrição é um problema de arquitetura, não de ajuste; o que significa transcrever 1 hora de áudio em 13 segundos; a conta real de contratar IA de fora do país; e como a linha completa (transcrição, diarização, anonimização, análise e voz) se encaixa numa operação de verdade.
A tese que atravessa tudo: IA de voz para operadora não se aluga de uma API genérica; se embute na infraestrutura de quem opera a rede. O modelo generalista global foi uma fase. A especialização por domínio e por idioma é o que vem depois.
Artigos Relacionados

O benchmark que importa: 261 chamadas reais revisadas por humanos

Alucinação não é bug de ajuste, é arquitetura
