Infra Telecom

1 hora de áudio em 13 segundos, e por que a CPU importa mais que a GPU

SipPulse - Equipe Tecnica3 de julho de 20263 min de leitura

Série "IA especializada em telefonia BR", post 4 de 6

RTF é a métrica mais direta de velocidade em transcrição: tempo de processamento dividido pela duração do áudio. RTF 1,0 significa transcrever em tempo real; menor é melhor. O pulse-precision-turbo mede RTF 0,004 em GPU: 1 hora de áudio em ~13 segundos.

Para comparar, tempo para transcrever 1 hora de áudio, medido no mesmo estudo:

→ pulse-precision-turbo (GPU): 13 s
→ pulse-precision-turbo (CPU): 3,0 min
→ OpenAI Whisper large-v3 (GPU): 5,3 min
→ OpenAI gpt-4o (API): 6,0 min
→ ElevenLabs (API): 9,9 min
→ Deepgram (API): 13,2 min

O número da GPU chama atenção, mas o que muda a economia do produto é o da CPU: mesmo sem GPU nenhuma, o turbo faz 1 hora em ~3 minutos, mais rápido que o Whisper large-v3 rodando em GPU. RTF 0,051 em hardware comum de servidor.

Por que isso muda a conta

Quem processa milhares de horas de áudio por mês vive espremido entre duas dependências: hardware caro (GPU) ou tarifa por minuto de um terceiro. O turbo em CPU quebra as duas ao mesmo tempo. Dá para dimensionar um pipeline de transcrição em massa (auditoria de call center, analytics de 100% das chamadas, backlog histórico) em servidores que a operadora já tem.

E há três propriedades econômicas que a velocidade sozinha não conta:

Custo previsível. O gpt-4o-transcribe é cobrado por tokens de áudio e de saída; o custo real varia com quanto se fala. O pulse-precision-turbo tem custo fixo por minuto. Orçamento de transcrição vira multiplicação, não estimativa.

Custo marginal decrescente. Rodando em GPU própria, o custo por minuto cai com o volume, sem depender da tabela de preço de um terceiro, e sem o risco de essa tabela mudar no meio do ano fiscal.

Sem alucinação cara. Como vimos no post anterior: uma transcrição inventada num resumo de atendimento ou numa esteira de compliance custa muito mais que centavos por minuto. Velocidade e precisão baratas não valem nada se o texto não é confiável.

Um detalhe de método: os tempos das APIs acima incluem rede, porque é assim que você as consome. Os do turbo são de infraestrutura local, que é como você o consome. A comparação é justa porque compara os dois modelos de implantação como eles existem na prática. A especificação do hardware das medições (GPU e CPU) acompanha o relatório completo, disponível para quem quiser conferir.

No próximo post, a parte da conta que quase ninguém soma: o que acontece com o preço de tabela de uma API estrangeira quando a Receita Federal entra na história.

1 hora de áudio em 13 segundos, e por que a CPU importa mais que a GPU

Por que isso muda a conta

Artigos Relacionados

Por que treinamos nossos próprios modelos para a telefonia brasileira

O benchmark que importa: 261 chamadas reais revisadas por humanos

Alucinação não é bug de ajuste, é arquitetura