1 hora de áudio em 13 segundos, e por que a CPU importa mais que a GPU

Série "IA especializada em telefonia BR", post 4 de 6
RTF é a métrica mais direta de velocidade em transcrição: tempo de processamento dividido pela duração do áudio. RTF 1,0 significa transcrever em tempo real; menor é melhor. O pulse-precision-turbo mede RTF 0,004 em GPU: 1 hora de áudio em ~13 segundos.
Para comparar, tempo para transcrever 1 hora de áudio, medido no mesmo estudo:
- → pulse-precision-turbo (GPU): 13 s
- → pulse-precision-turbo (CPU): 3,0 min
- → OpenAI Whisper large-v3 (GPU): 5,3 min
- → OpenAI gpt-4o (API): 6,0 min
- → ElevenLabs (API): 9,9 min
- → Deepgram (API): 13,2 min
O número da GPU chama atenção, mas o que muda a economia do produto é o da CPU: mesmo sem GPU nenhuma, o turbo faz 1 hora em ~3 minutos, mais rápido que o Whisper large-v3 rodando em GPU. RTF 0,051 em hardware comum de servidor.
Por que isso muda a conta
Quem processa milhares de horas de áudio por mês vive espremido entre duas dependências: hardware caro (GPU) ou tarifa por minuto de um terceiro. O turbo em CPU quebra as duas ao mesmo tempo. Dá para dimensionar um pipeline de transcrição em massa (auditoria de call center, analytics de 100% das chamadas, backlog histórico) em servidores que a operadora já tem.
E há três propriedades econômicas que a velocidade sozinha não conta:
Custo previsível. O gpt-4o-transcribe é cobrado por tokens de áudio e de saída; o custo real varia com quanto se fala. O pulse-precision-turbo tem custo fixo por minuto. Orçamento de transcrição vira multiplicação, não estimativa.
Custo marginal decrescente. Rodando em GPU própria, o custo por minuto cai com o volume, sem depender da tabela de preço de um terceiro, e sem o risco de essa tabela mudar no meio do ano fiscal.
Sem alucinação cara. Como vimos no post anterior: uma transcrição inventada num resumo de atendimento ou numa esteira de compliance custa muito mais que centavos por minuto. Velocidade e precisão baratas não valem nada se o texto não é confiável.
Um detalhe de método: os tempos das APIs acima incluem rede, porque é assim que você as consome. Os do turbo são de infraestrutura local, que é como você o consome. A comparação é justa porque compara os dois modelos de implantação como eles existem na prática. A especificação do hardware das medições (GPU e CPU) acompanha o relatório completo, disponível para quem quiser conferir.
No próximo post, a parte da conta que quase ninguém soma: o que acontece com o preço de tabela de uma API estrangeira quando a Receita Federal entra na história.
Artigos Relacionados

Por que treinamos nossos próprios modelos para a telefonia brasileira

O benchmark que importa: 261 chamadas reais revisadas por humanos
