Por Denys Medvediev

Comparação

Whisper vs Google Speech-to-Text

O Google Cloud Speech-to-Text é uma API para desenvolvedores que você chama a partir do código e paga por minuto. O Whisper, o modelo open-source da OpenAI que nosso app roda na sua própria máquina, foi feito para uma pessoa ditando no Word ou no Slack. Um é encanamento para engenheiros. O outro é uma ferramenta de ditado para desktop.

Última atualização: junho de 2026

Racks de servidores iluminados com um brilho azul em um data center moderno, evocando uma API de transcrição na nuvem

O Google Cloud Speech-to-Text é uma API para desenvolvedores. Você a chama a partir do código, e ela cobra por minuto de áudio enviado aos servidores do Google. O Whisper, o modelo open-source da OpenAI que nosso app roda na sua própria máquina, foi feito para uma pessoa ditando no Word ou no Slack. Um é encanamento para engenheiros. O outro é uma ferramenta de ditado para desktop.

O Google Speech-to-Text é uma API na nuvem para desenvolvedores que integram transcrição em apps e servidores. Ele faz streaming, processa arquivos longos em lote, cobre muitos idiomas e cobra por minuto. O Whisper dentro do nosso app é para o usuário final que quer ditado de desktop privado, offline e gratuito. Se você escreve código e precisa de transcrição em escala, o Google vence. Se você quer falar e ver o texto aparecer no seu cursor, o Whisper vence. Categorias diferentes.

Eu toco o Whisper by Remskill, um app que transforma o modelo open-source Whisper em ditado de desktop: tecla de atalho, fale, e o texto aparece onde quer que seu cursor esteja. Então eu tenho um lado nessa história. Mesmo assim, vou tentar ser honesto, porque a resposta honesta é a mais útil. A maioria das pessoas que digita "Whisper vs Google Speech-to-Text" em um campo de busca está prestes a comparar duas coisas que não pertencem ao mesmo balde.

O Google Speech-to-Text é uma API, não um app que você abre

A primeira coisa a deixar clara: o Google Cloud Speech-to-Text não tem janela. Não há ícone no seu dock, nenhuma tecla de atalho, nenhum "aperte para falar". É um serviço com o qual o seu software conversa pela rede. Você envia áudio com código; ele devolve texto. A própria documentação do Google o descreve como reconhecimento síncrono, em streaming e assíncrono, consumido por meio de uma API.

Esse design é bom para o propósito dele. O reconhecimento em streaming retorna resultados parciais em tempo real, o que é útil se você está construindo um recurso de legendas ao vivo ou um comando de voz para o seu próprio produto. O reconhecimento assíncrono lida com gravações longas: você faz upload do áudio, o Google processa tudo em segundo plano, e você consulta o resultado quando está pronto. O Google documenta esse caminho em lote como capaz de processar áudios de até oito horas em um único trabalho. Essa é uma força real. Se você tem um galpão cheio de chamadas gravadas para transcrever durante a noite, um app de ditado para usuário final é a ferramenta errada, e uma API como a do Google é a certa.

Ele suporta uma longa lista de idiomas e variantes regionais de locale, os códigos BCP-47 que os engenheiros conhecem, como en-US, en-GB e es-MX. Não vou cravar aqui uma contagem exata de idiomas nem um preço por minuto, e eu desconfiaria de qualquer artigo que o fizesse. As páginas de preços e idiomas do Google mudam, e os números que circulam pela web nem sempre remetem a uma fonte primária na qual eu me apoiaria. O que posso afirmar sem ressalvas: é cobrança na nuvem baseada em uso. Você paga pelo que envia, seu áudio vai para os servidores do Google, e não há um modo local gratuito.

Duas pessoas, dois problemas diferentes

Aqui está a forma mais limpa que encontrei de dizer de que lado dessa linha você está. Imagine duas pessoas.

A primeira é uma desenvolvedora. Ela está construindo uma ferramenta de suporte ao cliente que transforma chamadas gravadas em texto pesquisável. A transcrição acontece no servidor dela, dentro do código dela, sem nenhum humano observando rodar. Ela quer um endpoint para o qual possa enviar áudio e uma resposta em JSON que possa guardar em um banco de dados. Ela nunca vai "abrir" o transcritor. Ele vive dentro do produto que ela entrega aos próprios clientes. Esse é o trabalho do Google Speech-to-Text. A API é o componente; o produto dela é o app.

A segunda é um escritor. Ou uma advogada redigindo no trem, ou uma estudante transformando uma aula em anotações, ou um pai respondendo ao e-mail da professora enquanto mexe o jantar. Ele não tem um servidor. Ele tem um cursor piscando em um documento, e prefere falar a digitar. Ele quer apertar uma única tecla, dizer a frase e vê-la aparecer no arquivo que já está aberto. Ele nunca vai escrever código, e não deveria ter que escrever. Esse é o nosso trabalho.

A confusão na palavra-chave vem do fato de "Whisper" fazer dupla função. O Google STT é um serviço de nuvem pronto. O Whisper é um modelo, e um modelo não é um app. Alguém tem que construir o app em volta dele: conectar o microfone, ligar a tecla de atalho, colar o texto no cursor. Essa é a parte que fizemos.

O Whisper dentro do nosso app é ditado de desktop, e roda na sua máquina

O Whisper é o modelo de fala que a OpenAI abriu como open-source. Nosso app o roda localmente: Rust puro, sem sidecar em Python, sem servidor no caminho para o ditado comum. Você aperta uma tecla de atalho (Ctrl+Space no Windows por padrão, totalmente remapeável), fala, solta, e o texto cai onde quer que seu cursor já esteja. Sem código. Sem chave de API para o caminho local. O áudio nunca sai do laptop.

Essa última parte é o ponto central de tudo, e é a que não aparece numa tabela de recursos.

Whisper
O app Whisper by Remskill ao vivo — barra lateral, painel de transcrição e cards de instrução de IA. Esta é a interface real, não uma captura de tela.

No nível local você escolhe entre oito modelos Whisper, de cerca de 140 MB até 3 GB; você troca tamanho de download e tempo de CPU por precisão. Quatro são ajustados para o inglês; os quatro multilíngues cobrem uma ampla gama de idiomas e podem traduzir a fala para o inglês no mesmo gesto, algo que a API do Google não embute em um único toque de ditado e que a maioria das ferramentas de consumo pula por completo. Há também o Parakeet, um motor separado da NVIDIA que é de 5 a 10 vezes mais rápido que o Whisper na CPU para inglês e outros 24 idiomas europeus, e ele roda sem GPU.

Todo o pipeline local é gratuito para qualquer usuário logado, sem cartão no cadastro: todos os modelos, limpeza por IA via Ollama, histórico, hotwords personalizadas, tudo. Se você quer a superfície na nuvem, isso é o Whisper Pro: transcrição na nuvem da OpenAI (gpt-4o-mini-transcribe ou gpt-4o-transcribe), limpeza por IA na nuvem e busca na web, tudo com a sua própria chave da OpenAI, sem que a Remskill fique com nada. Isso é opcional. O padrão é local e gratuito.

A verdade sem graça é que, para um parágrafo de texto ditado, seu laptop já tem um microfone e uma CPU. Ele não precisa de um data center.

Os modelos de custo não têm o mesmo formato

É aqui que a comparação deixa de ser entre coisas equivalentes. Uma API na nuvem cobra por minuto de áudio. Um app de ditado local cobra, no máximo, uma vez.

Vi o modelo por minuto morder uma vez. Uma equipe com quem trabalhei contratou um terceirizado para construir um protótipo interno de "ditado com IA" que chamava uma API na nuvem a cada fala. Uma rotina de "retry inteligente" ficou agressiva demais e re-transcreveu as mesmas gravações de standup quatro vezes seguidas. O gerente da equipe abriu o painel de custos no fim do trimestre e encontrou uma conta de cinco dígitos. A solução do terceirizado foi "a gente devia otimizar o prompt". A solução do CFO foi "ou a gente não devia pagar por transcrição na nuvem de reuniões que já têm anotações".

Isso não é uma crítica à API do Google. Usada como pretendido, por engenheiros que ficam de olho no medidor, ela é bem precificada para pipelines de produção. É uma crítica a usar um serviço de nuvem medido para algo que um app local faz de graça. Transcrição só na nuvem é um desastre de privacidade esperando para ser cobrado. Seus rascunhos de contrato, sua planilha de salários, o e-mail para a escola do seu filho, tudo saindo da sua máquina porque você quis falar em vez de digitar. Para um indivíduo ditando o dia inteiro, local-first é o padrão certo, e o medidor nunca começa a rodar.

Lado a lado

Aqui está a disposição honesta. Repare que a tabela não é realmente sobre "qual é melhor". É sobre "em qual categoria você está".

Comparação por categoria entre o Google Speech-to-Text e o Whisper no nosso app
RecursoGoogle Speech-to-TextWhisper (no nosso app)
Tipo de produtoAPI na nuvem para desenvolvedoresApp de ditado para desktop
Como você usaChame a partir do seu próprio códigoAperte uma tecla de atalho e fale
Para onde vai o seu áudioPara os servidores do GoogleFica na sua máquina (modo local)
Modelo de custoCobrança na nuvem por uso, por minutoNível local gratuito; um app, veja a página de preços
Funciona offlineNãoSim (modelos locais)
Para quem éDesenvolvedores integrando transcrição em apps ou servidoresUma pessoa ditando em qualquer app
ConfiguraçãoProjeto na nuvem, credenciais, códigoInstale, entre, escolha um modelo

Nenhum número específico do Google nessa tabela, de propósito. O que importa é o formato: servidor vs máquina, código vs tecla de atalho, medidor vs gratuito. Se essas linhas apontam você para a API, ótimo, continue lendo a próxima seção. Se apontam para o app, o botão de download está lá embaixo.

Quando o Google Speech-to-Text é a ferramenta certa

Eu recorreria à API do Google, não ao nosso app, em alguns casos bem claros. Esta é a seção que os artigos de IA pulam, então aqui vai ela, sem rodeios.

Você está construindo um produto, não ditando em um

Se você é engenheiro ligando transcrição a um backend (um pipeline de análise de call center, um recurso de legendagem automática, uma interface de voz para o seu próprio software), você quer uma API, e a do Google é madura. Nosso app de desktop não pode ser chamado pelo seu servidor. Ele não tem endpoint, nem SDK, nem como o seu código pedir texto a ele. Isso é por design; é um app para uma pessoa, não um serviço para um programa.

Você precisa processar gravações longas em lote e em escala

Oito horas de áudio em um único trabalho assíncrono é exatamente para o que o reconhecimento assíncrono do Google foi feito. Se você tem dez mil chamadas gravadas para triturar durante a noite, você quer um serviço que escale nos servidores de outra pessoa, não um laptop rodando um modelo de cada vez.

Você precisa de streaming em tempo real dentro do seu próprio código

Se a sua aplicação precisa exibir resultados parciais enquanto alguém fala (legendas ao vivo em uma chamada de vídeo que você está construindo), o reconhecimento em streaming é a superfície de API para isso. Nosso app cola um bloco de texto finalizado depois que você solta a tecla, o que é o comportamento errado para um recurso de legenda ao vivo e o certo para ditado.

Você precisa de controle programático e logs de auditoria

Cotas por requisição, cobrança no lado do servidor, um registro central de quem transcreveu o quê: uma API gerenciada na nuvem dá a você o arcabouço operacional que uma implantação regulada ou de grande escala precisa. Um app de desktop mantém isso na máquina do indivíduo, que é a troca oposta.

Se qualquer um desses casos for o seu, feche esta aba e abra a documentação do Google. A gente não faz lado de servidor. Não é falsa modéstia; é um produto diferente.

Quando o Whisper dentro do nosso app é a ferramenta certa

O outro lado. Você não está construindo software. Você está tentando parar de digitar.

Você quer ditar e-mails, anotações, mensagens, comentários de código, e vê-los aparecer em qualquer app em que você já esteja. Você prefere que seu áudio não vá para o servidor de ninguém. Você não quer um medidor por minuto rodando enquanto você pensa. Você quer começar de graça, e não quer escrever uma linha de código para usar.

Pasted
O overlay pós-ditado que entregamos — como uma única transcrição gratuita e totalmente local fica no momento em que termina.

Escolha o Parakeet por velocidade e inglês; escolha um modelo Whisper multilíngue quando precisar de tradução, idiomas menos comuns ou controle mais fino. O pipeline local não custa nada; o nível Cloud (transcrição da OpenAI com a sua própria chave) é opcional e tem preço na página de preços.

Para o lado offline, local e gratuito dessa questão, escrevi sobre os trade-offs mais amplos em transcrição local vs nuvem. E se você está escolhendo entre os dois motores locais que entregamos, Whisper vs Parakeet percorre velocidade versus cobertura de idiomas.

Se você só lembrar de uma coisa

O Google Speech-to-Text é uma API para engenheiros; o Whisper dentro do nosso app é ditado para pessoas. Perguntar qual é "melhor" é como perguntar se um motor de carro é melhor que um carro. Depende inteiramente de se você está construindo a coisa ou dirigindo ela.

Escolha o que combina com o seu trabalho

Se o seu trabalho é ditar nos apps que você já usa, com privacidade, offline e começando de graça, instale o Whisper e aperte uma tecla. Se o seu trabalho é integrar transcrição em software, você já sabe onde fica a documentação do Google.

Transcrição local gratuita para sempre. Sem forma de pagamento no cadastro. O nível Cloud é opcional e com a sua própria chave.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê nosso e-mail de suporte, muito provavelmente ditando as respostas.

Leitura complementar