Guia
Como transcrever entrevistas
Para transcrever uma entrevista automaticamente, processe a gravação com uma ferramenta de fala para texto: uma opção gratuita e de código aberto como Buzz ou OpenAI Whisper no seu próprio computador para manter a privacidade, ou um serviço de transcrição na nuvem quando você também precisa de identificação de falantes e um editor mais completo. Escolha local para gratuito e privado, nuvem para diarização.
Última atualização: junho de 2026

Para transcrever uma entrevista automaticamente, processe a gravação com uma ferramenta de fala para texto: uma opção gratuita e de código aberto como Buzz ou OpenAI Whisper no seu próprio computador para manter a privacidade, ou um serviço de transcrição na nuvem quando você também precisa de identificação de falantes e um editor mais completo. Escolha local para gratuito e privado, nuvem para diarização.
Vou começar pela parte incômoda, porque ela te poupa dez minutos. O Whisper by Remskill, o app ao qual este blog pertence, não transcreve gravações de entrevistas. Ele é ditado ao vivo: você segura um atalho, fala, e as palavras aparecem no cursor em qualquer aplicativo. Isso é diferente de inserir uma gravação de uma hora com duas pessoas e receber de volta uma transcrição com as falas separadas. Então este guia é sobre as ferramentas que realmente fazem o trabalho de entrevista — escrito por alguém que prefere te encaminhar para a ferramenta certa do que fingir que somos nós.
Uma transcrição de entrevista é mais difícil do que parece por um motivo: os falantes. Uma ferramenta de transcrição simples te entrega um bloco de texto corrido. O que você geralmente quer é "Entrevistador:" e "Entrevistado:" antes de cada fala. Isso se chama diarização, e nem toda ferramenta faz. A divisão que importa é local versus nuvem. As ferramentas locais rodam no seu laptop, não custam nada e nunca enviam seu áudio. Os serviços de nuvem enviam o arquivo, mas costumam identificar os falantes e oferecer um editor. Abaixo está o mapa honesto, e depois a parte onde explico exatamente onde nós nos encaixamos — e onde não.
O jeito gratuito e privado roda no seu próprio computador
Se a entrevista é sensível (uma fonte que precisa de proteção, um paciente, um executivo interno), a gravação nunca deve sair da sua máquina. As ferramentas gratuitas e de código aberto transcrevem inteiramente no dispositivo.
O Whisper da OpenAI é o modelo sobre o qual a maioria dessas ferramentas é construída. Ele é lançado sob a licença MIT, você o instala com um único comando pip, e ele transcreve arquivos de áudio pela linha de comando. Vem em seis tamanhos, quatro com variantes só para inglês, então você troca velocidade por precisão dependendo do seu hardware. É multilíngue e pode até traduzir a fala para o inglês enquanto transcreve. O problema para entrevistas: o Whisper base escreve as palavras, mas não identifica quem as disse. A diarização de falantes precisa de ferramentas adicionais integradas, ou de um serviço na nuvem que já inclua isso.
Se a linha de comando te dá dor de cabeça, o Buzz é a opção fácil. É um aplicativo gráfico que transcreve e traduz áudio offline no seu computador pessoal, alimentado pelo Whisper, com licença MIT e disponível em macOS, Windows e Linux. Arraste a gravação, escolha um modelo, aguarde e leia a transcrição. Para a maioria das pessoas que querem transcrever uma entrevista de graça, este é o caminho mais curto.
Mais dois que vale conhecer. O whisper.cpp é uma versão em C/C++ do Whisper que roda apenas na CPU e é altamente otimizado para Apple Silicon: mais rápido, sem Python, mas você precisa compilá-lo e executá-lo pela linha de comando. E o MacWhisper é um app para Mac construído em torno do Whisper local e do Parakeet da NVIDIA, focado na transcrição de arquivos — exatamente o caso de uso de entrevistas. Todos eles mantêm o áudio na sua máquina. Nenhum, por conta própria, entrega etiquetas limpas dos falantes.
Serviços na nuvem adicionam identificação de falantes e um editor
Aqui você decide o quanto sua privacidade vale. Os serviços dedicados de transcrição enviam sua gravação para os servidores deles, processam tudo e te devolvem uma transcrição que normalmente nomeia os falantes e abre em um editor onde você pode corrigir nomes e exportar. Essa conveniência é real — e para um podcast público ou um painel que você topa compartilhar, é a ferramenta melhor.
Se é isso que você precisa (etiquetas de múltiplos falantes, carimbos de tempo, uma superfície de edição limpa), olhe para a categoria estabelecida de transcrição de reuniões e gravações, não para um app de ditado. Já escrevi sobre esse cenário no artigo sobre alternativas ao Otter.ai e no de alternativas ao Rev; ambos cobrem as ferramentas na nuvem que fazem diarização e edição direito.
Aqui vai uma opinião que vem com uma conta junto. Uma equipe com a qual trabalhei certa vez contratou um desenvolvedor para construir um protótipo interno de ditado que chamava uma IA na nuvem para cada frase pronunciada. O gerente abriu o painel de custos no final do trimestre e encontrou um número de cinco dígitos — boa parte vindo de re-transcrever gravações de reuniões diárias quatro vezes por conta de uma lógica de repetição agressiva demais. A resposta do CFO foi curta: ou a gente para de pagar para enviar reuniões que já têm anotações. O dinheiro era o problema menor. O maior era que um quarto das ligações internas agora vivia nos servidores de um fornecedor. Transcrição na nuvem é genuinamente a escolha certa para etiquetas de falantes e edição. É a escolha errada para uma gravação que você nunca quisesse que saísse do prédio. Escolha com base nisso, não no marketing.
Como escolher, em poucas palavras
Existem três tipos de pessoas que chegam a esta página: as que se preocupam com privacidade, as que estão contra o prazo, e as que só querem os nomes dos falantes sem pensar muito. Duas delas devem ir pelo local.
- Precisa de gratuito e privado — Buzz (o mais fácil) ou Whisper na sua própria máquina. O áudio nunca é enviado.
- Precisa de identificação de falantes e um editor completo — um serviço de transcrição na nuvem. O áudio é enviado — esse é o acordo.
- No Mac, quer um app focado em arquivos — MacWhisper, no dispositivo.
O critério de desempate honesto: se a gravação é sensível, a resposta é local, ponto final. Se é uma palestra pública e você quer a diarização pronta, a nuvem se justifica. A maioria das transcrições de entrevistas é do primeiro tipo — por isso começo com as ferramentas gratuitas locais. Se o que te preocupa é a velocidade bruta, o guia para transcrever áudio rápido explica os ajustes de velocidade.
Onde o Whisper by Remskill realmente se encaixa
Agora a parte em que traço a linha com clareza, porque o pior resultado deste artigo seria você baixar nosso app esperando que ele processe uma gravação. Não vai funcionar. O Whisper by Remskill é focado em ditado: um atalho dispara sua fala ao vivo, que é transcrita e colada no cursor em qualquer app que você estiver usando. Não há botão de "enviar arquivo de entrevista", e não há diarização de falantes — porque ele foi construído para uma voz: a sua, no momento.
Então onde um entrevistador o usa? Em torno da entrevista, não nela. Ditando suas perguntas de preparação em um documento antes de entrar. Falando suas anotações de acompanhamento no segundo em que a conversa termina, enquanto as impressões ainda estão frescas e você ainda está segurando um café. Redigindo o texto por voz assim que a transcrição estiver pronta. O atalho padrão no Windows é Ctrl+Space, totalmente remapeável, e todo o pipeline local é gratuito para qualquer usuário logado, sem cartão no cadastro. Há também um plano pago na nuvem que adiciona transcrição com OpenAI e pesquisa na web para o ditado ao vivo — mas isso ainda é sobre digitar com sua voz, não sobre transcrever uma gravação de duas pessoas.
Use-o para o texto em torno da entrevista. Use o Buzz ou um serviço na nuvem para a entrevista em si. Ferramentas diferentes, trabalhos diferentes. Prefiro que você saiba disso antes de instalar qualquer coisa.
Uma última palavra
A maioria das gravações de entrevista que valem ser transcritas são justamente as que você menos gostaria de enviar para algum lugar: o comentário off the record, a fonte que confiou em você, o paciente. Essa é a razão toda pela qual as ferramentas locais gratuitas têm o seu lugar: o arquivo fica no seu laptop. Certa vez passei um fim de semana ajustando configurações de modelo para limpar meu próprio áudio com ruído, antes de perceber que o problema real era o microfone do laptop a quinze centímetros de uma ventoinha. Tenho mestrado. Compre o microfone primeiro.
E quando a transcrição estiver pronta e for hora de realmente escrever o texto, é aí que nosso app deixa de ser espectador.
Dite o texto, assim que a transcrição estiver pronta
Transcreva a entrevista com o Buzz ou um serviço na nuvem. Depois baixe o Whisper by Remskill e dite o texto — a única parte do fluxo de trabalho de entrevista para a qual fomos feitos. O pipeline local é gratuito, sem cartão no cadastro.
Ditado local gratuito para sempre. Sem método de pagamento no cadastro. Não transcrevemos gravações — use uma ferramenta local ou um serviço na nuvem para isso.



