Por Denys Medvediev

Guia

Ditado em tempo real para escritores

Um aplicativo de ditado em tempo real para escritores permite que você fale uma frase e ela apareça no cursor um instante depois. Com o Whisper, você segura um atalho, fala, solta, e a transcrição é colada onde você estava escrevendo — com modelos locais, isso leva cerca de um segundo e meio.

Última atualização: junho de 2026

Mãos de um escritor descansando ao lado de um teclado e um documento aberto em uma mesa escura, evocando o ato de redigir por voz

Um aplicativo de ditado em tempo real para escritores transforma fala em texto no cursor com pouco atraso. O Whisper funciona no modo push-to-talk: segure um atalho, fale uma frase, solte, e a transcrição é colada no editor na tela. Com modelos locais, o intervalo entre soltar a tecla e o texto aparecer é de cerca de 1,4 segundo. Funciona offline, de graça, em qualquer aplicativo de área de trabalho.

Criei o Whisper porque digitar era a parte mais lenta de escrever. Não o pensar, não o editar — o ato literal de mover os dedos rápido o suficiente para acompanhar uma frase que eu já havia terminado na minha cabeça. A voz resolve isso. Você fala a cerca de 145 palavras por minuto; você digita, talvez, 40. Essa diferença é o argumento inteiro.

Mas "tempo real" é uma expressão carregada, e a maioria das páginas que vendem ditado para escritores deixa você imaginar a coisa errada. Então, antes de baixar qualquer coisa, quero ser direto sobre o que tempo real realmente significa aqui, como o atraso se sente na prática, e onde isso se encaixa em uma sessão de escrita de verdade — textos longos, posts de blog, ficção, o e-mail que você vem adiando.

Aqui está a versão honesta que a maioria das páginas de marketing omite. O Whisper é push-to-talk. Você segura um atalho, fala uma frase completa ou três, depois solta. A transcrição é colada no cursor ao soltar — não palavra por palavra enquanto você fala, como na tela de um estenógrafo de tribunal. A unidade é o enunciado, não a sílaba.

Essa distinção importa porque define a expectativa certa. Se você está imaginando palavras rastejando pela página no ritmo da sua boca, isso é legenda ao vivo — uma ferramenta diferente para um trabalho diferente. O que o Whisper oferece a um escritor é mais rápido do que isso na prática: você diz um pensamento, ele aparece, você diz o próximo. Com um modelo local, o ciclo completo leva cerca de 1,4 segundo. Rápido o suficiente para você parar de notar e começar simplesmente a escrever.

O que "tempo real" realmente significa para um escritor

Um escritor digitando em um laptop com um caderno por perto, ilustrando o fluxo de rascunho que a voz substitui

Escritores recorrem ao ditado pelo mesmo motivo que eu recorri: o rascunho está na sua cabeça e o teclado está no caminho. Um primeiro rascunho deve ser rápido e feio. O teclado o torna lento e arrumado, o que é exatamente o contrário do que se quer. Falar permite que você registre a versão bagunçada na velocidade em que pensa, e a edição — a parte que realmente quer seus dedos — vem depois.

Então, quando um escritor pesquisa "ditado em tempo real", o que geralmente quer é isso: falar uma frase e vê-la aparecer antes de perder a próxima. Essa é a barra real. Não streaming literal letra por letra — um intervalo abaixo de dois segundos, para que as palavras estejam lá antes que o pensamento evapore. O Whisper alcança isso. Do momento em que você solta o atalho até o texto aparecer no documento são cerca de 1,4 segundo em um modelo local no M1 Air, um pouco acima de dois segundos em um PC Windows intermediário com um modelo maior. (Já vi o fluxo quebrar quando a latência passa dos dois segundos — seu cérebro volta a se engajar com a tela e você perde o fio. Por isso esse número é o que me preocupa.)

A outra coisa que os escritores querem é nunca sair do documento. Um rascunho longo é um estado de fluxo, e o fluxo não sobrevive a abrir uma janela de transcrição separada, apertar gravar, esperar, copiar e colar de volta. O Whisper cola no cursor do aplicativo em que você já está — Scrivener, Word, Google Docs no navegador, um editor de texto simples, seu CMS. Você não muda de janela. Segura uma tecla e continua escrevendo. É isso que faz parecer tempo real, mesmo que, estritamente falando, cole ao soltar.

Segure o atalho, fale, solte — o texto se cola sozinho

A mecânica é entediante, o que é o maior elogio que posso fazer a um software. Você segura um atalho, fala, solta, e a transcrição é colada no cursor em qualquer janela que estiver em foco. O Whisper mantém uma pequena cauda — 250 milissegundos — depois que você solta, para que a última palavra não seja cortada. Como cola no cursor do sistema operacional, seu manuscrito é apenas "uma caixa de texto". Scrivener, Final Draft, Word, um rascunho no Substack no navegador — mesmo comportamento, sem configuração por aplicativo.

Uma pequena cápsula aparece enquanto você fala para que você saiba que está ouvindo, depois mostra o breve passo de transcrição antes das palavras aparecerem. Esse é o ciclo completo. Não há janela de aplicativo separada para alternar, nenhum botão de gravar para encontrar, nenhum arquivo para exportar. Seu cursor está no parágrafo, você fala, a frase aparece no parágrafo:

Cancel
A sobreposição de gravação: uma pequena cápsula que aparece enquanto você fala, para que você saiba que o Whisper está ouvindo.

O atalho é a única coisa que vale acertar logo de cara. No Windows é Ctrl+Space; no Mac é Command+Option, um push-to-talk só de modificadores que você segura enquanto fala. Ambos são personalizáveis nas Configurações, o que importa para escritores porque muitos aplicativos de escrita capturam teclas para seus próprios atalhos. (Minha filha mais nova uma vez me disse que um atalho "não funcionava" no aplicativo de desenho dela. Era um conflito, não um bug — foi assim que aprendi que a pessoa comum não faz ideia do que é um conflito de atalho. Por isso agora todo atalho é personalizável.) Se você já configurou ditado no Windows ou no Mac antes, é a mesma memória muscular apontada para seu aplicativo de escrita.

Configure em dois minutos (Windows ou Mac)

Você precisa de um Mac com Apple Silicon ou um PC com Windows 10 ou mais recente, um microfone funcionando e o editor em que escreve aberto. Todo o pipeline local é gratuito para qualquer conta conectada, sem método de pagamento solicitado no cadastro. Aqui está a sequência.

Passo 1 — Instale o Whisper e entre na conta.

Baixe da página de download, instale e crie uma conta gratuita. Sem cartão. Todo o pipeline de transcrição local fica disponível imediatamente.

Você saberá que funcionou quando o ícone na bandeja do sistema aparecer e o assistente de configuração oferecer a escolha de um modelo.

Passo 2 — Escolha um modo de transcrição.

O aplicativo não escolhe por você. Você tem três opções: Cloud (OpenAI, traga sua própria chave), Local Parakeet ou Local Whisper. Para redigir textos com privacidade, comece pelo local — mais sobre qual escolher duas seções abaixo.

Você saberá que funcionou quando um modelo terminar de baixar e aparecer como pronto.

Passo 3 — Confirme seu atalho.

O Windows usa Ctrl+Space por padrão; o Mac usa Command+Option seguro como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando solicitado; sem ela, o colar no cursor não consegue alcançar seu aplicativo de escrita.

Você saberá que funcionou quando uma gravação de teste for colada em qualquer campo de texto.

Passo 4 — Posicione o cursor no rascunho e fale.

Abra o documento, clique onde quer que a próxima frase apareça, segure o atalho, diga-a, solte. A transcrição aparece no cursor, no meio do parágrafo e tudo mais.

Você saberá que funcionou quando a frase que você disse estiver no rascunho como texto.

Whisper
O aplicativo Whisper de área de trabalho real na tela de configurações, com os painéis de Transcrição e IA abertos.

A parte demorada é o download do modelo, não a configuração. Todo o resto são os quatro passos acima. Quando estiver rodando, colocar uma frase na página deixa de ser uma tarefa de digitação e passa a ser uma tarefa de fala — o que em um rascunho longo faz a diferença entre uma tarde e uma noite inteira.

voz para texto no Windows · no Mac

Como é ditar um rascunho na prática

O truque para ditar em prosa é parar de tentar ditar prosa perfeita. Escritores novos tentam falar com vírgulas e quebras de parágrafo e acabam sendo mais lentos do que digitando. O jeito rápido é falar em pensamentos completos — diga a frase do jeito que diria para um amigo, solte, diga a próxima. Deixe a primeira passagem ser bruta. Você está capturando o rascunho, não tipografando. Um post de blog de 1.500 palavras que levo noventa minutos para digitar leva cerca da metade disso para falar, e a maior parte da economia está em não parar para corrigir coisas no meio da frase.

O ritmo do push-to-talk combina com a forma como os escritores realmente pensam. Você segura a tecla por uma ideia, solta, olha o que apareceu, decide a próxima frase, segura de novo. As pausas entre os apertos são tempo de pensar, não tempo morto — a ferramenta não está gravando seus "éhs" enquanto você olha para a parede decidindo para onde a cena vai. Para ficção especialmente, isso é mais próximo de como o diálogo soa na sua cabeça do que a digitação jamais é; você performa a linha, aí a tem na página para cortar.

Dois comentários práticos para sessões longas. Primeiro, dite em blocos de uma a três frases, não parágrafos inteiros de uma vez — rajadas menores colam mais rápido e são mais fáceis de corrigir se uma palavra sair errada. Segundo, seu microfone importa mais do que você imagina. Um microfone USB de $20 faz mais pela precisão do que qualquer upgrade de modelo, porque áudio limpo é o que o modelo realmente usa para trabalhar. Essa é a verdade chata que ninguém que vende "precisão com IA" quer dizer primeiro. Quando as palavras fluem assim tão rápido, você pode redigir rascunhos inteiros por voz e tratar o teclado como uma ferramenta de edição, que é para o que ele sempre foi melhor.

Local ou nuvem: qual modo para um escritor que trabalha de verdade

Para redigir, experimente o modo local primeiro. Um manuscrito em andamento, uma proposta que você ainda não enviou, uma entrada de diário — nada disso precisa sair do seu laptop para virar texto. Se o seu Mac tem Apple Silicon ou seu PC é dos últimos anos, o local lida com o ditado diário sem reclamar, e a nuvem se torna a saída de emergência, não o padrão. Veja como os três modos diferem, porque o aplicativo faz você escolher e prefiro que você escolha bem:

  • Local ParakeetO motor TDT da NVIDIA, cerca de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais rápido que o Whisper na CPU. Cobre inglês mais 24 outros idiomas europeus, 25 no total. Sem tradução para inglês. Se você escreve em inglês ou em outro idioma europeu, esta é a escolha rápida, totalmente offline, e a que mantém a latência baixa.
  • Local Whispermais lento que o Parakeet na mesma máquina, mas as versões multilíngues cobrem 99 idiomas e conseguem traduzir para o inglês. As versões só em inglês são apenas em inglês, não 99. Escolha este se você escreve em chinês, japonês ou coreano (o que o Parakeet não suporta), precisa de tradução ou quer viés de hotword para nomes de personagens e palavras inventadas. O modelo inglês padrão tem cerca de 480 MB.
  • Cloud (OpenAI, BYOK)melhor precisão e acesso à web, usando sua própria chave OpenAI cobrada diretamente pela OpenAI. A transcrição usa gpt-4o-mini-transcribe por padrão. Precisa de internet, então é o único caminho que sai da sua máquina, e faz parte do Whisper Pro.

A verdade sem graça é que, para a maioria dos textos, o local é suficiente — ambos os motores locais rodam completamente na sua máquina, sem nada enviado para um servidor. A nuvem ganha seu lugar quando você quer precisão de ponta em uma gravação difícil ou precisa de uma informação da web no meio de uma frase. A nuvem também é o caminho de menor latência em uma boa conexão, cerca de 1,1 segundo, porque a ida e volta pela rede supera o processamento local em um laptop mais lento. Comece pelo local; recorra à nuvem só quando o local deixar você na mão.

Uma opinião que vou defender: ditado somente na nuvem é um desastre de privacidade esperando para ser transcrito. Certa vez assisti uma equipe interna acumular uma conta de nuvem de cinco dígitos em um trimestre, na maior parte por um loop de "nova tentativa inteligente" que retranscrevia as mesmas gravações quatro vezes. O CFO abriu o painel durante a revisão trimestral e o ambiente ficou muito silencioso. Seu primeiro rascunho não precisa viver nos logs de um fornecedor para virar texto. Seu laptop já tem microfone e CPU.

Transformando um rascunho falado em prosa limpa

O ditado bruto sai como um bloco corrido. Você diz "tá bom então o capítulo começa na estação de trem ela tá atrasada perdeu a conexão é e aí tudo começa a partir daí," e é essa parede sem pontuação que qualquer motor de fala entrega. Para um rascunho, tudo bem — você vai editar de qualquer jeito. Mas há um caminho mais rápido para chegar a algo legível.

O Windows Voice Typing adiciona pontuação enquanto você fala, e o Dictation do macOS cuida do básico quando você diz "vírgula" ou "ponto". Para uma limpeza mais pesada — remover os "éhs", corrigir os blocos corridos, transformar um parágrafo falado em algo que você manteria — o Whisper pode rodar uma passagem de IA. Diga a frase de ativação "Hey whisper" e o texto é aprimorado antes de aparecer. Em um modelo local, isso roda pelo Ollama; no modo nuvem, é gpt-5-mini por padrão.

Thinking...
Bruto

tá bom então o capítulo começa na estação de trem ela tá atrasada perdeu a conexão é e aí tudo começa a partir daí

Limpo

Tá bom, então o capítulo começa na estação de trem. Ela está atrasada — perdeu a conexão — e é daí que tudo começa.

Uma palavra de cautela que os escritores em particular precisam ouvir: a limpeza por IA é uma passagem de pontuação e preenchimento, não uma co-escritora. Ela corrige a mecânica; não reescreve sua voz, e você não deveria deixar que fizesse isso. Para ficção ou qualquer coisa com um estilo distinto, rodo o aprimoramento local mais leve ou pulo completamente no primeiro rascunho e edito à mão depois, porque o objetivo inteiro de ditar rápido é que o rascunho bruto seja seu. Use a limpeza para tornar as anotações legíveis. A escrita de verdade faça você mesmo.

Esse mesmo fluxo de falar-depois-limpar funciona em qualquer lugar onde você mantém texto — é exatamente como eu dito anotações e capturo ideias entre sessões de escrita, para que um pensamento de pesquisa ou uma virada de enredo passe de um comentário falado a uma linha arrumada sem quebrar o ritmo.

Quando um aplicativo de ditado em tempo real é a ferramenta errada

Duas setas riscadas no asfalto apontando em direções diferentes, ilustrando uma escolha de ferramenta

Às vezes a resposta honesta é que você quer outra coisa, e prefiro dizer isso a te vender a ferramenta errada. O Whisper é ditado push-to-talk no aplicativo em que você está escrevendo. Não é legenda ao vivo, não é transcrição de entrevistas e não é uma ferramenta para celular.

Se você genuinamente precisa de palavras transmitidas na tela enquanto fala — legendas para uma palestra ao vivo, legendas rolando durante uma transmissão, uma faixa de legenda de acessibilidade — isso é legenda ao vivo de verdade, uma categoria separada construída para streaming contínuo, não ditado do tipo pressionar-e-soltar. Use uma ferramenta de legendagem. Se você tem uma entrevista gravada ou uma reunião de duas horas para transformar em transcrição, isso é transcrição de arquivo com identificação de falantes — um serviço como Otter ou Rev serve melhor do que um atalho de ditado; categorias diferentes, não force uma ferramenta de escrita a fazer um trabalho de transcrição. E se você só dita uma nota de 30 palavras pelo celular, o microfone do teclado do seu telefone é gratuito e já está no seu bolso; o Whisper é uma ferramenta de área de trabalho para Windows e macOS, então não há aplicativo para instalar nesses casos.

Use um aplicativo de ditado em tempo real quando o trabalho é redigir: textos longos, um post de blog, um capítulo, um e-mail que você fica evitando — escrito na mesa, no aplicativo que você já usa, onde falar supera digitar e você quer as palavras no cursor um segundo depois. Para menos que isso, use o que é gratuito. Não vou te dizer para abrir um aplicativo de área de trabalho para enviar uma mensagem de uma linha.

A maioria dos escritores que ouço está em uma plataforma ou na outra, então se você quiser o passo a passo específico para cada plataforma, o guia em software de ditado feito para escritores cobre o fluxo de trabalho do início ao fim, desde a escolha de um modelo até manter as mãos longe do teclado por uma sessão inteira.

"Tempo real" para um escritor não significa letras rastejando pela página no ritmo da sua boca. Significa que você diz uma frase e ela está lá antes de você perder a próxima — cerca de um segundo e meio, no aplicativo em que você já está, sem enviar nada a lugar nenhum. Esse é o truque, e é discreto. Ditei a maior parte deste guia uma frase de cada vez, soltando a tecla entre os pensamentos, vendo as palavras aparecerem enquanto eu descobria a próxima linha. O teclado ficou lá o tempo todo, útil apenas para as edições. Que é exatamente onde eu quero que ele fique.

Fale seu próximo rascunho para a página

Segure o atalho, diga uma frase, solte. As palavras aparecem no cursor em qualquer coisa em que você esteja escrevendo — cerca de um segundo e meio depois, sem enviar nada a lugar nenhum.

Modo local gratuito para qualquer conta conectada. Sem cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou quem lê nosso e-mail de suporte — provavelmente ditando as respostas.

Leitura adicional