Por Denys Medvediev

Guia

Como escrever um livro por ditado

Você escreve um livro por ditado da mesma forma que contaria a história para um amigo: crie o esboço primeiro, depois narre cada cena no Word, Scrivener ou Docs usando um atalho global. Não edite enquanto fala. Revise depois.

Última atualização: junho de 2026

Mesa de escritor com um manuscrito, café e notebook aberto em luz suave

Para escrever um livro por ditado, o autor cria o esboço primeiro, depois narra cada capítulo no Word, Scrivener ou Google Docs usando um atalho de ditado global. A regra é falar a cena inteira sem parar para editar, e só depois fazer uma revisão. Falar atinge cerca de 145 palavras por minuto contra aproximadamente 40 na digitação.

Na primeira vez que tentei ditar em vez de digitar, me peguei editando cada frase assim que ela aparecia na tela. Falar, pausar, corrigir a vírgula, falar de novo. Em vinte minutos tinha quatro parágrafos impecáveis e um maxilar dolorido. É exatamente a forma errada de fazer isso — e é assim que quase todo mundo começa.

Ditar um livro tem menos a ver com o software e mais com um hábito que você precisa desaprender. O seu editor interno quer corrigir as palavras assim que elas aparecem. Todo o ganho de velocidade do ditado vem de mandar esse editor esperar. Solte as palavras na velocidade da fala, com toda a bagunça, e arrume tudo numa revisão separada. Falar é cerca de três vezes e meia mais rápido do que digitar — mas só se você deixar fluir.

Aqui está a parte que a maioria dos guias de "escreva seu romance por ditado" ignora. A ferramenta mal importa. Um capítulo no Scrivener é uma caixa de texto, igual a um Google Doc ou um arquivo Word em branco. O ditado que cola no cursor não se importa com qual dos três você está olhando.

Então a pergunta de verdade não é "qual app escreve um livro por voz". Nenhum app escreve o livro por você. A pergunta é "como transformo palavras faladas em texto no meu manuscrito em velocidade máxima e as reviso depois" — e a resposta tem três partes honestas: o ditado nativo que seu computador já tem, um atalho global que funciona em qualquer lugar, e um fluxo de trabalho que mantém o editor interno calado até as palavras estarem no papel. Vou explicar as três, configurar uma em dois minutos e dizer quando o nativo já é suficiente.

Por que autores ditam em vez de digitar

Os números são a parte fácil. A maioria das pessoas digita cerca de 40 palavras por minuto e fala cerca de 145. Isso é aproximadamente três vezes e meia mais rápido — o que, num manuscrito de 90.000 palavras, é a diferença entre um rascunho que leva meses e um que leva semanas. Mas a velocidade bruta não é realmente o motivo pelo qual os autores fazem isso.

O motivo maior é que falar é a forma como as histórias já vivem na sua cabeça. Você não pensa em uma cena em parágrafos justificados; você a pensa como alguém que está contando. Ditar permite narrar o rascunho bruto como você descreveria o capítulo para um amigo na cozinha, e moldá-lo depois. O teclado coloca uma camada entre o pensamento e a página. A voz remove essa camada na primeira passagem bagunçada — que é a passagem onde a maioria dos livros empaca.

Há também um motivo físico, e é o que ninguém menciona até os pulsos começarem a reclamar lá pelo décimo segundo capítulo. Rascunhar um livro inteiro dá muito trabalho para as mãos. Narrar o esqueleto por voz e reservar o teclado para edições finas distribui a carga ao longo do dia. Isso é um ponto de conforto e produtividade, não uma afirmação médica — mas se horas de digitação são o que está te travando, ditar para descansar as mãos parte do tempo é uma alavanca razoável de usar.

O caminho mais rápido: seu computador já dita

Notebook numa mesa de escritor com microfone, sugerindo ditado de voz nativo

Antes de instalar qualquer coisa, saiba que seu sistema operacional já faz isso, de graça, e para uma sessão curta é genuinamente suficiente. No Windows, coloque o cursor no seu manuscrito e pressione a tecla Windows + H. A barra de Digitação por Voz abre, você fala, e as palavras aparecem onde o cursor está — Word, Scrivener, Google Doc no navegador, qualquer um deles. A pontuação é adicionada automaticamente enquanto você fala.

No Mac, ative o Ditado em Configurações do Sistema, na seção Teclado, e acione com o atalho que você definir. Funciona em qualquer lugar onde você pode digitar e, em Apple Silicon, pode processar texto geral no dispositivo após o download dos modelos de fala. Diga "vírgula", "ponto" ou "novo parágrafo" e a pontuação vai sendo inserida.

O problema para um livro inteiro é duplo. A Digitação por Voz do Windows passa pelos servidores da Microsoft e precisa de conexão com a internet — então não é uma opção offline, o que importa quando você está rascunhando um manuscrito que prefere não enviar a lugar nenhum. E os dois nativos são otimizados para sessões curtas: uma mensagem, um e-mail, um parágrafo. Tendem a expirar, errar nomes incomuns de personagens e não oferecem forma de ensinar o vocabulário inventado. Em 80.000 palavras de rascunho, esses pequenos atritinhos se acumulam. É aí que uma ferramenta dedicada começa a fazer sentido.

Configure o Whisper em dois minutos (Windows ou Mac)

Uma ferramenta de ditado global resolve os dois limites nativos de uma vez: funciona offline e funciona igualmente em qualquer app de escrita que você abrir. Você precisa de um Mac com Apple Silicon ou um PC com Windows 10 ou mais recente, um microfone funcionando e seu manuscrito aberto no Word, Scrivener, Google Docs ou o que quer que você use para escrever. Todo o pipeline local é gratuito para qualquer conta conectada, sem exigir forma de pagamento no cadastro. Veja a sequência.

Passo 1 — Instale o Whisper e faça login.

Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. Todo o pipeline de transcrição local é liberado imediatamente.

Você saberá que funcionou quando o ícone na bandeja do app aparecer e o assistente de configuração oferecer a escolha do modelo.

Passo 2 — Escolha o caminho de transcrição.

O app não escolhe por você. Há três opções: Cloud (OpenAI, com sua própria chave), Parakeet local ou Whisper local. Para um manuscrito privado, comece local — mais sobre isso duas seções adiante.

Você saberá que funcionou quando um modelo terminar de baixar e aparecer como pronto.

Passo 3 — Confirme seu atalho.

Windows usa Ctrl+Space por padrão; Mac usa Command+Option mantido como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando solicitado; sem ela, o colar no cursor não alcança outros apps. Ambas as teclas podem ser alteradas nas Configurações se conflitarem com algo que você já usa.

Você saberá que funcionou quando uma gravação de teste colar em qualquer campo de texto.

Passo 4 — Coloque o cursor no manuscrito e fale.

Abra seu capítulo, clique onde vai o próximo parágrafo, segure o atalho, fale algumas frases, solte. A transcrição aparece onde o cursor está, dentro do documento.

Você saberá que funcionou quando suas frases faladas estiverem no manuscrito como texto.

Whisper
O app Whisper de verdade na tela de configurações, com os painéis de Transcrição e IA abertos.

A parte demorada é o download do modelo, não a configuração. Todo o resto são os quatro passos acima. Com tudo funcionando, rascunhar um capítulo deixa de ser uma tarefa de digitação e vira uma tarefa de fala — que é exatamente o ponto.

Se você já configurou ditado no Windows ou no Mac antes, é a mesma memória muscular apontada para o seu manuscrito.

Esboce primeiro, depois dite cena por cena

O ditado recompensa quem sabe para onde a cena vai antes de abrir a boca. O fluxo que realmente funciona é entediante e repetível: esboce primeiro, depois narre o livro em partes, depois revise. Pule o esboço e você vai passar o rascunho se narrando para becos sem saída.

Comece cada sessão com alguns tópicos para a cena — quem está nela, o que muda, onde termina. Não precisa ditar isso; escreva, são andaimes. Depois coloque o cursor na próxima linha em branco, segure o atalho e narre a cena como você a contaria em voz alta. Uma pequena cápsula aparece enquanto você fala para mostrar que está gravando, e o Whisper mantém um breve intervalo após você soltar para que a última palavra não seja cortada.

Cancel
O indicador de gravação: uma pequena cápsula que aparece enquanto você fala, mostrando que o Whisper está ouvindo.

A única regra que importa mais do que as outras: não edite enquanto fala. No instante em que você para para corrigir uma vírgula ou reformular uma frase, saiu da cena e voltou para o modo editor — e os dois não compartilham a mesma marcha. Fale o trecho inteiro — uma cena, uma seção, um momento — e só então olhe para a tela. Dite em sessões de dez ou quinze minutos, nomeie seus personagens e lugares sempre da mesma forma para manter a transcrição consistente, e deixe os períodos longos e a pontuação faltando em paz. A revisão existe exatamente para que o rascunho possa ser rápido e feio. Solte as palavras na velocidade da fala; molde-as depois, da mesma forma que você faria para escrever mais rápido com sua voz em qualquer outro contexto.

Local ou nuvem: qual modo para um manuscrito

Para um rascunho de livro, experimente o modo local primeiro. Um manuscrito é o documento que a maioria dos autores mais protege — inacabado, inédito, às vezes sob contrato. É uma escolha estranha guardar no próprio disco e depois rotear sua voz pela nuvem para colocar as palavras lá. Se o seu Mac é Apple Silicon ou o seu PC é dos últimos anos, o local aguenta uma sessão de rascunho completa sem reclamar — e a nuvem vira alternativa, não padrão.

Veja como os três caminhos diferem, porque o app pede que você escolha e prefiro que você escolha bem:

  • Parakeet localMotor TDT da NVIDIA, cerca de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais veloz que o Whisper no CPU. Cobre inglês mais 24 outros idiomas europeus, 25 no total. Sem tradução para inglês, sem vocabulário personalizado. Se você escreve em inglês ou em outro idioma europeu e os nomes dos seus personagens são comuns, esta é a escolha rápida e totalmente offline.
  • Whisper localmais lento que o Parakeet na mesma máquina, mas as versões multilíngues cobrem 99 idiomas e podem traduzir para o inglês, além de suportar vocabulário personalizado — útil quando seu livro é cheio de nomes inventados, lugares e termos que você pode ensinar a soletrar corretamente. As versões somente em inglês são exclusivamente em inglês, não 99. O modelo inglês padrão tem cerca de 480 MB.
  • Cloud (OpenAI, BYOK)maior precisão e acesso à web, usando sua própria chave OpenAI cobrada diretamente pela OpenAI. A transcrição usa gpt-4o-mini-transcribe por padrão. Precisa de internet, então é o único caminho que sai da sua máquina. A opção Cloud faz parte do Whisper Pro.

A verdade simples é que, para o tipo de prosa que preenche um primeiro rascunho, o local é mais do que suficiente. Ambos os motores locais rodam inteiramente na sua máquina, sem enviar nada a um servidor — que é exatamente o que você quer para um manuscrito. Se o seu livro usa muito vocabulário inventado — nomes de fantasia, lugares fictícios, um termo técnico criado que você usa quarenta vezes — o vocabulário personalizado do Whisper local é o recurso decisivo, pois evita que a transcrição adivinhe o mesmo nome de cinco formas diferentes. A nuvem ganha espaço quando você quer precisão máxima em uma sessão de gravação difícil. Para o rascunho do dia a dia, comece local e recorra à nuvem só quando o local deixar a desejar.

Faça a revisão depois que as palavras estiverem no papel

O ditado bruto sai como um texto corrido. Você diz "ela atravessou o quarto não olhou para ele só abriu a janela hm e esperou" — e isso é o muro sem pontuação que qualquer motor de fala te entrega. Está tudo bem — é o acordo que você fez pela velocidade da fala. A revisão é uma passagem separada, e é onde o rascunho volta a ser prosa.

A Digitação por Voz do Windows adiciona pontuação enquanto você fala, e o Ditado do macOS lida com o básico quando você diz "vírgula" ou "ponto". Para uma revisão mais pesada — tirar os "hms", corrigir os períodos longos, transformar um parágrafo falado em algo que você realmente manteria no manuscrito — o Whisper pode executar uma passagem de IA. Diga a frase de ativação "Hey whisper" e o texto é aprimorado antes de chegar. No modelo local, isso passa pelo Ollama; no modo nuvem, usa gpt-5-mini por padrão.

Thinking...
Bruto

ela atravessou o quarto não olhou para ele só abriu a janela hm e esperou o barulho da rua preencher o silêncio

Revisado

Ela atravessou o quarto. Não olhou para ele; apenas abriu a janela e esperou o barulho da rua preencher o silêncio.

Um limite honesto, porque costumam vender o contrário para os autores. A passagem de IA arruma pontuação e vícios de linguagem. Ela não reescreve sua prosa, não corrige a continuidade e não decide se uma cena funciona. Não vai perceber que os olhos do seu herói mudaram de cor entre capítulos — e não deveria — isso é trabalho seu, e é o trabalho que faz o livro ser seu. Trate a revisão como um digitador arrumando a transcrição, não como um coautor. O trabalho de voz te dá um rascunho bruto mais rápido; a escrita de verdade — as escolhas, a estrutura, a frase que ressoa — continua sendo sua.

O mesmo ritmo de falar-e-revisar vai além da ficção — o hábito de rascunho longo é idêntico, seja você escrevendo um romance ou um capítulo de dissertação, porque o fluxo é o mesmo: esboce, narre a seção sem parar, depois revise numa passagem própria.

Quando o nativo já é suficiente

Duas setas em uma placa de sinalização apontando direções diferentes, ilustrando a escolha de ferramenta

Às vezes a ferramenta gratuita que já está no seu computador é a escolha certa — e fingir o contrário seria desonesto. Se você só dita em rajadas curtas — uma linha de diálogo que acabou de surgir, uma nota para si mesmo no esboço, um parágrafo entre reuniões — o sistema operacional resolve de graça. Windows + H no Windows, o atalho de Ditado no Mac. Não instale um app para capturar uma única frase.

Há também uma tarefa que parece ditado de livro, mas não é — e vale a pena nomear para você não escolher a ferramenta errada. Transcrever um arquivo de áudio gravado — uma entrevista que você gravou, um áudio de voz de si mesmo pensando em voz alta numa caminhada, a gravação de um evento de autores — é uma tarefa diferente de ditar ao vivo. O ditado digita as palavras que você fala no microfone agora; não é feito para processar uma gravação com múltiplos falantes depois do fato. Para isso, use um serviço feito para transcrição de arquivos de áudio. Ditado ao vivo e transcrição de áudio gravado são dois trabalhos diferentes, e uma ferramenta que é ótima em um geralmente é medíocre no outro.

Recorra a uma ferramenta dedicada e global quando os nativos começarem a atrapalhar: capítulos inteiros em vez de rajadas, privacidade offline para um manuscrito inédito, vocabulário inventado que você precisa soletrar de forma consistente, ou simplesmente querer um atalho que funcione da mesma forma no Scrivener, no Word e no seu e-mail. Abaixo desse nível, use o que é gratuito. Não vou te dizer para instalar um software para ditar uma lista de compras.

Se seu projeto é acadêmico e não de ficção, a mesma lógica capítulo por capítulo se aplica em ditar uma dissertação, onde o vocabulário inventado vira jargão técnico da área e o argumento de privacidade fica ainda mais forte.

Nenhum app escreve o livro. Nunca vai escrever — e nos dias em que a cena não vem, isso é uma pequena misericórdia: não há software para culpar, só o trabalho. O que o ditado muda é a velocidade da primeira passagem bagunçada: esboce, narre, revise depois. Escrevi a maior parte deste guia falando para a tela e só olhei para as palavras quando todas estavam no papel. Os três primeiros parágrafos que tentei aperfeiçoar enquanto falava ainda são os três piores que escrevi.

Narre o próximo capítulo diretamente para a página

Esboce a cena, segure o atalho, narre até o fim, solte. O rascunho aparece no manuscrito onde seu cursor está — e em qualquer outro app também.

Modo local gratuito para qualquer conta conectada. Sem cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê os e-mails de suporte — provavelmente ditando as respostas.

Leitura adicional