Por Denys Medvediev

Guia

Dite sua dissertação

Uma dissertação é longa demais para digitar a partir de uma página em branco. Fale o primeiro rascunho em vez disso: pressione um atalho, fale um capítulo, e as palavras aparecem no Word, no Scrivener ou no LaTeX. Depois edite. O modo local é gratuito e funciona sem internet.

Última atualização: junho de 2026

Sala de leitura de uma biblioteca universitária tranquila, com longas mesas de estudo e prateleiras cheias de teses encadernadas

Para ditar sua dissertação, instale uma ferramenta de ditado em todo o sistema, pressione um atalho e fale o rascunho no editor em que você escreve — Word, Scrivener, Google Docs ou um arquivo LaTeX. A transcrição é colada onde está o cursor. Um mecanismo local funciona completamente sem internet e é gratuito para qualquer conta autenticada; depois você edita pelo teclado.

A página mais difícil de uma dissertação é aquela que ainda não tem nada. Você já leu os artigos, já tem o argumento na cabeça, e o cursor fica piscando enquanto você decide como começar uma frase que reescreveu mentalmente nove vezes. Já vi amigos terminando doutoramentos perderem tardes inteiras por causa desse cursor. O raciocínio estava pronto. A digitação era o obstáculo.

Falar é uma forma de superar esse obstáculo. Você consegue dizer uma versão aproximada de um parágrafo no tempo que levaria para digitar metade dele, e uma versão aproximada no papel é algo que dá para corrigir. Uma página em branco não é. Ditar o primeiro rascunho de um capítulo não é sobre digitar mais rápido — é sobre tirar a versão ruim da cabeça para que a versão boa tenha com o que trabalhar.

Aqui está a parte que a maioria dos textos sobre ditado de dissertação ignora. Seu processador de texto é apenas um campo de texto. O editor do Scrivener também é, um Google Doc também é, o corpo de um arquivo `.tex` no seu editor de código também é. Uma ferramenta de ditado que cola no cursor não se importa em qual deles você está. Não há plugin para conectar ao seu gerenciador de referências, nenhum "modo dissertação" especial.

Então a pergunta certa não é "qual app suporta ditado". É "qual ferramenta de ditado funciona por cima do app que já uso para escrever", e para um trabalho de anos, muitas vezes sem financiamento, duas coisas importam mais do que importariam para um e-mail rápido: ela deve funcionar sem internet e numa camada local gratuita, e deve aprender os nomes e o jargão da sua área. Vou percorrer o fluxo de trabalho capítulo a capítulo, configurar tudo em dois minutos e te dizer qual é a única tarefa para uma ferramenta diferente.

Por que estudantes de pós-graduação falam o primeiro rascunho

Mesa coberta de livros acadêmicos abertos, papéis impressos e um notebook durante uma sessão noturna de escrita da tese

O objetivo não é "escrever palavras mais rápido". É "parar de encarar a tela". Um capítulo de dissertação tem entre oito e doze mil palavras, e a primeira versão de cada seção vai ser desajeitada de qualquer forma que você a produza. A única questão é se você produz um rascunho desajeitado em uma tarde falando, ou se fica sem conseguir produzir uma versão limpa por uma semana digitando. Falar vence porque é alérgico ao perfeccionismo. Você não consegue editar uma frase no meio da respiração do jeito que consegue no meio de uma digitação, então as palavras saem e ficam, e você as corrige depois.

Há uma segunda razão, e ela é puramente física. Uma dissertação é o texto mais longo que a maioria das pessoas vai escrever na vida, muitas vezes ao longo de meses de sessões maratona, e as mãos têm opiniões sobre isso. Ditar parte do rascunho significa que parte da escrita do dia acontece com as mãos longe do teclado. Não vou embrulhar isso como uma afirmação médica, porque não é — é um ponto de produtividade e conforto, como levantar a cada hora. Se a tensão nos pulsos é o que te preocupa especificamente, o texto mais detalhado sobre ditado como forma de descansar as mãos cobre o lado de produtividade disso com honestidade. Para a dissertação em si, o ponto é mais simples: você consegue continuar redigindo nos dias em que suas mãos prefeririam que você não digitasse.

E a verdade entediante é que a maior parte de uma dissertação não é a prosa final elegante. É o andaime — o "neste capítulo argumento", os resumos do que fulano encontrou, os parágrafos de ligação entre seções. Esse andaime é exatamente o tipo de coisa que sai bem pela voz e não fica pior do que se você tivesse digitado. Reserve o teclado para as frases que realmente precisam ser precisas.

Pressione um atalho, fale, o texto aparece no seu editor

A mecânica é chata, o que é o maior elogio que posso fazer. Você pressiona um atalho, fala, solta, e a transcrição é colada no cursor de qualquer janela em foco — um título no Word, um documento no Scrivener, um parágrafo num Google Doc, um bloco de comentário no seu arquivo LaTeX. O Whisper mantém uma pequena cauda depois que você solta a tecla, para que a última palavra de uma frase longa não seja cortada. Como ele cola no cursor do sistema operacional, seu editor é apenas "o campo de texto que estiver na frente".

É aí que os tutoriais complicam demais. Não há integração para instalar no Word, nenhum complemento para o Scrivener, nenhum token para colar no seu gerenciador de referências. O cursor está no documento, você fala, as palavras aparecem. Uma pequena cápsula surge enquanto você fala para que você saiba que está sendo ouvido:

Cancel
O indicador de gravação: uma pequena cápsula que aparece enquanto você fala, para que você saiba que o Whisper está ouvindo.

O atalho é a única coisa que vale configurar corretamente antes de uma sessão longa. No Windows é Ctrl+Space; no Mac é Command+Option, um push-to-talk de modificadores que você segura enquanto fala e solta para parar. Ambos são configuráveis nas Configurações se conflitarem com algo — e num ambiente de escrita cheio de atalhos de LaTeX e atalhos de gerenciador de referências, algo sempre conflita. Se você já configurou ditado no Windows ou no Mac antes, é o mesmo músculo, agora apontado para a sua tese.

Configure em dois minutos (Windows ou Mac)

Você precisa de um Mac com Apple Silicon ou um PC com Windows 10 ou mais recente, um microfone funcionando e seu editor aberto — Word, Scrivener, uma aba do navegador com o Google Docs ou seu editor de LaTeX. Todo o pipeline local é gratuito para qualquer conta autenticada, sem método de pagamento solicitado no cadastro, o que importa quando o trabalho vai levar anos e a situação de financiamento é o que é. Aqui está a sequência.

Passo 1 — Instale o Whisper e faça login.

Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. Todo o pipeline de transcrição local fica disponível imediatamente.

Você saberá que funcionou quando o ícone do app aparecer na bandeja e o assistente de configuração oferecer a escolha de um modelo.

Passo 2 — Escolha um caminho de transcrição.

O app não escolhe por você. Você tem três opções: Cloud (OpenAI, com sua própria chave), Local Parakeet ou Local Whisper. Para um rascunho offline longo com termos específicos da área, o Local Whisper é o mais indicado — explicamos o motivo duas seções adiante.

Você saberá que funcionou quando um modelo terminar de baixar e aparecer como pronto.

Passo 3 — Confirme seu atalho.

O padrão no Windows é Ctrl+Space; no Mac é Command+Option mantido como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando solicitado; sem ela, o recurso de colar no cursor não consegue alcançar seu editor.

Você saberá que funcionou quando uma gravação de teste for colada em qualquer campo de texto.

Passo 4 — Coloque o cursor no seu rascunho e fale.

Abra o capítulo, clique onde o próximo parágrafo vai ficar, segure o atalho, diga algumas frases, solte. A transcrição aparece no cursor, dentro do documento.

Você saberá que funcionou quando o parágrafo que você falou estiver no capítulo como texto.

Whisper
O app Whisper para desktop real na tela de configurações, com os painéis de Transcrição e IA abertos.

A parte demorada é o download único do modelo, não a configuração. Tudo depois disso são os quatro passos acima. Uma vez que funciona, abrir um capítulo deixa de ser "encontrar energia para digitar" e passa a ser "encontrar energia para falar", o que numa quinta-feira cansativa é um bar muito mais baixo.

voz para texto no Windows · no Mac

Redigindo um capítulo por voz e ensinando o jargão

O fluxo de trabalho que funciona para textos longos é falar em blocos, editar em passagens. Não tente ditar um capítulo polido do começo ao fim — essa é a mentalidade de digitação usando um microfone. Em vez disso, abra o esboço, coloque o cursor abaixo de um título e diga a versão aproximada daquela seção em voz alta, como explicaria para um colega de laboratório numa conversa informal. Uma seção, algumas centenas de palavras, solte a tecla, passe para o próximo título. Você está preenchendo o esqueleto, não esculpindo a estátua. A escultura é a edição, e ela vem depois com o teclado.

O que faz ou desfaz o ditado acadêmico é o vocabulário. Uma dissertação está cheia de palavras que nenhum transcritor geral espera — os métodos que você cita, os produtos químicos, construtos ou teoremas da sua área, e o pior de tudo: os sobrenomes. "Foucault", "Nyquist", "Bourdieu", o nome polonês ou coreano de um coautor escrito exatamente do jeito que a citação precisa. Um mecanismo geral vai adivinhar, e vai adivinhar errado, da mesma forma que o autocorreto destrói um nome que nunca viu. É aqui que o Local Whisper se justifica: ele suporta vocabulário personalizado — você fornece uma lista de termos-chave, os nomes de autores e termos da área que você usa com frequência, e ele prioriza transcrever esses termos corretamente. O Parakeet, o mecanismo local mais rápido, não suporta termos-chave, então para um rascunho cheio de jargão o Whisper é a escolha local. O modo Cloud também tem boa precisão, mas a opção de vocabulário personalizado é especificamente um recurso do Local Whisper.

Configure essa lista uma vez no início da dissertação e ela se paga por dois anos. Adicione os vinte ou trinta termos e nomes que se repetem no seu trabalho, e o texto que você recebe de volta para de precisar de um localizar-e-substituir para "Burdew" a cada parágrafo. Você ainda vai corrigir coisas — nenhuma ferramenta acerta todos os nomes na primeira tentativa — mas você estará corrigindo erros pontuais em vez de redigitar cada termo técnico que usa.

Local ou cloud para trabalhos privados de longa duração

Para uma dissertação, eu começaria com o local, e não só por princípio. Pesquisa não publicada, um argumento inacabado, material de entrevista que você é obrigado a manter confidencial — nada disso tem razão para viajar até o servidor de alguém para que você possa digitá-lo com a voz. Um mecanismo local roda completamente na sua máquina, sem enviar nada a lugar nenhum, o que é o mesmo raciocínio por trás de escolher uma configuração privada de voz para texto offline para começar. Também não tem custo por minuto nem exige internet, o que importa quando a escrita acontece no subsolo de uma biblioteca com Wi-Fi ruim ao longo de alguns anos sem financiamento. Veja como os três caminhos diferem, porque o app te obriga a escolher.

O app não escolhe por você, então escolha com o seu rascunho real em mente:

  • Local ParakeetO mecanismo TDT da NVIDIA, cerca de 600 MB, e a opção local mais rápida — 5 a 10 vezes mais rápido que o Whisper em CPU. Inglês mais 24 outros idiomas europeus, 25 no total. Sem tradução para o inglês e sem vocabulário personalizado, então é a escolha errada para uma tese cheia de jargão. Bom para redigir rapidamente em inglês simples, onde os termos são comuns.
  • Local Whispermais lento que o Parakeet na mesma máquina, mas cobre 99 idiomas, consegue traduzir para o inglês e, crucialmente, suporta vocabulário personalizado e termos-chave para os termos da sua área e os nomes que você cita. Para uma dissertação cheia de sobrenomes e jargão, este é o mecanismo local a usar. O modelo padrão de inglês tem cerca de 480 MB; modelos maiores trocam velocidade por precisão.
  • Cloud (OpenAI, BYOK)melhor precisão bruta e acesso à web em tempo real, usando sua própria chave OpenAI cobrada diretamente pela OpenAI. A transcrição usa gpt-4o-mini-transcribe por padrão. Precisa de internet, então é o único caminho que sai da sua máquina — tudo bem para seções não sensíveis, menos ideal para material confidencial. A interface Cloud faz parte do Whisper Pro.

A resposta honesta é que, para a maior parte de uma dissertação, o Local Whisper com uma boa lista de vocabulário é mais que suficiente, não custa nada e fica no seu laptop. O Cloud ganha espaço quando você quer precisão de alto nível em uma gravação difícil ou precisa de um dado da web no meio da frase. Para dois anos de rascunho confidencial, o local é o padrão e o cloud é a válvula de escape ocasional.

Transformando um capítulo falado em prosa para entregar

O ditado bruto sai como um bloco corrido. Você diz "então este capítulo examina como a noção de disciplina de Foucault se aplica à vigilância moderna no ambiente de trabalho a partir do trabalho empírico do capítulo três", e isso é o bloco sem pontuação que qualquer mecanismo de voz devolve. Tudo bem — é um primeiro rascunho, e primeiros rascunhos devem ser feios. A limpeza é onde ele se torna legível.

O Ditado por Voz do Windows adiciona pontuação enquanto você fala, e o Dictation do macOS lida com pontuação básica quando você diz "vírgula" ou "ponto". Para uma limpeza mais pesada — eliminar os "ééés", corrigir os blocos corridos, quebrar uma frase sem fôlego em três — o Whisper pode executar uma passagem de IA antes que o texto chegue. Diga a frase de ativação "Hey whisper" e o texto é aprimorado no caminho. Em um modelo local que roda pelo Ollama, completamente offline; no modo cloud, usa gpt-5-mini por padrão. Ele cuida da mecânica para que você possa gastar seu tempo de edição no argumento, não nas vírgulas.

Thinking...
Bruto

então este capítulo examina como a noção de disciplina de foucault se aplica à vigilância moderna no ambiente de trabalho a partir do trabalho empírico do capítulo três ééé e os dados das entrevistas

Limpo

Este capítulo examina como a noção de disciplina de Foucault se aplica à vigilância moderna no ambiente de trabalho, com base no trabalho empírico do Capítulo Três e nos dados das entrevistas.

O que uma passagem de IA não vai fazer, e não deve, é a edição acadêmica. Ela não verifica se sua citação sustenta a afirmação, não corrige uma data errada, nem percebe que o parágrafo quatro contradiz o parágrafo um. Isso é trabalho seu, e é o trabalho que importa, e o ditado não finge o contrário. A sequência honesta é: fale o rascunho bruto, execute a limpeza para que a mecânica esteja sã, depois leia cada linha você mesmo com o teclado e os últimos comentários do seu orientador abertos. A ferramenta entrega um rascunho legível uma hora mais cedo. Ela não entrega um argumento defensável — essa parte ainda é sua, como deve ser.

Esse ritmo de falar-e-limpar vai além da dissertação também — você pode escrever mais rápido com a voz nos seus e-mails, pedidos de bolsa e nas cartas de apresentação do mercado de trabalho, tudo com o mesmo atalho.

Quando o ditado é a ferramenta errada para o trabalho

Duas setas em uma placa de madeira apontando em direções diferentes, ilustrando uma escolha de ferramenta

O ditado transcreve as palavras que você fala. Não é um serviço de transcrição para palavras que outras pessoas falam, e confundir os dois vai custar uma tarde frustrante. O descompasso mais comum em trabalhos de pesquisa: transformar uma entrevista gravada, grupo focal ou sessão de campo em texto. Esse é um trabalho diferente. Você não está redigindo — está transcrevendo uma gravação com múltiplos falantes, muitas vezes com sobreposições, sotaques e necessidade de identificação dos falantes e timestamps. Para isso, use um serviço de transcrição dedicado, feito para arquivos de áudio. Um atalho de ditado ao vivo tem a forma toda errada para isso; ele ouve o seu microfone agora, não um MP3 de duas horas da semana passada.

E para trechos genuinamente curtos, a ferramenta certa é a gratuita que já está na sua máquina. Se você vai adicionar uma nota de uma linha no gerenciador de referências ou um comentário rápido num documento compartilhado, seu sistema operacional já cobre isso. No Windows, pressione a tecla Windows + H e a barra de Digitação por Voz integrada abre onde quer que o cursor esteja. O porém: ela passa pelos servidores da Microsoft e precisa de internet, então não é uma opção offline, o que importa mais do que o usual para pesquisa confidencial. No Mac, o Dictation permite falar em qualquer lugar onde você pode digitar, configurado nas Configurações do Sistema em Teclado, e no Apple Silicon o texto geral pode ser processado no dispositivo.

Use uma ferramenta dedicada para todo o sistema quando as nativas começarem a atrapalhar: capítulos longos, jargão de área que precisa de vocabulário personalizado, privacidade offline para trabalho não publicado, ou quando você quer um atalho que se comporte da mesma forma no Word, no Scrivener e no seu editor de LaTeX. Abaixo desse limite, use o que é gratuito, e para áudio de entrevistas use algo feito para isso. Não vou te dizer para ditar um capítulo de dissertação com a mesma ferramenta que usaria para transcrever uma gravação — são dois trabalhos diferentes, e fingir que são um só é como as pessoas acabam decepcionadas com ambos.

Nenhum editor jamais lançou um botão de "escrever minha dissertação", e depois de alguns anos nas trincheiras você para de esperar por um. O cursor é a integração: fale no documento, obtenha um rascunho bruto, depois conquiste a versão limpa com o teclado e muito café. Tire a versão ruim da sua cabeça e coloque na página onde você pode brigar com ela. A briga é o trabalho de verdade — o ditado apenas te leva à briga algumas horas mais cedo, o que nos dias em que a página está em branco é tudo que importa.

Fale o próximo capítulo para a existência

Abra o rascunho, coloque o cursor abaixo do título, segure o atalho e diga a versão aproximada em voz alta. Edite depois. Uma página em branco é mais difícil do que uma página ruim.

Modo local gratuito para qualquer conta autenticada. Não é necessário cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê nosso e-mail de suporte, provavelmente ditando as respostas.

Leitura adicional