Por Denys Medvediev

Guia

Software de ditado para jornalistas

Repórteres redigem mais rápido falando do que digitando. Pressione um atalho, fale e suas palavras aparecem no cursor em qualquer aplicativo — seu CMS, um documento, um arquivo de notas. Isto é para compor seu próprio texto e anotações de campo, não para transcrever entrevistas.

Última atualização: junho de 2026

Caderno aberto de repórter e caneta ao lado de um laptop sobre uma mesa escura de redação, evocando anotações e redação

O software de ditado para jornalistas transforma as palavras faladas do repórter em texto no cursor, em qualquer aplicativo. Um atalho de teclado o inicia; o rascunho, o lead ou a nota de campo aparece onde o cursor está. Foi criado para compor seu próprio texto por voz e funciona offline para notas sensíveis. Ele não transcreve entrevistas — essa é uma tarefa separada.

O dia de um repórter é basicamente digitar as coisas duas vezes. Você rabisca uma citação no caderno na escadaria do fórum e depois passa a limpo na mesa. Você elabora o lead mentalmente no caminho de volta e perde metade dele até abrir o laptop. O teclado é o gargalo, e o teclado não se importa que você está no prazo.

As pessoas pesquisam "software de ditado para jornalistas" esperando encontrar uma ferramenta que faça tudo — redigir, anotar e gravar a reunião da câmara municipal. Não existe isso, e prefiro dizer já na segunda linha a fazer você perder a tarde. O ditado serve para as palavras que você mesmo compõe. Gravar uma fonte e transformar esse áudio em transcrição literal é uma máquina completamente diferente. Este guia trata do primeiro trabalho e diz claramente quando recorrer ao segundo.

Esta é a distinção que a maioria das páginas que perseguem essa palavra-chave propositalmente confunde. Ditado é você falando e o computador digitando o que você diz, no campo onde o cursor está. Transcrição é gravar outra pessoa — uma fonte, um painel, uma ligação — e receber um registro em texto depois. Mesma ideia bruta, ferramenta completamente diferente, apostas completamente diferentes.

Então a pergunta real não é "qual é o melhor aplicativo de ditado para jornalistas". É "o que serve para cada parte do trabalho". Uma ferramenta de ditado por atalho como o Whisper é excelente para redigir seu próprio texto, bater notas de campo e capturar uma ideia antes que ela evapore. Para a entrevista em si — vários interlocutores, citações que você vai publicar e defender — você precisa de um serviço dedicado de transcrição. Vou detalhar o lado do ditado, configurar em dois minutos e traçar a linha com clareza para que você não confie a ferramenta errada com uma citação.

Por que repórteres recorrem ao ditado

Caderno espiral de repórter, caneta e café sobre uma mesa de madeira, sugerindo captura rápida de notas

O trabalho real a fazer é velocidade antes que o pensamento esfrie. O repórter sai da coletiva de imprensa com o lead meio pronto na cabeça, tem o ângulo claro caminhando até o carro, tem o lide formulado perfeitamente no banho — e então senta diante do teclado e vê um terço escorrer pelos dedos. Falar é por volta de 145 palavras por minuto. Digitar é cerca de 40. É nessa lacuna que os bons primeiros rascunhos vão morrer.

Depois vem a mão. Quem escreve para viver escreve muito, e os pulsos cobram a conta. O ditado não é uma solução médica e não vou fingir que é, mas ele tira o teclado do circuito por um tempo, o que é um alívio real de produtividade num dia pesado de pautas. Você descansa as mãos, o rascunho ainda é escrito e a editoria nunca percebe a diferença. Essa é a proposta toda — não terapia, apenas menos toques entre sua cabeça e a página.

E são as capturas pequenas que somam. A citação que você quer registrar antes de esquecer o fraseado exato. O lembrete para ligar de volta para a segunda fonte. A nota de três linhas sobre como o ambiente estava, que você nunca digitaria com uma mão só caminhando, mas dirá com prazer em voz alta. Nenhum desses é um artigo. Todos são o tecido conjuntivo da reportagem, e todos são mais rápidos falados do que digitados.

Pressione um atalho, fale, as palavras chegam ao rascunho

O mecanismo é simples, que é exatamente o que você quer num prazo apertado. Você pressiona um atalho, fala, solta e a transcrição é colada no cursor em qualquer aplicativo em foco. O Whisper mantém uma pequena cauda depois que você solta, para que sua última palavra não seja cortada. Como a colagem acontece no cursor do sistema operacional, o campo de rascunho do seu CMS, um documento Word, o Google Docs no navegador, um arquivo de notas simples ou uma mensagem no Slack para o editor são todos apenas "uma caixa de texto". Mesmo atalho, mesmo comportamento, em todo lugar.

Essa é a parte que as páginas de destino complicam demais. Não há plugin para conectar ao seu sistema de publicação, não há integração para aguardar da equipe de TI, não há etapa de exportação. O cursor está no rascunho, você fala e as palavras aparecem no rascunho. Uma cápsula pequena aparece enquanto você fala, para que você saiba que está ouvindo e gravando:

Cancel
A sobreposição de gravação: uma cápsula pequena que aparece enquanto você fala, para que você saiba que o Whisper está ouvindo.

O atalho é a única coisa que vale acertar desde o início. No Windows é Ctrl+Space; no Mac é Command+Option, um push-to-talk de modificador que você segura enquanto fala. Ambos podem ser alterados em Configurações se conflitarem com um atalho que sua ferramenta de edição já usa. Um usuário inicial mandou e-mail às 2:14 da manhã — o atalho estava colidindo com o software de áudio dele, e a mensagem terminava com a palavra "inutilizável". Lancei um painel de atalho personalizável oito minutos depois e voltei a dormir. Então agora todo atalho é seu para remapear. Se você já configurou ditado no Windows ou no Mac antes, é a mesma memória muscular apontada para as ferramentas da sua redação.

Configure em dois minutos (Windows ou Mac)

Você precisa de um Mac com Apple Silicon ou um PC com Windows 10 ou mais recente, um microfone funcionando e o que quer que você use para redigir — aberto no aplicativo de desktop ou no navegador. Todo o pipeline local é gratuito para qualquer conta logada, sem exigência de pagamento no cadastro. Aqui está a sequência.

Passo 1 — Instale o Whisper e faça login.

Baixe da página de download, instale e crie uma conta gratuita. Sem cartão. Todo o pipeline de transcrição local é liberado imediatamente.

Você saberá que funcionou quando o ícone do app na bandeja aparecer e o assistente de configuração oferecer a escolha de um modelo.

Passo 2 — Escolha um caminho de transcrição.

O aplicativo não escolhe por você. Você tem três opções: Cloud (OpenAI, use sua própria chave), Local Parakeet ou Local Whisper. Para notas sensíveis e material de fontes, comece local — mais sobre isso duas seções adiante.

Você saberá que funcionou quando um modelo terminar de baixar e aparecer como pronto.

Passo 3 — Confirme seu atalho.

O padrão no Windows é Ctrl+Space; no Mac é Command+Option mantido como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando solicitado; sem ela, a colagem no cursor não consegue alcançar outros aplicativos.

Você saberá que funcionou quando uma gravação de teste for colada em qualquer campo de texto.

Passo 4 — Coloque o cursor no rascunho e fale.

Abra seu CMS, documento ou arquivo de notas, clique no texto, segure o atalho, diga uma frase, solte. A transcrição aparece onde o cursor está.

Você saberá que funcionou quando a frase que você disse estiver no rascunho como texto.

Whisper
O aplicativo desktop real do Whisper na tela de configurações, com os painéis de Transcrição e IA abertos.

A parte lenta é o download do modelo, não a configuração. Todo o resto são os quatro passos acima. Uma vez rodando, tirar um pensamento da sua cabeça e colocá-lo no rascunho deixa de ser uma tarefa de digitação e passa a ser uma tarefa de conversa.

Redigindo textos e capturando notas de campo por voz

Na prática, divide-se em dois modos, e eles têm sensações diferentes. O primeiro é redigir na mesa: cursor no CMS ou no documento, falar o lead, o parágrafo-chave, a seção que você já apurou. Você não vai ditar um texto polido e final — ninguém faz isso — mas vai ter um primeiro rascunho rápido e bagunçado na tela em uma fração do tempo, e editar texto que existe é melhor do que encarar um campo em branco. Os recursos de vocabulário personalizado e hotwords no Whisper local também ajudam aqui, se sua cobertura é cheia de nomes e jargão que um modelo genérico erra.

O segundo modo é a captura em campo, e é aqui que o atalho ganha seu lugar. Você está saindo de uma audiência e diz as três coisas que não quer perder, direto em um arquivo de notas. Você registra um número de telefone, um follow-up, o fraseado exato de uma declaração on-the-record que anotou em taquigrafia. Esses não são para publicação imediata — são seu material bruto, o que você de outra forma digitaria mais tarde a partir de um rabisco ilegível. Diga uma vez, claramente, enquanto está fresco.

Um extra genuinamente útil no modo Cloud, e vou ser honesto sobre o escopo: você pode dizer a frase de ativação "Hey whisper" para fazer uma busca rápida na web no meio do rascunho — uma data, uma grafia, um título — e a resposta volta em alguns segundos. É uma conveniência de verificação rápida de fatos, não um motor de pesquisa, e um jornalista verifica qualquer coisa importante contra uma fonte real de qualquer forma. Prático para "foi o orçamento de 2019 ou 2020" sem sair do rascunho. Não é substituto para a apuração.

Local ou cloud: qual modo para notas sensíveis

Para um jornalista, comece com o modo local, e o motivo é proteção de fontes, não velocidade. Uma nota sobre uma fonte confidencial, um rascunho inédito de uma reportagem sensível, um arquivo de trabalho que você nunca entregaria a um fornecedor — o modo local roda inteiramente na sua máquina sem nada enviado a um servidor. Esse é o padrão correto quando o material pode colocar uma fonte em risco. O Cloud vira uma saída de emergência para a gravação difícil rara, não a ferramenta do dia a dia. Se o seu Mac tem Apple Silicon ou seu PC é dos últimos anos, o modo local dá conta do ditado diário sem reclamar.

Veja como os três caminhos diferem, porque o aplicativo faz você escolher e prefiro que você escolha bem:

  • Local ParakeetMotor TDT da NVIDIA, cerca de 600 MB e a opção local mais rápida — de 5 a 10 vezes mais rápido que o Whisper na CPU. Cobre o inglês mais 24 outros idiomas europeus, 25 no total. Sem tradução para o inglês. Se você redige em inglês ou em outro idioma europeu, esta é a escolha rápida e totalmente offline.
  • Local Whispermais lento que o Parakeet na mesma máquina, mas as versões multilíngues cobrem 99 idiomas e podem traduzir para o inglês. As versões apenas em inglês são somente para inglês, não 99. Escolha este para chinês, japonês, coreano, trabalho de tradução ou quando quiser vocabulário personalizado e hotwords para uma cobertura cheia de nomes. O modelo padrão em inglês tem cerca de 480 MB.
  • Cloud (OpenAI, BYOK)melhor precisão e a busca rápida na web, usando sua própria chave OpenAI cobrada diretamente pela OpenAI. A transcrição usa gpt-4o-mini-transcribe por padrão. Precisa de internet, então é o único caminho que sai da sua máquina — mantenha-o longe de qualquer coisa sensível a fontes. A superfície Cloud faz parte do Whisper Pro.

A verdade pouco glamourosa é que, para o tipo de redação e anotação que a maioria das reportagens envolve, o modo local é suficiente. Os dois motores locais rodam inteiramente na sua máquina, o que é o ponto central quando o arquivo pode nomear uma fonte. O Cloud ganha seu lugar quando você quer precisão de ponta em um áudio difícil ou a busca rápida no meio do rascunho. Para um hábito diário de arquivo, comece local e recorra ao cloud só quando o local deixar a desejar.

Transformando um rascunho falado em texto limpo

O ditado bruto sai como um bloco corrido. Você diz "tá o conselho votou quatro a três na rezonificação hm Henderson contra aspas isso cria um precedente ruim fecha aspas ligar para o escritório de planejamento amanhã" e é esse muro sem pontuação que qualquer motor de voz entrega. Limpar esse texto é onde os modos divergem.

O Voice Typing do Windows adiciona pontuação enquanto você fala, e o Dictation do macOS cuida do básico quando você diz "vírgula" ou "ponto". Para uma limpeza mais pesada — tirar os cacoetes, corrigir os períodos corridos, transformar um parágrafo falado em algo que você realmente colocaria num rascunho — o Whisper pode rodar uma passagem de IA. Diga "Hey whisper" e o texto é aprimorado antes de chegar. No modelo local, isso passa pelo Ollama; no modo cloud, é o gpt-5-mini por padrão.

Thinking...
Bruto

tá o conselho votou quatro a três na rezonificação hm henderson contra aspas isso cria um precedente ruim fecha aspas ligar para o escritório de planejamento amanhã

Limpo

O conselho votou 4–3 pela rezonificação. Henderson contra: "Isso cria um precedente ruim." Ligar para o escritório de planejamento amanhã.

Uma ressalva importante, porque isto é jornalismo e precisão é o trabalho. Uma passagem de limpeza por IA serve para seus próprios rascunhos e notas — ela organiza as palavras que você disse. Não confie nela para produzir uma citação literal que você vai publicar e defender. Se uma citação precisa ser exata na página, você a confere com a gravação da fonte ou suas notas, sempre. O ditado coloca seu rascunho no papel rápido; ele não certifica uma citação. Quem disser que um motor de voz entrega citações prontas para publicação, palavra por palavra, está vendendo uma demonstração, não um dia de trabalho de verdade.

Esse mesmo fluxo de falar-e-limpar rende bem além da reportagem — você também pode ditar texto limpo em qualquer aplicativo de escrita com um único atalho, então uma longa passagem vira algumas frases faladas em vez de um parágrafo digitado.

Quando pular o ditado e usar uma ferramenta de transcrição

Gravador de mão e microfone sobre uma mesa montada para uma entrevista

Essa é a linha central de todo o guia, então vou ser direto. No momento em que você está gravando outra pessoa — uma entrevista, uma fonte ao telefone, um painel, uma coletiva com várias vozes — o ditado é a ferramenta errada. O ditado foi criado para digitar as palavras que você diz no cursor, um único falante, ao vivo. Ele não separa falantes, não foi ajustado para produzir um registro literal do áudio de outra pessoa, e uma citação que você vai publicar não é o lugar para descobrir isso.

Para esse trabalho, recorra a um serviço dedicado de transcrição — a categoria criada em torno de áudio com múltiplos falantes, identificação de quem fala, marcações de tempo e um registro de texto que você pode conferir contra uma citação. Isso é um produto genuinamente diferente, e um bom vale a pena pagar quando a precisão nas palavras de outra pessoa é o que se entrega. Se você precisa de transcrições certificadas ou com validade jurídica, isso é um serviço especializado ainda mais específico, e não vou fingir que um atalho de ditado cobre isso.

E às vezes a ferramenta certa já está gratuita na sua máquina. Se você vai apenas jogar uma nota de duas linhas ou um lembrete rápido, seu sistema operacional já resolve. No Windows, pressione a tecla Windows + H e a barra de Voice Typing embutida abre no cursor; ela pontua sozinha e é suficiente para trechos curtos, embora passe pelos servidores da Microsoft e precise de internet — portanto não é uma opção offline, o que importa quando a nota nomeia uma fonte. No Mac, o Dictation deixa você falar para inserir texto em qualquer lugar onde possa digitar, configurado em Preferências do Sistema em Teclado, e no Apple Silicon textos gerais podem ser processados no dispositivo. Recorra a uma ferramenta dedicada para o sistema todo quando as nativas começarem a incomodar: rascunhos longos, trabalho multilíngue, privacidade offline ou um único atalho que se comporta da mesma forma no seu CMS, no seu documento e nas suas notas.

Se a maior parte do que você captura são notas curtas em vez de rascunhos completos, a lógica em anotações por voz para texto é o que mais se encaixa, e ela aposta mais na captura rápida do que na composição de textos longos.

O ditado não vai apurar a matéria por você nem vai transcrever sua entrevista — esses nunca foram seus trabalhos. O que ele faz é tirar o teclado do circuito enquanto você redige seu próprio texto e registra suas próprias notas, rápido, offline se o material for sensível. Ditei boa parte deste guia em um arquivo de notas simples com um atalho que não liga para qual janela está em foco, depois limpei e movi para o rascunho. A entrevista que fiz para ele enviei para um serviço de transcrição. Ferramenta certa, trabalho certo. É só isso.

Experimente no seu próximo rascunho

Segure o atalho, fale, solte. O primeiro rascunho chega em qualquer aplicativo onde o cursor estiver — seu CMS, um documento, um arquivo de notas. A entrevista ainda vai para uma ferramenta de transcrição.

Modo local gratuito para qualquer conta logada. Não é necessário cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê os e-mails de suporte, provavelmente ditando as respostas.

Leitura adicional