Por Denys Medvediev

Guia

Ditado por voz para aprendizes de inglês

Se o inglês não é seu idioma nativo, você pode escrever em inglês falando. Pressione um atalho, fale, e o texto limpo aparece no cursor em qualquer aplicativo. Uma passagem de IA ajusta a gramática e remove as palavras de preenchimento. É uma ferramenta de escrita, não um tutor de pronúncia.

Última atualização: junho de 2026

Um laptop e um caderno sobre uma mesa perto de uma janela ensolarada, evocando estudo de idiomas e escrita

O ditado por voz para aprendizes de inglês permite que falantes não nativos escrevam em inglês falando em vez de digitando. Uma ferramenta como o Whisper transcreve o inglês falado no cursor em qualquer aplicativo, e uma passagem de IA corrige a gramática e remove as palavras de preenchimento. O reconhecimento de sotaque é bom, mas não perfeito — é uma ferramenta de escrita, não um professor de inglês.

O inglês é meu terceiro idioma. Aprendi depois do ucraniano e do russo, principalmente por documentação e relatórios de bugs, o que é exatamente tão romântico quanto parece. Por anos, a parte lenta de escrever em inglês não era o raciocínio. Era a digitação — caçar a palavra certa enquanto meus dedos ficavam para trás, duvidar da ortografia, perder a frase que eu tinha na cabeça em algum lugar entre o teclado e a tela.

Falar é mais rápido do que digitar em qualquer idioma, incluindo um que você ainda está aprendendo. O ditado por voz fecha essa lacuna: você diz a frase em inglês que já consegue falar em voz alta, e uma ferramenta a escreve para você. O detalhe que ninguém menciona é que ela ouve seu sotaque, não sua nota. Ela é boa com sotaques hoje em dia, de verdade. Só que não é um professor, e vou ser honesto sobre os dois lados.

Aqui está a versão direta. O ditado por voz moderno roda na família de modelos Whisper, treinados em um enorme conjunto de áudio do mundo real em muitos sotaques. Isso significa que um falante não nativo de inglês pode ditar e obter um texto utilizável na maior parte do tempo — não perfeito, mas um rascunho sólido que você depois corrige.

Então a pergunta para quem está aprendendo inglês não é "será que vai me entender". Na maioria das vezes, vai. As perguntas reais são quais modelos lidam melhor com sotaques e idiomas, se vale a pena rodar localmente ou na nuvem, e como usar a passagem de IA para transformar um rascunho falado em inglês escrito limpo. Vou explicar tudo isso, mostrar como configurar em dois minutos e dizer quando uma ferramenta de ditado é a escolha errada para o que você realmente precisa.

Por que escrever em inglês por voz ajuda quem não é nativo

Um livro de idiomas aberto e um caderno ao lado de um laptop sobre uma mesa de madeira

A parte difícil de escrever em um segundo idioma raramente é ter as ideias. É o atrito entre a ideia e a página. Você sabe o que quer dizer. Consegue dizer em voz alta. Mas digitar significa lutar contra a ortografia, a ordem das palavras e o layout do teclado enquanto a frase que você tinha em mente vai evaporando. Falar elimina boa parte dessa luta.

O ditado produz em torno de 145 palavras por minuto, contra cerca de 40 na digitação. Para quem é nativo, isso já é um bom ganho. Para quem está compondo em seu segundo ou terceiro idioma, é ainda maior, porque digitar em um idioma que não é o seu é mais lento e mais sujeito a erros. Você aproveita o esforço economizado na parte que importa — dizer certo — em vez de gastar com a mecânica.

E existe um benefício mais sutil. Quando você fala uma frase e a vê escrita de volta, descobre rapidamente se ela realmente faz sentido. Uma expressão estranha parece estranha na tela de um jeito que nem sempre soa assim na sua cabeça. Esse ciclo de feedback é útil para quem está aprendendo, da mesma forma que ajuda um aluno a transformar uma aula em anotações. Não vai corrigir sua gramática sozinha — isso é a passagem de IA, duas seções mais à frente — mas ver suas próprias palavras na página já é uma pequena lição.

Pressione o atalho, fale em inglês, o texto aparece no cursor

A mecânica é simples, e é justamente esse o apelo. Você pressiona um atalho, fala, solta a tecla, e a transcrição é colada no cursor onde quer que haja um campo de texto ativo. O Whisper mantém uma pequena janela depois que você solta a tecla, para que sua última palavra não seja cortada — útil quando você ainda está encontrando o fim de uma frase em inglês. Como cola no cursor do sistema operacional, funciona da mesma forma no seu e-mail, em um Google Doc, em uma caixa de chat ou em uma tarefa escolar.

Não é necessário configurar nada em cada aplicativo. Sem extensão de navegador, sem plugin, sem token para colar. Seu cursor está na caixa, você fala, as palavras aparecem. Uma pequena cápsula aparece enquanto você fala para que você saiba que está ouvindo:

Cancel
A sobreposição de gravação: uma pequena cápsula que aparece enquanto você fala, indicando que o Whisper está ouvindo.

O atalho vale a pena configurar uma vez e esquecer. No Windows é Ctrl+Space; no Mac é Command+Option, um push-to-talk de teclas modificadoras que você mantém pressionado enquanto fala. Ambos podem ser alterados nas Configurações se entrarem em conflito com algo que você já usa. Se você já configurou o ditado por voz no Google Docs, é a mesma ideia, só que não fica preso em um único aplicativo — a mesma tecla preenche qualquer campo em toda a sua tela.

Configure em dois minutos (Windows ou Mac)

Você precisa de um Mac com Apple Silicon ou de um PC com Windows 10 ou mais recente, um microfone funcionando e qualquer aplicativo onde queira escrever. Todo o pipeline local é gratuito para qualquer conta com login, sem necessidade de cartão ao se cadastrar. Veja a sequência.

Passo 1 — Instale o Whisper e faça login.

Baixe pela página de download, instale e crie uma conta gratuita. Sem cartão. Todo o pipeline de transcrição local fica disponível imediatamente.

Você saberá que funcionou quando o ícone do aplicativo aparecer na bandeja e o assistente de configuração oferecer a escolha de um modelo.

Passo 2 — Escolha um caminho de transcrição.

O aplicativo não escolhe por você. Você tem três opções: Nuvem (OpenAI, use sua própria chave), Parakeet local ou Whisper local. Para tolerância a sotaques e tradução, os modelos Whisper multilíngues são os que mais importam — mais sobre isso a seguir.

Você saberá que funcionou quando um modelo terminar de ser baixado e aparecer como pronto.

Passo 3 — Confirme seu atalho.

O padrão no Windows é Ctrl+Space; no Mac é Command+Option pressionado como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando solicitado; sem ela, o recurso de colar no cursor não consegue alcançar outros aplicativos.

Você saberá que funcionou quando uma gravação de teste for colada em qualquer campo de texto.

Passo 4 — Posicione o cursor em uma caixa de texto e fale.

Abra seu e-mail, um documento ou um chat, clique na caixa, mantenha o atalho pressionado, diga uma frase em inglês, solte. A transcrição aparece onde o cursor está.

Você saberá que funcionou quando sua frase falada em inglês aparecer na caixa como texto.

Whisper
O aplicativo desktop Whisper real na tela de configurações, com os painéis de Transcrição e IA abertos.

A parte lenta é o download do modelo, não a configuração. Todo o resto são os quatro passos acima. Uma vez em execução, escrever um e-mail em inglês deixa de ser uma tarefa de digitação e passa a ser uma tarefa de fala — que, quando o inglês é a parte que você ainda está praticando, é justamente a parte que você quer preservar.

ditado por voz no Windows · no Mac

Como ele lida com sotaques, e o truque dos 99 idiomas

Deixa eu ser direto sobre sotaques, porque aqui a resposta honesta importa. Os modelos do Whisper foram treinados em um amplo conjunto de falas do mundo real, incluindo muito inglês com sotaque não nativo. Na prática, isso significa que um sotaque forte mas não nativo costuma ser transcrito com precisão. Costuma. Sotaques mais carregados, fala rápida, ruído de fundo, ou um nome e um termo técnico na mesma frase ainda podem causar erros às vezes. É bom. Não é mágica, e quem te disser que funciona perfeitamente com qualquer sotaque está te vendendo uma demo, não um uso real.

Dois ajustes práticos movem a agulha mais do que a escolha do modelo. Primeiro, o microfone — um microfone USB de baixo custo faz mais pela precisão do que qualquer upgrade de modelo, ponto final. Falar com clareza e um pouco mais devagar também ajuda, o que não é nenhum sacrifício quando você está praticando inglês de qualquer forma. Segundo, a família de modelos. Os modelos Whisper multilíngues cobrem 99 idiomas e tendem a lidar melhor com sotaques em inglês do que as versões só em inglês, porque ouviram muito mais variações do mundo. O Parakeet local cobre inglês mais 24 outros idiomas europeus — 25 no total — e é a opção local mais rápida, mas não traduz. Os modelos .en em inglês puro são exatamente isso: só inglês, sem tradução.

Esse último ponto abre um truque genuinamente útil para quem está aprendendo. Os modelos Whisper multilíngues conseguem traduzir para o inglês enquanto transcrevem. Então, quando uma frase em inglês não vem — a palavra está na ponta da língua no seu idioma nativo mas sumiu em inglês — você pode dizê-la no seu idioma e receber um rascunho em inglês de volta. Não é uma tradução polida, e eu não enviaria sem revisar, mas como forma de rascunhar no idioma em que você pensa e depois refinar no idioma que está aprendendo, isso remove uma barreira real. Diga no idioma em que você pensa; corrija no idioma que está aprendendo.

Local ou nuvem: qual modo serve melhor para quem aprende inglês

Para a maioria das escritas em inglês para ESL — e-mails, tarefas, mensagens, um primeiro rascunho de um texto — o modo local é suficiente, e é gratuito e offline. A nuvem vale a pena quando você quer precisão máxima em uma gravação difícil ou precisa pesquisar algo no meio de uma frase. Veja como os três caminhos diferem, porque o aplicativo pede que você escolha e prefiro que você escolha bem.

A divisão se resume a velocidade, cobertura de idiomas e para onde vai a sua voz.

  • Parakeet localMotor TDT da NVIDIA, cerca de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais rápido que o Whisper na CPU. Cobre inglês mais 24 outros idiomas europeus, 25 no total. Sem tradução para o inglês. Se seu idioma nativo é europeu e você escreve em inglês, esta é a escolha rápida e totalmente offline.
  • Whisper localmais lento que o Parakeet na mesma máquina, mas os modelos multilíngues cobrem 99 idiomas, tendem a lidar melhor com sotaques e conseguem traduzir para o inglês. Escolha este para chinês, japonês, coreano, árabe ou qualquer idioma que o Parakeet não consiga, e para o truque de rascunhar no seu idioma. O modelo inglês padrão tem cerca de 480 MB.
  • Nuvem (OpenAI, BYOK)melhor precisão e acesso à web, usando sua própria chave OpenAI cobrada diretamente pela OpenAI. A transcrição é executada em gpt-4o-mini-transcribe por padrão. Precisa de internet, então é o único caminho que sai da sua máquina. A superfície de Nuvem faz parte do Whisper Pro.

A verdade sem rodeios é que, para a escrita cotidiana em inglês, o modelo Whisper multilíngue local cobre bem a maioria dos aprendizes: 99 idiomas, tolerância razoável a sotaques, tradução para o inglês quando precisar, e nada enviado a um servidor. Ambos os motores locais rodam completamente na sua máquina, o que importa se você estiver ditando algo que prefere manter privado — um texto pessoal, uma candidatura a emprego, uma mensagem sobre a qual você está nervoso. Comece local. Recorra à nuvem só quando o local não atender à precisão que você precisa.

Transformando um rascunho falado em inglês escrito limpo

O ditado bruto sai como um bloco sem pontuação, em qualquer idioma. Você diz uma frase da forma que diria em voz alta — com uma palavra de preenchimento, uma autocorreção, uma vírgula que não foi vocalizada — e é isso que o motor de fala devolve. Para quem está aprendendo, é aqui que o ditado por voz mostra seu valor, porque a passagem de limpeza faz a parte mais difícil em um segundo idioma.

O Whisper pode executar uma passagem de IA no texto bruto antes que ele apareça. Diga a frase de ativação "Hey whisper" e o rascunho falado é aprimorado — palavras de preenchimento removidas, pontuação adicionada, o bloco dividido em frases, deslizes óbvios corrigidos. Em um modelo local, isso roda pelo Ollama; no modo nuvem, é o gpt-5-mini por padrão. Ele organiza a gramática e a estrutura em vez de reescrever seu significado, então o resultado ainda soa como você, só mais limpo.

Thinking...
Bruto

então hm eu quero perguntar sobre o o prazo da tarefa porque eu não tenho certeza é sexta ou segunda que vem e também posso enviar por e-mail

Limpo

Quero perguntar sobre o prazo da tarefa, porque não tenho certeza se é sexta-feira ou segunda-feira que vem. Também posso enviar por e-mail?

Um limite honesto. A passagem de IA corrige gramática e estrutura; ela não ensina por que fez a mudança. Se seu objetivo é aprender a regra, leia o antes e o depois lado a lado — a diferença é a lição. Se seu objetivo é apenas enviar uma mensagem limpa antes de um prazo, deixe que ela limpe e siga em frente. Ambos são usos válidos; são objetivos diferentes, e só você sabe qual deles está buscando hoje.

Esse mesmo fluxo de falar e limpar funciona para tudo que você escreve, não só em um aplicativo — você pode escrever mais rápido com sua voz em e-mails, documentos e chats, então um parágrafo longo vira algumas frases faladas em vez de um muro que você digita palavra por palavra com cuidado.

Quando o ditado por voz é a ferramenta errada para quem aprende inglês

Uma placa de sinalização desgastada apontando em duas direções, ilustrando uma escolha de ferramenta

Prefiro que você vá embora a perder seu tempo, então aqui vai quando uma ferramenta de ditado é a resposta errada. Se seu objetivo é melhorar a pronúncia, isso não é o que você precisa. O ditado por voz transforma sua fala em texto; ele não avalia seu sotaque, não corrige como você pronuncia uma palavra e não diz que "thirty" saiu como "dirty". Para isso, você quer um aplicativo de idiomas focado em pronúncia, um tutor ou um parceiro de conversação. Uma ferramenta de transcrição é uma ajuda para escrita, não um coach de fala, e fingir o contrário seria desonesto.

Mais alguns pontos honestos. Se você só precisa ditar uma mensagem curta, as ferramentas gratuitas já disponíveis na sua máquina cobrem isso — no Windows, pressione a tecla Windows + H para abrir a barra de Digitação por Voz integrada; no Mac, ative o Ditado nas Configurações do Sistema, em Teclado, e no Apple Silicon textos gerais podem ser processados no dispositivo. O do Windows precisa de conexão com a internet e passa pelos servidores da Microsoft, então não é offline. E se você quer uma ferramenta que realmente ensine regras gramaticais com explicações e exercícios, isso é um verificador de gramática ou um aplicativo de aprendizado — a limpeza de IA aqui corrige o texto, não dá aula.

Recorra a uma ferramenta de ditado dedicada em todo o sistema quando a escrita em si for o gargalo: e-mails longos, textos, candidaturas, qualquer coisa que você consiga dizer mais rápido do que digitar em inglês, e quando quiser um único atalho que funcione da mesma forma em todos os aplicativos no Windows e no Mac. Abaixo dessa barra, use o que é gratuito, ou use a ferramenta certa para o trabalho. A escolha certa às vezes aponta para longe de nós, e sempre vou dizer isso.

Se você está escolhendo onde ditar, os guias por plataforma cobrem a configuração em detalhes — ditado por voz no Windows percorre o mesmo fluxo passo a passo em um PC.

O inglês é meu terceiro idioma, e escrevi boa parte deste guia falando para uma caixa de texto, depois deixando a passagem de limpeza corrigir as falhas que eu nunca perceberia de ouvido. Esse é o pitch honesto: não vai deixar seu inglês perfeito, e não vai ensinar as regras, mas vai tirar a frase da sua cabeça e colocá-la na página muito mais rápido do que seus dedos conseguem. A correção ainda é sua. A parte rápida é a ajuda.

Escreva seu próximo e-mail em inglês falando

Mantenha o atalho pressionado, diga em inglês, solte. O texto limpo aparece onde seu cursor está — no e-mail, nos documentos e em todos os outros aplicativos também.

Modo local gratuito para qualquer conta com login. Sem cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê nosso e-mail de suporte, provavelmente ditando as respostas.

Leitura adicional