Por Denys Medvediev

Comparação

Talon Voice alternativa

O Talon Voice foi feito para controle sem usar as mãos e programação por voz, com uma linguagem de comandos para aprender. Se o que você mais quer é ditado simples — falar e ver o texto aparecer em qualquer aplicativo — o Whisper é a alternativa offline mais simples: um atalho, sem gramática para decorar.

Última atualização: junho de 2026

Teclado mecânico e código numa mesa escura, evocando um desenvolvedor escolhendo entre controle por voz e ditado simples

A melhor alternativa ao Talon Voice para ditado simples é o Whisper by Remskill: uma ferramenta push-to-talk para todo o sistema que cola o texto falado em qualquer aplicativo, sem gramática de comandos para aprender. O Talon continua sendo a melhor escolha para controle de verdade sem usar as mãos e para programação por voz. O Whisper roda totalmente offline e é gratuito para qualquer conta conectada.

Testei o Talon por uma semana porque a internet me disse que era a ferramenta de voz para quem leva isso a sério, e a internet estava certa. É um software notável. No terceiro dia eu já tinha rastreamento ocular movendo o cursor e um estalo de barulho que disparava um clique esquerdo. No quinto dia, percebi que não queria nada daquilo. Eu só queria falar e ver as palavras aparecerem na caixa que eu já estava olhando.

Essa diferença é o motivo de muita gente sair procurando uma alternativa ao Talon Voice. Instalaram esperando ditado e encontraram um sistema completo de computação sem usar as mãos, com uma linguagem de comandos anexada. O Talon sem dúvida sabe ditar — mas se ditado é tudo o que você precisa, você assumiu uma curva de aprendizado para conseguir um recurso que uma ferramenta bem menor entrega em dois minutos.

Aqui vai a divisão honesta, porque a resposta depende inteiramente do que você está de fato tentando fazer. O Talon substitui o teclado e o mouse. Você fala os comandos, ele os executa; consegue mover o cursor pelo olhar, clicar por som e rodar scripts personalizados que você escreve em Python. Esse é um problema genuinamente difícil resolvido com competência, e para quem precisa disso, nada chega perto.

Ditado é um problema bem menor. Você quer dizer uma frase e vê-la pousar num e-mail, num documento, num chat, numa mensagem de commit. Sem gramática, sem scripts, sem vocabulário novo. É esse o trabalho que o Whisper faz: um atalho, você fala, o texto é colado no seu cursor em qualquer aplicativo. Vou explicar o que é o Talon, por que as pessoas o deixam de lado para ditado, como configurar a ferramenta mais simples, onde cada um vence e — a parte que a maioria das páginas de comparação pula — exatamente quando você deve ficar com o Talon.

O que é o Talon Voice e para quem ele realmente serve

As mãos de um desenvolvedor descansando longe do teclado enquanto o código preenche a tela, sugerindo programação sem usar as mãos

O Talon Voice, do talonvoice.com, é um substituto de entrada sem usar as mãos para o teclado e o mouse. Essa descrição é deles e é exata. Não é um aplicativo de ditado que ganhou alguns extras; é um sistema de controle no qual o ditado é apenas um modo entre vários. Ele roda no Windows, macOS e Linux, o que já o torna mais abrangente do que muitas ferramentas de voz.

O que ele de fato faz é impressionante. Comandos de voz permitem conduzir a máquina inteira pela fala. O controle por barulho transforma sons — um estalo, um chiado — em cliques, o que é uma mão na roda se falar o dia todo te cansa. O rastreamento ocular move o mouse pelo lugar para onde você olha. E tudo isso é programável em Python: os comandos ficam em arquivos `.talon`, e uma linha tão simples quanto `hello talon: "hello world"` mapeia uma frase para uma ação. Existe um grande conjunto de comandos da comunidade (o projeto `talonhub/community`) que já te dá um vocabulário funcional logo de cara.

O público para quem isso foi feito é claro e real: desenvolvedores que querem programar por voz e pessoas com LER/DORT ou outras condições que não conseguem usar teclado e mouse com conforto. Para computação completa sem usar as mãos, o Talon é uma das melhores ferramentas que existem. A versão base é gratuita; um nível beta pago no Patreon adiciona recursos antecipados, suporte com prioridade maior e opções extras de motor de fala. Nada disso é crítica. É só um trabalho diferente e maior do que aquele que a maioria das pessoas que digita "voz para texto" numa barra de busca está tentando fazer.

Por que as pessoas deixam o Talon de lado para ditado simples

O motivo é a curva de aprendizado, e ela não é um defeito — é o preço do poder. A essência do Talon é que você ensina ao seu computador um vocabulário de comandos e, muitas vezes, escreve ou pega emprestados scripts para ampliá-lo. Para substituir um teclado, você precisa aprender a linguagem que substitui as teclas. É uma troca justa se o objetivo é controle por voz. É um imposto pesado se tudo o que você queria era ditar um e-mail.

Ditado simples não tem vocabulário para aprender. Você aperta uma tecla, fala, solta, e as palavras aparecem onde o cursor já está. O Whisper segura um pequeno intervalo depois que você solta, para que a última palavra não seja cortada, e porque cola no cursor do sistema operacional, o aplicativo de destino é simplesmente "qualquer caixa que está em foco" — Gmail, um Google Doc, Slack, seu editor de código. Uma pequena cápsula aparece enquanto você fala, para você saber que ele está ouvindo:

Cancel
A sobreposição de gravação — uma pequena cápsula que aparece enquanto você fala, para você saber que o Whisper está ouvindo.

O atalho é a única configuração que vale a pena acertar logo de cara. No Windows é Ctrl+Space; no Mac é Command+Option, um push-to-talk só com modificadores que você mantém pressionado enquanto fala. Os dois podem ser trocados se entrarem em conflito com algo. (Minha filha mais nova uma vez me disse que um atalho "não funcionava" no aplicativo de desenho dela. Era um conflito, não um bug — foi assim que aprendi que a pessoa comum não faz a menor ideia do que seja um conflito de atalho. Então agora todo atalho é personalizável.) Não há nenhuma gramática de comandos sobreposta a isso. O atalho é a interface inteira. Se você já configurou ditado no Windows ou no Mac antes, essa é a mesma memória muscular.

Configurando a alternativa de ditado em dois minutos

Você precisa de um Mac com Apple Silicon ou um PC com Windows 10 ou mais recente, um microfone funcionando e qualquer aplicativo em que queira digitar. Todo o pipeline local é gratuito para qualquer conta conectada, sem pedir forma de pagamento no cadastro. Aqui vai a sequência.

Passo 1 — Instale o Whisper e faça login.

Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. Todo o pipeline de transcrição local abre na hora.

Você vai saber que deu certo quando o ícone do aplicativo aparecer na bandeja e o assistente de configuração oferecer a escolha de um modelo.

Passo 2 — Escolha um caminho de transcrição.

O aplicativo não escolhe por você. Você tem três: Nuvem (OpenAI, traga sua própria chave), Parakeet local ou Whisper local. Para ditado privado, comece no local — mais sobre isso duas seções abaixo.

Você vai saber que deu certo quando um modelo terminar de baixar e aparecer como pronto.

Passo 3 — Confirme seu atalho.

O Windows usa por padrão Ctrl+Space, e o Mac, Command+Option mantido como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando for solicitada; sem ela, a colagem no cursor não consegue alcançar outros aplicativos.

Você vai saber que deu certo quando uma gravação de teste for colada em qualquer campo de texto.

Passo 4 — Ponha o cursor em qualquer lugar e fale.

Clique num e-mail, num documento, numa caixa de chat ou no seu editor, mantenha o atalho pressionado, diga uma frase, solte. A transcrição aparece onde o cursor está.

Você vai saber que deu certo quando sua frase falada estiver no campo como texto.

Whisper
O aplicativo de desktop Whisper de verdade, na tela de configurações, com os painéis de Transcrição e IA abertos.

Esse é o contraste em poucas palavras. Configurar o Whisper é baixar um modelo e seguir quatro passos. Não há arquivos `.talon` para escrever, nenhum conjunto de comandos para decorar, nada de Python. Se o seu objetivo é ditado, a ausência de toda essa maquinaria é o recurso.

Como o Talon e o Whisper se comparam, honestamente

Comece pela coisa que o Talon faz e o Whisper não, porque fingir o contrário seria desonesto. O Talon controla o seu computador. Ele move o mouse, clica, troca de janela, executa comandos e — com o conjunto de comandos da comunidade ou seus próprios scripts — edita código por voz com precisão de verdade. O Whisper não faz nada disso. O Whisper transcreve a fala em texto no seu cursor e para por aí. Se você precisa de controle sem usar as mãos, essa comparação já acabou e o Talon vence.

Agora as coisas que importam se o trabalho é ditado. Plataforma: o Talon cobre Windows, macOS e Linux; o Whisper é só Windows e macOS, sem Linux. Configuração: o Talon te pede para aprender um vocabulário de comandos e, com frequência, para criar scripts; o Whisper te pede para escolher um modelo e um atalho. Offline e privacidade: os dois podem rodar localmente, e os modos locais do Whisper mantêm tudo na sua máquina. Idiomas: os modelos multilíngues do Whisper cobrem 99 idiomas e podem traduzir para o inglês; o motor mais leve, Parakeet, cobre 25. E o Whisper adiciona uma passagem opcional de limpeza por IA que remove vícios de linguagem e corrige a pontuação antes de o texto pousar — útil quando você está ditando prosa, menos relevante se você está emitindo comandos.

Sobre custo, os dois têm um caminho gratuito, e prefiro descrever os modelos a chutar números. A versão estável do Talon é gratuita, com um nível beta pago no Patreon para recursos antecipados e motores de fala extras. Todo o pipeline local do Whisper é gratuito para qualquer conta conectada, sem cartão no cadastro; o nível pago acrescenta apenas a parte de nuvem. A verdade sem graça é que eles não competem de fato no preço — competem no que você está tentando fazer. Pague pelo que combina com o trabalho, e não pague uma curva de aprendizado em tempo por um recurso que você consegue em dois minutos.

Local ou nuvem: qual modo do Whisper usar

Se você veio do Talon em parte porque gostava que ele rodava na sua própria máquina, vai querer o modo local aqui também. O ditado costuma carregar o mesmo texto privado que o Talon carregaria — anotações de trabalho, um e-mail para um cliente, um rascunho que você nunca colocaria no servidor de outra pessoa. Se o seu Mac é Apple Silicon ou o seu PC é dos últimos anos, o local dá conta do ditado do dia a dia sem reclamar, e a nuvem vira a saída de emergência em vez do padrão. O aplicativo te faz escolher, então aqui está como os três caminhos se diferenciam.

  • Parakeet localO motor TDT da NVIDIA, com cerca de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais rápido que o Whisper na CPU. Cobre inglês mais 24 outros idiomas europeus, 25 no total. Não traduz para o inglês. Se você dita em inglês ou em outro idioma europeu, essa é a escolha rápida e totalmente offline.
  • Whisper localmais lento que o Parakeet na mesma máquina, mas as versões multilíngues cobrem 99 idiomas e podem traduzir para o inglês. As versões só em inglês são só em inglês, não 99. Escolha esta para chinês, japonês, coreano ou qualquer trabalho de tradução, o que o Parakeet não faz. O modelo padrão de inglês tem cerca de 480 MB.
  • Nuvem (OpenAI, BYOK)a melhor precisão e acesso à web, usando sua própria chave OpenAI cobrada direto pela OpenAI. A transcrição roda por padrão no gpt-4o-mini-transcribe. Precisa de internet, então é o único caminho que sai da sua máquina. A parte de Nuvem faz parte do Whisper Pro.

Para a maior parte do ditado, o local é mais que suficiente. Os dois motores locais rodam inteiramente na sua máquina, sem nada enviado para um servidor, que é justamente o ponto se a privacidade foi parte do motivo de você ter testado o Talon em primeiro lugar. A nuvem se justifica quando você quer precisão de primeira linha numa gravação difícil ou precisa que o modelo busque um fato na web no meio da frase. Comece no local, recorra à nuvem só quando o local deixar você na mão.

A passagem de limpeza por IA que o Talon não se propõe a fazer

O ditado bruto sai como uma frase corrida. Você diz "ok então sobe o fix da auth revisa o script da migration e chama o time antes da daily," e essa é a parede sem pontuação que qualquer motor de fala te entrega, inclusive o modo de ditado do Talon. Transformar isso em texto limpo é um trabalho diferente de controlar a máquina, e é aí que o Whisper se aprofunda.

A Digitação por Voz do Windows adiciona pontuação enquanto você fala, e o Ditado do macOS lida com pontuação básica quando você diz "vírgula" ou "ponto." Para uma limpeza mais pesada — tirar os vícios de linguagem, corrigir as frases corridas, transformar um parágrafo falado em algo que você de fato enviaria — o Whisper pode rodar uma passagem de IA. Diga a frase de ativação "Hey whisper" e o texto é aprimorado antes de pousar. Num modelo local isso roda pelo Ollama; no modo nuvem é o gpt-5-mini por padrão.

Thinking...
Bruto

ok então sobe o fix da auth revisa o script da migration e chama o time tipo antes da daily

Limpo

Ok, então sobe o fix da auth, revisa o script da migration e chama o time antes da daily.

Essa é uma diferença deliberada de objetivo, não um placar. A energia do Talon vai para o controle preciso — o movimento exato do cursor, o comando exato, a edição exata. A do Whisper vai para tornar a prosa falada legível sem você tocar no teclado depois. Se você passa o dia escrevendo e-mails, documentos e mensagens por voz, essa passagem de limpeza é a parte que você vai sentir a cada hora. Se você passa o dia conduzindo o cursor e editando código por voz, ela é irrelevante e é a precisão do Talon que importa.

Esse fluxo de falar e depois limpar é exatamente o que as pessoas querem quando estão ditando comentários de código e prosa sem aprender uma linguagem de comandos antes — coloque as palavras no papel rápido e deixe a passagem de limpeza dar uma ajeitada.

Quando o Talon é a escolha certa, não o Whisper

Dois caminhos se separando, ilustrando a escolha entre o Talon para controle e o Whisper para ditado

Muitas vezes, e eu estaria te fazendo um desserviço se fingisse o contrário. Se qualquer um dos pontos a seguir for verdade, feche esta página e vá instalar o Talon — ele é a ferramenta melhor para o que você precisa.

Você deve escolher o Talon se quer computação de verdade sem usar as mãos: mover o mouse, clicar, trocar de janela e operar a máquina inteira sem tocar no teclado. Você deve escolher o Talon se programa por voz, onde a gramática de comandos e o scripting em Python deixam você digitar símbolos, navegar pelo código e fazer edições precisas de um jeito que nenhuma ferramenta de ditado consegue igualar. Você deve escolher o Talon se tem LER/DORT ou outra condição que significa que você não consegue usar teclado e mouse com conforto — ele foi feito exatamente para isso, e o controle por barulho e o rastreamento ocular são recursos reais de acessibilidade, não enfeites. E você deve escolher o Talon se está no Linux, porque o Whisper não roda lá e o Talon roda. A curva de aprendizado é a taxa de entrada para capacidades que o Whisper deliberadamente não tem.

O Whisper é a melhor escolha só quando ditado é o trabalho de verdade: você quer falar e ver texto limpo aparecer em qualquer aplicativo em que esteja, no Windows ou no Mac, sem aprender uma linguagem de comandos para chegar lá. Essa é uma necessidade real e comum, mas é menor que a do Talon. Combine a ferramenta com o trabalho — e se o seu trabalho é o maior, o Talon é genuinamente excelente nisso.

Se você chegou aqui vindo da geração mais antiga de softwares de voz, e não do próprio Talon, as trocas em deixar o Dragon NaturallySpeaking para trás cobrem o mesmo terreno para quem vem do ditado de comando e controle.

Passei uma semana ensinando ao meu computador um vocabulário e depois percebi que estava tentando encaixar um substituto de teclado num problema que era só "digitar sem digitar". O Talon é a resposta certa para uma pergunta difícil. Para a pergunta fácil — fale, receba o texto, em qualquer caixa — você não precisa de uma linguagem de comandos, você precisa de um atalho. Ditei esta comparação inteira mantendo uma tecla pressionada e falando, e depois deixei a passagem de limpeza corrigir minhas frases corridas. Esse é o truque inteiro, e demorou mais para escrever esta frase do que para aprendê-lo.

Experimente a alternativa que prioriza o ditado

Mantenha o atalho pressionado, fale, solte. Texto limpo pousa em qualquer aplicativo em que seu cursor estiver — sem necessidade de linguagem de comandos.

Modo local gratuito para qualquer conta conectada. Sem cartão para começar.

Foto de Denys Medvediev

Denys Medvediev

Sou eu quem lê o nosso e-mail de suporte, muito provavelmente ditando as respostas.

Leitura complementar