Guia
Software de ditado para médicos
Este é um recurso de ditado para a escrita pessoal do médico — e-mails, cartas de encaminhamento, anotações, tarefas administrativas, rascunhos de pesquisa — por voz em qualquer aplicativo de desktop. Não é uma ferramenta de documentação clínica, prontuário eletrônico ou transcrição médica, e não oferece nenhuma garantia de conformidade regulatória.
Última atualização: junho de 2026

Software de ditado para médicos, no sentido abordado aqui, é uma ferramenta de uso geral que o médico utiliza para sua própria escrita — e-mails, cartas de encaminhamento, anotações pessoais, tarefas administrativas, rascunhos de pesquisa — por voz em qualquer aplicativo de desktop. Um atalho de teclado transcreve a fala no cursor. Funciona offline no modo local e não é uma ferramenta de documentação clínica nem de conformidade regulatória.
Vou começar pelo que este guia não é, porque a busca por "software de ditado para médicos" abre dois mundos completamente diferentes, e confundi-los só faz perder tempo. Um deles é a documentação clínica — ditar notas de pacientes em um prontuário eletrônico, com toda a precisão, integração e exigências de conformidade que isso implica. Essa é uma categoria especializada de produto, e o Whisper não faz parte dela. Vou reforçar isso mais adiante e indicar o tipo certo de ferramenta quando for o caso.
O outro mundo é tudo o que um médico escreve no dia a dia que não tem nada a ver com prontuário de paciente. A carta de encaminhamento. A resposta a um colega. O recado para o gestor da clínica sobre a escala. O primeiro rascunho bagunçado de um artigo. O e-mail para o organizador do congresso. Essa escrita é só digitação, igual à de qualquer outra pessoa — e é sobre ela que este guia trata. Dá para falar em vez de digitar, em qualquer aplicativo do seu computador, com um único atalho.
Esta é a linha que quero traçar com clareza, sem deixar margem para dúvida. O Whisper é uma ferramenta de ditado para produtividade. Ele converte sua fala em texto no cursor, qualquer que seja o aplicativo em foco. Não é uma ferramenta clínica nem de prontuário médico, não serve para informações de saúde protegidas e não oferece nenhuma garantia de HIPAA, prontuário eletrônico ou conformidade regulatória. Não use para ditar notas de pacientes. Use para sua própria escrita não clínica.
Dentro desse limite há bastante espaço. Duas características reais fazem dele uma escolha razoável especificamente para a escrita pessoal do médico. O modo local roda inteiramente no seu computador, então o texto de um e-mail ou rascunho não sai do notebook — uma propriedade real de onde o processamento acontece, não um certificado de conformidade. E o Whisper local aceita um vocabulário personalizado, então a terminologia que você usa todo dia para de sair distorcida. Vou mostrar como configurar, para que tipo de escrita serve e quando é hora de ir atrás de um produto médico dedicado.
O que é isto e o que não é

O que é: uma ferramenta de ditado de uso geral que transcreve suas palavras em qualquer aplicativo de desktop, para que um médico possa redigir e-mails, cartas de encaminhamento, anotações pessoais, mensagens administrativas e textos de pesquisa falando em vez de digitando. Funciona do mesmo jeito no cliente de e-mail, no processador de texto e no navegador, porque cola no cursor sem se importar com qual aplicativo está em foco.
O que não é, dito sem rodeios para não deixar dúvida: não é uma ferramenta de documentação clínica, não é um complemento de prontuário eletrônico, não é transcrição médica e não serve para prontuários de pacientes, diagnósticos ou tratamentos. Não oferece nenhuma garantia de HIPAA, GDPR ou qualquer outra conformidade regulatória. Os motivos honestos pelos quais um médico ainda pode querer usá-la são simples e verdadeiros — cartas longas e rascunhos cansam para digitar, e ditar sua própria correspondência é mais rápido. É só isso. Nada aqui tem relação com saúde do paciente.
Se mantenho esse limite visível é porque os dois mundos são vendidos lado a lado, e a diferença importa. Um produto clínico é construído em torno do prontuário do paciente, com toda a integração e o trabalho de conformidade que isso exige. Uma ferramenta de produtividade como esta é construída em torno do seu cursor e das suas próprias palavras. Mesmo verbo — ditado — responsabilidade completamente diferente. Se o que você está escrevendo é uma nota de paciente destinada ao prontuário, este guia termina aqui — e a seção "quando você precisa de uma ferramenta clínica" é onde você deve ir.
Pressione o atalho, fale, o texto cai no cursor
A mecânica é simples. Você pressiona o atalho, fala, solta — e a transcrição é colada no cursor, em qualquer campo de texto que estiver em foco. O Whisper mantém um pequeno buffer depois que você solta, para que a última palavra não seja cortada. Como cola no cursor do sistema operacional, o aplicativo por baixo é apenas "qualquer caixa de texto" — a janela de composição do e-mail, um documento do Word, um modelo de carta de encaminhamento que você mantém num arquivo, o corpo de um rascunho de pesquisa. Uma pequena cápsula aparece enquanto você fala para indicar que está escutando.
Não há nada para configurar em cada programa. Sem plugin por aplicativo, sem token para colar, sem tarefa de sincronização. O cursor está no e-mail, você fala, as palavras aparecem no e-mail. O mesmo atalho preenche a próxima frase de um rascunho, ou uma mensagem para o gestor da clínica, ou uma anotação para si mesmo entre tarefas. Uma ferramenta, em todo campo de texto que você digitaria de qualquer forma.
O atalho de teclado é a única coisa que vale configurar com cuidado. No Windows é Ctrl+Space; no Mac é Command+Option, um push-to-talk que você segura enquanto fala e solta para parar. Ambos podem ser alterados nas Configurações caso conflitem com algo que você já usa. (Conflito de atalho é o relato de "não está funcionando" mais comum que recebemos — e quase nunca é um bug. São dois aplicativos brigando pela mesma tecla, por isso todos os atalhos aqui são personalizáveis.) Se você já configurou voz para texto no Windows ou no Mac antes, é a mesma memória muscular agora apontada para a sua própria escrita.
Configure em dois minutos (Windows ou Mac)
Você precisa de um Mac com Apple Silicon ou um PC com Windows 10 ou mais recente, um microfone funcionando e o aplicativo em que vai escrever — cliente de e-mail, processador de texto, navegador — aberto. Todo o pipeline local é gratuito para qualquer conta conectada, sem exigir forma de pagamento no cadastro. Veja a sequência.
Passo 1 — Instale o Whisper e entre na conta.
Baixe na página de download, instale e crie uma conta gratuita. Sem cartão. Todo o pipeline de transcrição local fica disponível na hora.
Você vai saber que funcionou quando o ícone do app aparecer na bandeja do sistema e o assistente de configuração oferecer a escolha de um modelo.
Passo 2 — Escolha o caminho de transcrição.
O aplicativo não escolhe por você. Há três opções: Cloud (OpenAI, com sua própria chave), Local Parakeet ou Local Whisper. Para correspondência e rascunhos que você prefere manter no computador, comece pelo local — falo mais sobre qual deles daqui a duas seções.
Você vai saber que funcionou quando um modelo terminar de baixar e aparecer como pronto.
Passo 3 — Confirme seu atalho de teclado.
O padrão no Windows é Ctrl+Space; no Mac é Command+Option, mantido como push-to-talk. No Mac, conceda a permissão de Acessibilidade quando solicitado — sem ela, a colagem no cursor não consegue alcançar outros aplicativos.
Você vai saber que funcionou quando uma gravação de teste for colada em qualquer campo de texto.
Passo 4 — Coloque o cursor num e-mail ou documento e fale.
Abra seu cliente de e-mail ou processador de texto, clique onde digitaria, segure o atalho, diga uma frase e solte. A transcrição aparece onde o cursor estava.
Você vai saber que funcionou quando a frase que você disse aparecer no e-mail ou documento como texto.
A parte demorada é o download do modelo, não a configuração. Todo o resto são os quatro passos acima. Quando estiver rodando, escrever uma carta de encaminhamento longa ou responder àquele e-mail que você estava adiando deixa de ser uma tarefa de digitação e passa a ser uma tarefa de fala — o que, no fim de um dia longo, é um cansaço bem diferente.
A escrita cotidiana e não clínica para a qual serve
Pense na escrita do seu dia que não é prontuário de paciente. A carta de encaminhamento para um colega, que é basicamente texto que você redige de qualquer jeito. O acúmulo de e-mails — a resposta ao congresso, a mensagem para o gestor da clínica, a resposta a uma consulta da administração. A anotação para si mesmo sobre um retorno ou uma leitura que pretendia fazer. O primeiro rascunho grosseiro de um artigo, um resumo de pôster, o texto de um slide de aula. Nada disso é documentação clínica, e tudo isso é mais rápido falado do que digitado.
Uma carta longa é onde o ditado se justifica. A velocidade de digitação sustentada da maioria das pessoas fica em torno de quarenta palavras por minuto; falando, chega perto de cento e quarenta e cinco. Você não vai produzir uma carta finalizada na velocidade da fala — ninguém produz — mas vai ter o corpo do texto pronto em cerca de um terço do tempo, e depois só ajusta. O ponto não é pular a revisão. É mover o devagar primeiro rascunho da velocidade da digitação para a velocidade da fala, de modo que a digitação que sobra seja correção, não composição.
A opinião honesta por trás deste guia todo é que a maioria das ferramentas de produtividade são problemas de digitação disfarçados. Um cliente de e-mail mais rápido, um modelo melhor, uma caixa de entrada mais organizada — tudo é andaime em torno do ato de digitar. A solução real para "passo as noites respondendo correspondência" não é um aplicativo mais elegante. É não digitar. Dite a resposta, corrija as duas palavras que saíram errado, envie e vá embora. Essa é a vitória estrutural, e não tem nada a ver com paciente nenhum.
Local ou nuvem: mantendo seu próprio texto no computador
Para a escrita pessoal de um médico, a propriedade que vale entender é onde o áudio é processado. O modo local roda inteiramente no seu computador — as palavras de um e-mail ou rascunho são transcritas no notebook e nunca enviadas a lugar nenhum. Isso é uma afirmação sobre infraestrutura, não uma garantia de conformidade, e não vou fingir que é. Mas é uma propriedade real e útil quando o que você está ditando é sua própria correspondência e você prefere que ela fique com você. O modo Cloud envia o áudio ao OpenAI para transcrição — o caminho oposto. Veja como as três opções diferem, porque o aplicativo exige que você escolha.
A escolha depende do que você está escrevendo e do que importa para você:
- Local Parakeet — Motor TDT da NVIDIA, cerca de 600 MB, e a opção local mais rápida — de 5 a 10 vezes mais veloz que o Whisper em CPU. Cobre o inglês mais 24 outros idiomas europeus, 25 no total. Sem tradução para o inglês e sem vocabulário personalizado. Se você escreve em inglês e quer ditado rápido e totalmente offline para cartas e e-mails do dia a dia, esta é a escolha mais simples.
- Local Whisper — mais lento que o Parakeet na mesma máquina, mas as versões multilíngues cobrem 99 idiomas e conseguem traduzir para o inglês — e, o que importa aqui, aceita vocabulário personalizado. É aí que sua terminologia para de sair distorcida. Escolha esta opção se seus rascunhos são densos de termos especializados ou se você escreve em outro idioma além do inglês. O modelo padrão em inglês tem cerca de 480 MB. Ainda totalmente no seu computador.
- Cloud (OpenAI, BYOK) — melhor precisão bruta e acesso à web, usando sua própria chave do OpenAI cobrada diretamente pelo OpenAI. A transcrição roda em gpt-4o-mini-transcribe por padrão. Precisa de internet e envia o áudio para fora da máquina — é o único caminho que sai do seu notebook. A superfície Cloud faz parte do Whisper Pro. Para correspondência que você prefere manter local, eu pularia esta opção.
A verdade simples é que, para a maior parte da escrita pessoal de um médico — cartas, e-mails, anotações, rascunhos — o local é suficiente. Os dois motores locais rodam inteiramente no seu computador sem enviar nada a um servidor. A nuvem ganha espaço quando você quer precisão máxima em uma gravação difícil ou precisa de um dado da web no meio de uma frase. Se manter seu próprio texto no seu próprio disco faz parte do motivo pelo qual você está aqui, comece pelo local e deixe a nuvem como exceção. Nada disso muda o limite: ainda não serve para prontuários de pacientes, qualquer que seja o caminho escolhido.
Terminologia, emendas e como limpar um rascunho ditado
O ditado bruto sai como um texto corrido sem pontuação. Você diz "obrigado pelo encaminhamento revi as notas e sugiro que marquemos um retorno em seis semanas e incluamos o gestor da clínica" — e esse é o bloco sem pausa que qualquer motor de fala entrega. Duas coisas transformam isso em uma carta que você enviaria: acertar os termos e organizar a mecânica do texto.
A terminologia é onde o ditado genérico costuma falhar, porque um modelo de fala chuta as palavras que não espera encontrar. O Local Whisper aceita um vocabulário personalizado — sua própria lista de termos especializados, nomes de medicamentos, abreviações, nomes próprios — e tende a favorecê-los, fazendo as palavras que você usa todo dia pararem de sair distorcidas. O Parakeet e a transcrição em nuvem não aceitam essa lista; então, se seus rascunhos dependem muito de terminologia, o Local Whisper é o caminho que a protege. Para a mecânica — tirar os "hum", corrigir o texto corrido, quebrar o monólogo em frases — o Whisper pode rodar uma passagem de limpeza por IA. Diga a frase de ativação "Hey whisper" e o texto é aprimorado antes de ser inserido. No modelo local, isso roda via Ollama; no modo cloud, o padrão é gpt-5-mini.
obrigado pelo encaminhamento revi as notas e sugiro que marquemos um retorno em seis semanas e incluamos o gestor da clínica
Obrigado pelo encaminhamento. Revi as notas e sugiro que marquemos um retorno em seis semanas, incluindo o gestor da clínica.
Uma palavra sobre o que a passagem de limpeza faz — e o que não faz. É uma passagem mecânica — pontuação, palavras de preenchimento, quebras de frase. Não é julgamento de conteúdo e muito menos uma verificação clínica de coisa alguma. Trate-a como um ajuste do seu próprio texto e releia o resultado antes de enviar, da mesma forma que você releria qualquer coisa que tivesse digitado. O modelo corrige o texto corrido; você continua responsável por cada palavra que sai.
Esse mesmo fluxo de falar e depois limpar funciona em toda a sua escrita — você também pode manter anotações rápidas por voz da mesma forma, jogando uma linha em qualquer aplicativo de notas entre tarefas em vez de digitar.
Quando você precisa de uma ferramenta clínica

Esta é a seção mais importante, então vou ser direto. Se o que você está ditando é documentação clínica — uma nota de paciente, qualquer coisa que vá para um prontuário eletrônico, qualquer informação de saúde protegida, ou qualquer transcrição médica que exija conformidade regulatória — então o Whisper é a ferramenta errada. Pare de ler e compre um produto de ditado médico desenvolvido especificamente para isso. O Dragon Medical e softwares similares existem exatamente para esse fim: construídos em torno do prontuário do paciente, integrados a sistemas de prontuário eletrônico e vendidos com toda a infraestrutura de conformidade que a prática clínica exige. O Whisper não tem nada disso e não reivindica nada disso.
O motivo não é modéstia. É que uma ferramenta de ditado para produtividade e um produto de documentação clínica respondem a perguntas diferentes. Um coloca suas próprias palavras no seu próprio e-mail. O outro é responsável por precisão, integração e conformidade em um registro regulado sobre um paciente. Não vou apagar essa linha para mantê-lo nesta página. Se sua tarefa está no prontuário, procure um produto médico desenvolvido para isso — é a resposta honesta, e é a que eu daria a um colega que perguntasse.
Para trechos muito curtos e não clínicos, a ferramenta certa pode já estar gratuita no seu computador. No Windows, a tecla Windows + H abre a barra de Digitação por Voz integrada onde quer que o cursor esteja; ela ponctua sozinha, mas passa pelo servidores da Microsoft e precisa de internet, então não é uma opção offline. No Mac, a Ditação permite falar para inserir texto em qualquer lugar que você possa digitar, e no Apple Silicon o texto geral pode ser processado no próprio dispositivo. Abaixo do nível de "uma carta longa ou um rascunho de verdade", use o que é gratuito. Busque uma ferramenta dedicada quando a escrita ficar longa, a terminologia ficar densa ou você quiser um atalho que funcione da mesma forma em todo lugar — e busque um produto clínico no momento em que um prontuário de paciente estiver envolvido.
Se o motivo pelo qual você se importa com o processamento local é manter seu próprio texto fora dos servidores alheios, o caso mais amplo pelo reconhecimento de voz privado e local explica o que "local" realmente significa e quais são seus limites.
O guia inteiro é uma cerca e bastante espaço atrás dela. A cerca: não é uma ferramenta clínica, não serve para prontuários de pacientes, sem promessa de conformidade. O espaço: todo e-mail, carta, anotação e rascunho que um médico escreve que não tem nada a ver com prontuário, falado em vez de digitado, em qualquer aplicativo, offline se quiser. Ditei boa parte deste texto por voz numa caixa de texto que não era um prontuário eletrônico, com uma ferramenta que nem sabe o que é um prontuário eletrônico. Esse é o ponto.
Experimente na próxima carta ou e-mail
Segure o atalho, fale, solte. A transcrição cai onde estiver o cursor — no seu e-mail, no seu rascunho ou em qualquer outro aplicativo em que você escreve. Não em um prontuário.
Modo local gratuito para qualquer conta conectada. Sem cartão para começar.



