Guía
Dictado en tiempo real para escritores
Una app de dictado en tiempo real para escritores te permite hablar una frase y verla aparecer en el cursor un instante después. Con Whisper mantienes pulsada una tecla, hablas, la sueltas, y la transcripción se pega donde estés escribiendo — con modelos locales eso lleva aproximadamente un segundo y medio.
Última actualización: junio de 2026

Una app de dictado en tiempo real para escritores convierte la voz en texto en el cursor casi sin demora. Whisper funciona con pulsar para hablar: mantén la tecla pulsada, di una frase, suéltala, y la transcripción se pega en el editor de pantalla. Con modelos locales el tiempo desde soltar la tecla hasta ver el texto es de unos 1,4 segundos. Funciona sin conexión, gratis, en cualquier app de escritorio.
Creé Whisper porque teclear era la parte más lenta de escribir. No el pensar, no el editar — sino el simple acto de mover los dedos lo suficientemente rápido para seguir el ritmo de una frase que ya había terminado en mi cabeza. La voz resuelve eso. Hablas a unas 145 palabras por minuto; tecleas a unas 40. Esa diferencia lo dice todo.
Pero «tiempo real» es una expresión que promete mucho, y la mayoría de páginas que venden dictado a escritores te dejan imaginar algo que no es. Así que antes de descargar nada, quiero ser claro sobre lo que «tiempo real» significa aquí, cómo se percibe el retardo, y dónde encaja esto en una sesión de escritura real — textos largos, posts de blog, ficción, ese correo que llevas días aplazando.
Esta es la versión honesta que la mayoría de páginas de marketing omite. Whisper es pulsar para hablar. Mantienes una tecla pulsada, dices una frase completa o tres, y la sueltas. La transcripción se pega en el cursor al soltar — no palabra por palabra mientras hablas, como en la pantalla de un estenógrafo en un juicio. La unidad es el enunciado, no la sílaba.
Esa diferencia importa porque establece la expectativa correcta. Si imaginas las palabras apareciendo en la página al mismo ritmo que hablas, eso es subtitulado en vivo — una herramienta distinta para un trabajo distinto. Lo que Whisper ofrece a un escritor es, en la práctica, más ágil que eso: dices un pensamiento, aparece, dices el siguiente. Con un modelo local el ciclo completo dura unos 1,4 segundos. El tiempo suficiente para que dejes de notarlo y simplemente escribas.
Qué significa «tiempo real» para un escritor

Los escritores recurren al dictado por el mismo motivo que yo: el borrador está en tu cabeza y el teclado está en el camino. Un primer borrador debe ser rápido y descuidado. El teclado lo hace lento y ordenado, que es exactamente lo contrario. Hablar te permite volcar la versión caótica a la velocidad a la que la piensas, y editar — la parte que sí quiere tus dedos — viene después.
Entonces, cuando un escritor busca «dictado en tiempo real», lo que suele querer es esto: decir una frase y verla aparecer antes de perder la siguiente. Esa es la vara real. No un flujo letra a letra — un intervalo de menos de dos segundos, para que las palabras estén ahí antes de que el pensamiento se evapore. Whisper lo cumple. Desde que sueltas la tecla hasta que aparece el texto en tu documento hay unos 1,4 segundos con un modelo local en un M1 Air, y algo más de dos segundos en un PC Windows de gama media con un modelo más grande. (He visto cómo el flujo se rompe cuando la latencia supera los dos segundos — el cerebro vuelve a fijarse en la pantalla y se pierde el hilo. Así que ese número es el que me obsesiona.)
Lo otro que los escritores quieren es no salir nunca del documento. Un borrador largo es un estado de flujo, y ese flujo no sobrevive abrir una ventana de transcripción separada, darle a grabar, esperar, copiar y pegar. Whisper pega en el cursor dentro de la app que ya estás usando — Scrivener, Word, Google Docs en el navegador, un editor de texto plano, tu CMS. No cambias de ventana. Mantienes una tecla pulsada y sigues escribiendo. Eso es lo que hace que se sienta en tiempo real, aunque en sentido estricto pegue al soltar.
Mantén la tecla, habla, suéltala — el texto aparece solo
El mecanismo es aburrido, que es el mayor elogio que puedo hacerle a un programa. Mantienes una tecla pulsada, hablas, la sueltas, y la transcripción se pega en el cursor donde tengas el foco. Whisper mantiene una pequeña cola — 250 milisegundos — después de soltar, para que tu última palabra no quede cortada. Como pega en el cursor del sistema operativo, tu manuscrito es simplemente «un campo de texto». Scrivener, Final Draft, Word, un borrador de Substack en el navegador — el mismo comportamiento, sin configuración por app.
Mientras hablas aparece una pequeña cápsula para que sepas que está escuchando; luego muestra el breve paso de transcripción antes de que lleguen las palabras. Ese es todo el ciclo. No hay una ventana de app separada a la que hacer alt-tab, ni botón de grabar que encontrar, ni archivo que exportar. El cursor está en el párrafo, hablas, la frase aparece en el párrafo:
La tecla de acceso directo es lo único que vale la pena configurar bien desde el principio. En Windows es Ctrl+Space; en Mac es Command+Option, un pulsar para hablar con solo modificadores que mantienes mientras hablas. Ambas se pueden cambiar en Ajustes, algo importante para escritores porque muchas apps de escritura se apropian de teclas para sus propios atajos. (Mi hija pequeña me dijo una vez que una tecla «no funcionaba» en su app de dibujo. Era un conflicto, no un error — así aprendí que la persona promedio no tiene ni idea de qué es un conflicto de teclas. Por eso ahora todas las teclas son personalizables.) Si ya configuraste el dictado en Windows o en Mac antes, es el mismo músculo apuntado a tu app de escritura.
Configúralo en dos minutos (Windows o Mac)
Necesitas un Mac con Apple Silicon o un PC con Windows 10 o superior, un micrófono que funcione y el editor con el que escribes abierto. Todo el pipeline local es gratuito para cualquier cuenta registrada, sin que se te pida un método de pago al registrarte. Esta es la secuencia.
Paso 1 — Instala Whisper e inicia sesión.
Descarga desde la página de descarga, instala y crea una cuenta gratuita. Sin tarjeta. Todo el pipeline de transcripción local se abre de inmediato.
Sabrás que funcionó cuando aparezca el icono de la app en la bandeja del sistema y el asistente de configuración ofrezca elegir un modelo.
Paso 2 — Elige una vía de transcripción.
La app no elige por ti. Tienes tres opciones: Cloud (OpenAI, con tu propia clave), Local Parakeet o Local Whisper. Para redactar textos en privado, empieza por el modo local — más adelante explico cuál elegir.
Sabrás que funcionó cuando un modelo termine de descargarse y aparezca como listo.
Paso 3 — Confirma tu tecla de acceso directo.
Windows usa Ctrl+Space por defecto; Mac usa Command+Option como pulsar para hablar. En Mac, concede el permiso de Accesibilidad cuando se solicite; sin él, el pegado en el cursor no puede llegar a tu app de escritura.
Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.
Paso 4 — Coloca el cursor en tu borrador y habla.
Abre el documento, haz clic donde quieras la siguiente frase, mantén la tecla pulsada, dila y suéltala. La transcripción aparece en el cursor, en medio del párrafo y todo.
Sabrás que funcionó cuando tu frase hablada esté en el borrador como texto.
La parte lenta es la descarga del modelo, no la configuración. Todo lo demás son los cuatro pasos anteriores. Una vez en marcha, poner una frase en la página deja de ser una tarea de tecleado y se convierte en una tarea de habla, lo que en un borrador largo marca la diferencia entre una tarde y una noche.
Cómo se siente dictar un borrador de verdad
El truco para dictar prosa es dejar de dictar prosa perfecta. Los escritores novatos intentan hablar con comas y saltos de párrafo y acaban siendo más lentos que tecleando. La forma rápida es hablar en pensamientos completos — di la frase como se la dirías a un amigo, suelta, di la siguiente. Deja que el primer pase sea tosco. Estás capturando el borrador, no componiendo tipografía. Una entrada de blog de 1.500 palabras que me lleva noventa minutos teclear me toma aproximadamente la mitad hablando, y la mayoría del ahorro es simplemente no parar a corregir a mitad de frase.
El ritmo de pulsar para hablar encaja con cómo piensan realmente los escritores. Mantienes la tecla para una idea, la sueltas, miras lo que apareció, decides la siguiente frase y vuelves a pulsar. Las pausas entre pulsaciones son tiempo de pensar, no tiempo muerto — la herramienta no está grabando tus «ehhh» mientras miras la pared decidiendo por dónde va la escena. Para la ficción en particular, esto se acerca más a cómo suena el diálogo en tu cabeza que teclearlo jamás; interpretas la frase y luego la tienes en la página para recortar.
Dos notas prácticas para sesiones largas. Primero, dicta en bloques de una frase o tres, no párrafos enteros de un tirón — los bloques cortos se pegan más rápido y son más fáciles de corregir si una palabra sale mal. Segundo, el micrófono importa más de lo que crees. Un micrófono USB de 20 dólares hace más por la precisión que cualquier mejora de modelo, porque el audio limpio es lo que el modelo realmente está procesando. Esa es la verdad aburrida que nadie que te vende «precisión de IA» quiere reconocer. Una vez que las palabras fluyen así de rápido, puedes escribir borradores enteros por voz y tratar el teclado como una herramienta de edición, que es para lo que siempre ha sido mejor.
Local o nube: qué modo usar si eres escritor
Para redactar, prueba primero el modo local. Un manuscrito en curso, una propuesta que no has enviado, una entrada de diario — nada de eso necesita salir de tu portátil para convertirse en texto. Si tu Mac tiene Apple Silicon o tu PC es de los últimos años, el modo local gestiona el dictado cotidiano sin problema, y la nube se convierte en la alternativa de emergencia más que en la opción por defecto. Así se diferencian las tres vías, porque la app te obliga a elegir y prefiero que elijas bien:
- Local Parakeet — El motor TDT de NVIDIA, alrededor de 600 MB y la opción local más rápida — entre 5 y 10 veces más veloz que Whisper en CPU. Cubre inglés más otras 24 lenguas europeas, 25 en total. Sin traducción al inglés. Si escribes en inglés u otra lengua europea, esta es la opción rápida y completamente offline, la que mantiene la latencia baja.
- Local Whisper — más lento que Parakeet en la misma máquina, pero las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son solo en inglés, no 99. Elige esta opción si escribes en chino, japonés o coreano (que Parakeet no puede hacer), necesitas traducción o quieres sesgo de palabras clave para nombres de personajes y palabras inventadas. El modelo en inglés predeterminado pesa unos 480 MB.
- Cloud (OpenAI, BYOK) — la mayor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción usa gpt-4o-mini-transcribe por defecto. Necesita internet, así que es la única vía que sale de tu máquina, y forma parte de Whisper Pro.
La verdad aburrida es que para la mayoría de textos en prosa, el modo local es más que suficiente — ambos motores locales funcionan completamente en tu máquina sin enviar nada a un servidor. La nube gana su lugar cuando quieres precisión máxima en una grabación complicada o necesitas buscar un dato en la web a mitad de frase. La nube también es la vía de menor latencia con una buena conexión, alrededor de 1,1 segundos, porque el viaje de ida y vuelta por la red supera al cómputo local en un portátil más lento. Empieza con local; recurre a la nube solo cuando el modo local no te llegue.
Una opinión que defenderé: el dictado solo en la nube es un desastre de privacidad esperando transcribirse. Una vez vi cómo un equipo interno acumuló una factura de cinco cifras en la nube en un trimestre, principalmente por un bucle de «reintento inteligente» que retranscribía las mismas grabaciones cuatro veces. El CFO abrió el panel durante la revisión trimestral y la sala se quedó muy callada. Tu primer borrador no necesita vivir en los registros de un proveedor para convertirse en texto. Tu portátil ya tiene micrófono y CPU.
Convertir un borrador hablado en prosa limpia
El dictado en bruto sale como un texto sin puntuación. Dices «bueno el capítulo empieza en la estación de tren ella llega tarde perdió el enlace ehhh y todo arranca desde ahí», y esa es la pared sin puntuación que cualquier motor de voz te da. Para un borrador eso está bien — de todas formas lo vas a editar. Pero hay un camino más rápido hacia algo legible.
El Dictado por Voz de Windows añade puntuación mientras hablas, y el Dictado de macOS gestiona lo básico cuando dices «coma» o «punto». Para una limpieza más profunda — eliminar los «ehhh», corregir frases seguidas, convertir un párrafo hablado en algo que guardarías — Whisper puede hacer un pase de IA. Di la frase de activación «Hey whisper» y el texto se mejora antes de llegar. Con un modelo local eso pasa a través de Ollama; en modo cloud es gpt-5-mini por defecto.
bueno el capítulo empieza en la estación de tren ella llega tarde perdió el enlace ehhh y todo arranca desde ahí
Bueno, el capítulo empieza en la estación de tren. Ella llega tarde — perdió el enlace — y todo arranca desde ahí.
Una advertencia que los escritores en particular deben escuchar: la limpieza de IA es un pase de puntuación y muletillas, no un coautor. Corrige la mecánica; no reescribe tu voz, y no deberías dejarle. Para ficción o cualquier texto con un estilo propio, yo uso la mejora local más ligera o la omito del todo en el primer borrador y edito a mano después, porque el objetivo de dictar rápido es que el borrador tosco sea tuyo. Usa la limpieza para que las notas sean legibles. La escritura de verdad hazla tú.
Este mismo flujo de hablar y limpiar funciona en cualquier lugar donde guardes texto — es exactamente cómo yo dicto notas y capturo ideas entre sesiones de redacción, para que un pensamiento de investigación o un giro de la trama pase de aparte hablado a una línea ordenada sin perder el ritmo.
Cuándo una app de dictado en tiempo real no es la herramienta adecuada

A veces la respuesta honesta es que necesitas otra cosa, y prefiero decirlo a venderte lo equivocado. Whisper es dictado pulsar para hablar dentro de la app en la que estás escribiendo. No es subtitulado en vivo, no es transcripción de entrevistas y no es una herramienta para el móvil.
Si de verdad necesitas palabras en pantalla mientras hablas — subtitular una charla en vivo, subtítulos durante una transmisión, una pista de subtítulos de accesibilidad — eso es subtitulado en vivo real, una categoría aparte creada para el streaming continuo, no el dictado de pulsar y soltar. Usa una herramienta de subtitulado. Si tienes una entrevista grabada o una reunión de dos horas que convertir en transcripción, eso es transcripción de archivos con etiquetas de hablantes — un servicio como Otter o Rev encaja mejor que un atajo de dictado; categoría diferente, no hagas que una herramienta de escritura haga un trabajo de transcripción. Y si solo dictas notas de 30 palabras cuando estás fuera de casa, el micrófono del teclado de tu teléfono es gratuito y ya lo tienes en el bolsillo; Whisper es una herramienta de escritorio para Windows y macOS, así que no hay app que instalar para eso.
Recurre a una app de dictado en tiempo real cuando el trabajo es redactar: prosa de formato largo, una entrada de blog, un capítulo, un correo que sigues aplazando — escrito en el escritorio, en la app que ya usas, donde hablar supera a teclear y quieres las palabras en el cursor un segundo después. Por debajo de eso, usa lo que sea gratuito. No voy a decirte que abras una app de escritorio para enviar un texto de una línea.
La mayoría de escritores que me escriben están en una plataforma u otra, así que si quieres el recorrido específico por plataforma, la guía de software de dictado para escritores cubre el flujo de trabajo de principio a fin, desde elegir un modelo hasta mantener las manos alejadas del teclado durante toda una sesión.
«Tiempo real» para un escritor no significa letras apareciendo en la página al mismo ritmo que hablas. Significa que dices una frase y está ahí antes de perder la siguiente — aproximadamente un segundo y medio, en la app que ya estás usando, sin enviar nada a ningún sitio. Ese es el truco, y es discreto. Dicté la mayor parte de esta guía una frase a la vez, soltando la tecla entre pensamientos, viendo cómo aparecían las palabras mientras decidía la siguiente línea. El teclado estuvo ahí todo el tiempo, útil solo para las ediciones. Que es exactamente donde quiero que esté.
Dicta tu próximo borrador en la página
Mantén la tecla pulsada, di una frase, suéltala. Las palabras llegan al cursor en lo que estés escribiendo — aproximadamente un segundo y medio después, sin enviar nada a ningún sitio.
Modo local gratuito para cualquier cuenta registrada. No se requiere tarjeta para empezar.



