Por Denys Medvediev

Guía

Software de dictado para escritores

Puedes hablar un primer borrador más rápido de lo que puedes escribirlo. La solución es una herramienta que funcione en todo el sistema: presiona un atajo, habla, y las palabras aparecen donde está el cursor en Scrivener, Word, Google Docs o cualquier editor. Después, limpia el borrador con un pase de inteligencia artificial.

Última actualización: junio de 2026

Cuaderno abierto, bolígrafo y café sobre un escritorio de madera junto a un portátil, evocando la escritura de textos largos

El software de dictado para escritores convierte un primer borrador hablado en texto dentro de cualquier editor. Una herramienta que funciona en todo el sistema, como Whisper, pega el texto donde está el cursor en Scrivener, Word o Google Docs con un solo atajo de teclado, funciona gratis y sin conexión en Windows o Mac, y un pase de inteligencia artificial opcional convierte el habla natural en prosa legible.

Teclear es la parte más lenta de escribir. Las palabras ya están en tu cabeza, formadas en oraciones, y luego las canalizas a través de diez dedos a unas cuarenta palabras por minuto. Yo hablo a unas tres veces esa velocidad, y tú también. El cuello de botella nunca fueron las ideas. Era el teclado.

Los escritores buscan «software de dictado» y aterrizan en el recuerdo de Dragon NaturallySpeaking, una licencia de $699 y una sesión de entrenamiento de cuarenta y cinco minutos. Ese mundo ya no existe. El dictado que un novelista o un blogger necesita en 2026 es un atajo que inserta el texto hablado en el editor que ya usa, y después un pase de inteligencia artificial para ordenarlo. Sin licencia. Sin complemento por aplicación. Funciona en el portátil que ya tienes.

Aquí está la parte que la mayoría de las páginas que venden dictado a escritores omiten. Tu editor no necesita una función de dictado. Un documento de Scrivener, una página de Word, una ventana de Google Docs: todos son simples cuadros de texto con un cursor. Una herramienta que pega en el cursor no importa cuál esté abierto.

Entonces la pregunta real no es «qué aplicación de escritura tiene mejor escritura por voz». Ninguna está diseñada para el dictado de textos largos, y de todas formas no querrás estar atado a una sola. La pregunta es «qué herramienta de dictado funciona por encima de todas ellas», y la respuesta honesta es un atajo sin conexión que se comporta igual en cada programa. Explicaré el flujo de trabajo, lo configuro en dos minutos y te digo cuándo saltarte el dictado por completo.

Por qué los escritores recurren al dictado

Las manos de un escritor descansando cerca de un cuaderno y un teclado, haciendo una pausa entre frases

El primer borrador es el trabajo para el que está hecho el dictado. Un primer borrador tiene que ser rápido y feo: captura la forma, corrígelo después. Teclear va en contra de eso, porque teclear es cuidadoso por naturaleza; ves aparecer las palabras y las retocas. Hablar no te deja retocar. Dices la oración, aparece, sigues adelante. Para un novelista que avanza por un capítulo o un blogger que intenta terminar un artículo de 1.500 palabras antes de que se despierten los niños, ese impulso hacia adelante es todo el punto.

La diferencia de velocidad es real y no es sutil. El ritmo de tecleo sostenido para la mayoría de las personas es de unas cuarenta palabras por minuto. Hablar se acerca más a ciento cuarenta y cinco. No escribirás un capítulo pulido y terminado a esa velocidad —nadie lo hace—, pero sí obtendrás la materia prima en un tercio del tiempo, y editar la materia prima es más rápido que quedarse mirando una página en blanco. La parte costosa de escribir es empezar. El dictado hace que empezar sea barato.

También hay una razón más silenciosa, y seré honesto: el dictado da descanso a las manos. Si escribes para ganarte la vida, el teclado va acumulando tensión, y poder redactar una sección larga mientras te recuestas en la silla alivia la carga de las muñecas. Es un beneficio de productividad, no un consejo médico, pero es una razón real por la que escritores que conozco lo adoptaron, y es la misma lógica que hay detrás de cambiar a la voz para aliviar el esfuerzo del teclado. Menos pulsaciones para el mismo número de palabras es simplemente un buen trato.

Presiona un atajo, habla, el borrador aparece en tu editor

El mecanismo es aburrido, que es exactamente por qué funciona en todas partes. Presionas un atajo, dices tu párrafo, lo sueltas, y la transcripción se pega donde está el cursor, en cualquier campo de texto que tenga el foco. Whisper mantiene un pequeño margen después de que sueltas la tecla, para que la última palabra de una oración no quede cortada. Como pega en el cursor, tu editor de Scrivener, una página de Word y una ventana de Google Docs son simplemente «cualquier cuadro de texto». La misma tecla, el mismo comportamiento, siempre.

Esa es la parte que las herramientas de dictado más antiguas nunca consiguieron. No hay ningún complemento que instalar en Scrivener, ningún modo de dictado con el que lidiar en Word, ninguna extensión que autorizar en Docs. El cursor está en el capítulo, hablas, las palabras aparecen en el capítulo. Aparece una pequeña cápsula mientras hablas para que sepas que está escuchando:

Cancel
La superposición de grabación: una pequeña cápsula que aparece mientras hablas, para que sepas que Whisper está escuchando.

El atajo es lo único que vale la pena configurar bien desde el principio. En Windows es Ctrl+Space; en Mac es Command+Option, una pulsación de modificadores que se mantiene mientras se habla. Ambos se pueden cambiar en la Configuración si entran en conflicto con algo que ya uses, como una aplicación de escritura con sus propios atajos. (La primera versión tenía el atajo fijo en el código, lo que duró exactamente hasta que un usuario lo encontró en conflicto con su software de música a las dos de la mañana. Ahora todo es personalizable.) Si ya has configurado voz a texto en Windows o en Mac, este es el mismo reflejo apuntado a tu manuscrito.

Configúralo en dos minutos (Windows o Mac)

Necesitas un Mac con Apple Silicon o un PC con Windows 10 o más reciente, un micrófono que funcione y tu editor preferido abierto. Todo el proceso local es gratuito para cualquier cuenta con sesión iniciada, sin que se pida ningún método de pago al registrarse. Esta es la secuencia.

Paso 1 — Instala Whisper e inicia sesión.

Descarga desde la página de descargas, instálalo y crea una cuenta gratuita. Sin tarjeta. Todo el proceso de transcripción local se abre de inmediato.

Sabrás que funcionó cuando aparezca el icono de la bandeja del sistema y el asistente de configuración ofrezca elegir un modelo.

Paso 2 — Elige una modalidad de transcripción.

La aplicación no elige por ti. Tienes tres opciones: Cloud (OpenAI, trae tu propia clave), Parakeet local o Whisper local. Para manuscritos que prefieras mantener fuera de cualquier servidor, empieza con el modo local; hablaremos de eso más adelante.

Sabrás que funcionó cuando un modelo termine de descargarse y aparezca como listo.

Paso 3 — Confirma tu atajo de teclado.

En Windows el predeterminado es Ctrl+Space; en Mac, Command+Option se mantiene pulsado como modalidad de pulsar para hablar. En Mac, concede el permiso de Accesibilidad cuando se solicite; sin él, el pegado en el cursor no puede llegar a otras aplicaciones.

Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.

Paso 4 — Pon el cursor en tu borrador y habla.

Abre Scrivener, Word o tu documento en el navegador, haz clic en la página, mantén el atajo pulsado, di una oración, suéltalo. La transcripción aparece donde está el cursor.

Sabrás que funcionó cuando tu oración hablada esté en el manuscrito como texto.

Whisper
La aplicación de escritorio real de Whisper en la pantalla de configuración, con los paneles de Transcripción e IA abiertos.

La parte lenta es la descarga del modelo, no la configuración. Todo lo demás son los cuatro pasos anteriores. Una vez en marcha, el acto de trasladar un párrafo a la página deja de ser una tarea de tecleo y se convierte en una tarea de habla, que es el único cambio que realmente querías.

voz a texto en Windows · en Mac

Un flujo de trabajo para borradores que aguanta un capítulo de verdad

Dictar un capítulo completo no es lo mismo que dictar un correo electrónico, y pretender lo contrario es la razón por la que la gente lo abandona en la primera semana. El truco es separar los dos trabajos que los escritores suelen hacer a la vez. El borrador es un trabajo: sacar las palabras, en orden, rápido, sin juzgarlas. La edición es un trabajo diferente: puntuación, saltos de párrafo, la oración que dijiste dos veces. El dictado es brillante en lo primero y torpe en lo segundo. Así que sepáralos. Habla el borrador de principio a fin, luego vuelve a darle forma con el teclado que nunca abandonas del todo.

Algunos hábitos ayudan a que funcione. Habla en oraciones completas, no en fragmentos: la transcripción es más precisa cuando tiene un pensamiento completo con el que trabajar. Di «nuevo párrafo» en voz alta como una marca que encontrarás en la edición, aunque la herramienta no actúe sobre ella, porque una pared de texto hablado es difícil de reanudar en frío. Ten a mano un glosario de tus propios nombres propios; los nombres de los personajes, los lugares inventados y la jerga técnica son donde cualquier motor de voz hace suposiciones, y Whisper local te permite orientar el modelo hacia vocabulario personalizado para que «Aelwyn» deje de convertirse en «Ellen». Nada de esto es exótico. Es simplemente tratar el borrador como un borrador.

La expectativa honesta: una sección de 2.000 palabras dictada sale como prosa fluida, un poco demasiado coloquial, con la estructura en su sitio. Eso es una victoria. Pasaste quince minutos hablando en lugar de una hora tecleando, y ahora tienes algo que editar en lugar de un cursor parpadeando ante ti. Yo redacto textos largos así y luego hago las ediciones precisas a mano con el teclado: la voz para el volumen, las teclas para el pulido. Los dos no son rivales.

Local o en la nube: qué modalidad elegir para un manuscrito

Para tu propia escritura, prueba primero el modo local. Un manuscrito es algo privado hasta que tú decidas que no lo es, y no hay ninguna razón para enrutar un capítulo inédito a través del servidor de nadie para convertir tu voz en texto. Si tu Mac tiene Apple Silicon o tu PC es de los últimos años, el modo local gestiona los borradores del día a día sin problemas, y la nube se convierte en la válvula de escape más que en la opción predeterminada.

Así es como difieren las tres modalidades, porque la aplicación te pide que elijas y prefiero que elijas bien:

  • Parakeet localEl motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida: de 5 a 10 veces más rápido que Whisper en CPU. Cubre el inglés más 24 idiomas europeos, 25 en total. Sin traducción al inglés, sin vocabulario personalizado. Si redactas en inglés y quieres velocidad, esta es la opción rápida y totalmente sin conexión.
  • Whisper localmás lento que Parakeet en la misma máquina, pero las versiones multilingües cubren 99 idiomas, pueden traducir al inglés y admiten vocabulario personalizado, la palanca que mantiene intactos los nombres de tus personajes. Las versiones solo en inglés son exclusivamente en inglés, no 99. Elígelo para glosarios de personajes, trabajo multilingüe o traducción. El modelo en inglés predeterminado pesa unos 480 MB.
  • Cloud (OpenAI, BYOK)la mejor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción usa gpt-4o-mini-transcribe de forma predeterminada. Necesita internet, así que es la única modalidad que sale de tu máquina. La funcionalidad en la nube forma parte de Whisper Pro.

La verdad aburrida es que, para un borrador de trabajo, el modo local es más que suficiente. Ambos motores locales funcionan completamente en tu máquina sin enviar nada a un servidor, lo que importa cuando el archivo es un libro que nadie ha leído aún. La nube gana su lugar cuando quieres la máxima precisión en una grabación difícil o necesitas que el modelo consulte un dato de la web a mitad de una frase. Para el trabajo diario por capítulos, empieza con el modo local y solo recurre a la nube cuando el local te deje con ganas de más.

Convertir un borrador hablado en prosa limpia

El dictado en bruto sale como un texto seguido, y eso es normal. Dices «bueno, entonces la detective entra, todavía no dice nada, um, solo mira el cuerpo y de repente se va la luz», y eso es la secuencia sin puntuación que cualquier motor de voz devuelve. El borrador está todo ahí; las comas, no. Limpiarlo es donde las modalidades divergen.

Windows Voice Typing añade puntuación mientras hablas, y macOS Dictation gestiona la puntuación básica cuando dices «coma» o «punto». Para una limpieza más profunda —eliminar los «ums», corregir el texto seguido, dividir un monólogo hablado en oraciones que realmente conservarías— Whisper puede ejecutar un pase de inteligencia artificial. Di la frase de activación «Hey whisper» y el texto se mejora antes de aparecer. En un modelo local, esto pasa a través de Ollama; en modo nube, usa gpt-5-mini de forma predeterminada.

Thinking...
Bruto

bueno entonces la detective entra todavía no dice nada um solo mira el cuerpo y de repente se va la luz

Limpio

La detective entra. Todavía no dice nada: solo mira el cuerpo. Entonces se va la luz.

Una advertencia que los escritores deben escuchar con claridad: el pase de inteligencia artificial es para la mecánica, no para la voz. Arregla la puntuación y las muletillas; no debería reescribir tus oraciones en algo más plano que lo que dijiste. Úsalo para que el borrador sea legible, luego haz la edición real tú mismo, porque el ritmo de una frase es la parte que ningún modelo tiene derecho a poseer. La división honesta del trabajo es: la voz pone las palabras, el pase de IA las hace legibles, y tú las haces tuyas.

Ese mismo flujo de hablar y luego limpiar funciona mucho más allá de un manuscrito: también puedes llevar un diario de voz dictando en cualquier aplicación para que las notas del día se conviertan en unas pocas oraciones habladas en lugar de una página que escribes a medianoche.

Cuándo saltarse el dictado y buscar otra cosa

Dos flechas pintadas en la calzada que apuntan en direcciones diferentes, ilustrando una elección

El dictado es la herramienta adecuada para redactar tus propias palabras. Es la herramienta equivocada para dos tareas que los escritores a menudo confunden con él, y decirlo en voz alta te ahorra una tarde frustrante.

Si lo que necesitas es convertir una entrevista grabada, un pódcast o un archivo de reunión en una transcripción, eso es transcripción, no dictado: una categoría diferente. Lo que necesitas es un servicio de transcripción que ingiera un archivo de audio y te devuelva un documento con marcas de tiempo y etiquetas de hablante. Un atajo de pulsar para hablar está diseñado para hablar en directo en tu cursor, no para procesar un archivo que grabaste antes. Y si solo necesitas anotar una oración en el móvil —una línea de diálogo que te llegó en la cola del supermercado— el micrófono integrado del teclado de tu teléfono ya hace eso, y Whisper es exclusivo de escritorio en Windows y macOS de todos modos. No instales una aplicación de escritorio para capturar una sola línea.

También hay una capa gratuita ya en tu máquina para usos breves. En Windows, presiona la tecla Windows + H y se abre la barra de escritura por voz integrada en el cursor; añade puntuación sola y está bien para una oración o dos, aunque redirige a través de los servidores de Microsoft y necesita internet, así que no es una opción sin conexión. En Mac, Dictation te permite hablar en cualquier campo de texto, configurable en Ajustes del Sistema en Teclado, y en Apple Silicon el texto general puede procesarse en el dispositivo. Recurre a una herramienta dedicada que funcione en todo el sistema cuando esas opciones empiecen a quedarse cortas: borradores largos, privacidad sin conexión para un manuscrito, vocabulario personalizado para los nombres de tus personajes, o querer un atajo que se comporte igual en Scrivener, tu correo electrónico y tu editor de blog. Por debajo de ese umbral, usa lo que es gratuito. No voy a pedirte que instales una aplicación para capturar una línea de diálogo al vuelo.

Y si la razón por la que te interesas por la voz en primer lugar es el cansancio de largas jornadas frente al teclado, el razonamiento está explicado en pasarse al dictado para aliviar la carga de las manos: la misma lógica de productividad, menos pulsaciones para el mismo número de páginas.

De pequeño tenía un familiar que tenía Dragon NaturallySpeaking en un ordenador con Windows 98 y 64 megabytes de RAM. El entrenamiento duraba cuarenta y cinco minutos —leías una lista de palabras para calibrarlo— y luego el dictado funcionaba a un setenta por ciento de precisión con un retraso de cuatro segundos por frase. Tardabas quince minutos en dictar un párrafo de una carta de Navidad, y el auricular acabó volando por los aires. Veinticinco años después, un capítulo en borrador aparece en el cursor en aproximadamente segundo y medio, sin conexión, gratis. El auricular sobrevivió, por cierto. Dicté la mayor parte de esta guía en un cuadro de texto y luego la edité con el teclado, que es exactamente el flujo de trabajo que estoy recomendando. Pruébalo con lo próximo que tengas que escribir.

Habla tu próximo capítulo directamente a la página

Mantén el atajo pulsado, redacta un párrafo en voz alta, suéltalo. El texto aparece en tu editor, y en todas las demás aplicaciones en las que escribes también.

Modo local gratuito para cualquier cuenta con sesión iniciada. No se requiere tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, probablemente dictando las respuestas.

Lectura adicional