Por Denys Medvediev

Guía

Cómo escribir con tu voz

Escribir con la voz es sencillo: hablas y las palabras aparecen donde está el cursor. Tu sistema operativo ya incluye una forma de hacerlo —tecla Windows + H, o Dictado de macOS. Una herramienta de atajo dedicada como Whisper hace lo mismo en cualquier app, sin conexión, con un paso de limpieza por IA.

Última actualización: junio de 2026

Persona ante un portátil en un escritorio tranquilo con un micrófono cerca, evocando la idea de hablar en lugar de teclear

Para escribir con tu voz, abre la herramienta de dictado integrada —tecla Windows + H en Windows, o el Dictado de macOS en Ajustes del Sistema— coloca el cursor en cualquier campo de texto y habla. Para un dictado que funcione igual en todas las apps, sin conexión y con limpieza por IA, una herramienta de atajo dedicada como Whisper pega la transcripción donde está el cursor.

La mayoría de las personas escribe unas 40 palabras por minuto. La mayoría habla a tres o cuatro veces esa velocidad. Así que la aritmética de escribir con la voz nunca fue el problema —el problema siempre fue si el software podía seguir el ritmo de tu boca. Durante unos treinta años no pudo. Ahora sí puede, y lo extraño es que mucha gente todavía no sabe que su propio ordenador ya hace esto.

No necesitas comprar nada para empezar. Windows y macOS incluyen una función de escritura por voz que escribe en el cuadro de texto donde tengas el cursor. Es gratuita, ya está instalada y para textos cortos funciona de verdad. Te lo enseño primero, con honestidad, porque para muchas personas esa es la respuesta correcta. Luego te muestro la versión que yo uso todo el día y en qué se adelanta.

Aquí está la clave antes de tocar ningún ajuste: escribir con la voz pega texto donde está el cursor. No le importa en qué app esté el cursor —un correo, una barra de búsqueda, un documento o un chat son todos campos de texto para ella. Una vez que eso queda claro, el tema se simplifica mucho.

Hay dos caminos, no cien. El primero es la herramienta integrada que ya tiene tu sistema operativo. El segundo es una app de pulsar para hablar que presionas, hablas y sueltas, que funciona igual en todas partes y sin conexión. El integrado es suficiente para ráfagas cortas. El camino dedicado se gana su lugar cuando haces esto todo el día. Te configuro los dos, repaso lo básico que hace funcionar cualquiera de ellos y te digo cuándo prescindir de la app.

Qué es realmente la escritura por voz

Un micrófono de escritorio junto a un teclado, ilustrando la idea de dictar texto en lugar de escribirlo

Escribir con la voz —dictado, voz a texto, como quieras llamarlo— es una idea simple. Hablas, el software convierte el audio en texto y ese texto aparece donde de otro modo estarías tecleando. Ese es el concepto entero. La razón por la que parece nuevo es que durante la mayor parte de la historia de la informática no funcionaba lo suficientemente bien como para molestarse.

Recuerdo a un familiar con Dragon NaturallySpeaking en un escritorio con Windows 98 y 64 MB de RAM. Configurarlo requería una sesión de entrenamiento de 45 minutos leyendo en voz alta una lista de palabras para que «calibrara». Después de todo eso, la precisión rondaba el 70%, cada frase llegaba con cuatro segundos de retraso y dictar un párrafo de una carta navideña llevaba quince minutos. Los auriculares acabaron volando por la habitación. Sobrevivieron; el experimento de dictado no. Veinticinco años después, mi hija pequeña dictó un correo completo a su abuela en unos noventa segundos, sin entrenamiento, sin calibración, al primer intento.

Esa diferencia es toda la historia. La escritura por voz moderna funciona de fábrica con la mayoría de acentos e idiomas, sin paso de entrenamiento, y las palabras aparecen lo bastante rápido para no perder el hilo. Las dos rutas que siguen están construidas sobre eso. Las únicas decisiones que quedan son qué herramienta usar y cómo hablar.

La forma rápida integrada en Windows y Mac

Los dos sistemas operativos principales incluyen escritura por voz de forma gratuita, y es el mejor punto de partida. En Windows, coloca el cursor en cualquier cuadro de texto y pulsa la tecla Windows y la H a la vez. Se abre una pequeña barra de dictado y empieza a escuchar. Habla y las palabras aterrizan en el campo. La puntuación se añade diciéndola —«coma», «punto», «signo de interrogación»— o puedes activar la puntuación automática en los ajustes de la barra y dejar que la adivine. Un detalle importante: el dictado por voz de Windows necesita conexión a internet. Tu audio va a los servidores de Microsoft y vuelve como texto, así que no hay modo sin conexión.

En un Mac, lo activas una sola vez. Abre el menú de Apple, elige Ajustes del Sistema, haz clic en Teclado en la barra lateral, desplázate hasta Dictado y actívalo (haz clic en Activar cuando te lo pida). Después ya puedes iniciar el dictado desde la tecla de micrófono de la fila de funciones, un atajo que elijas tú, o desde Edición y luego Iniciar Dictado en la barra de menús. Habla en cualquier campo de texto y las palabras aparecen. En Macs con Apple Silicon, el dictado de texto general se procesa en el dispositivo en lugar de enviarse a los servidores de Apple, e inserta puntuación automáticamente en los idiomas compatibles. Además, puedes seguir tecleando mientras hablas, lo cual es más útil de lo que parece.

Cancel
La superposición de grabación: una pequeña pastilla que aparece mientras hablas para que sepas que está escuchando.

Para un mensaje rápido, una búsqueda, una nota corta —con eso basta y puedes dejar de leer con la conciencia tranquila. Los integrados empiezan a resultar incómodos en tres situaciones concretas: Windows no funciona sin conexión, ambos pueden titubear en textos largos y ninguno sigue la misma inercia en todas las apps que abres. Si ninguno de esos problemas te afecta, la herramienta gratuita que ya tienes es la respuesta. Si te afectan, sigue leyendo.

La opción mejor: un atajo para todas las apps

La versión que yo uso de verdad es una herramienta de pulsar para hablar que se superpone a todo. Mantienes pulsada una tecla, hablas, la sueltas y la transcripción se pega donde está el cursor —en tu correo, en tu editor, en un chat, en un mensaje de commit, siempre igual. Funciona sin conexión, la canalización local es gratuita para cualquier cuenta con sesión iniciada sin necesidad de tarjeta, y puede ejecutar un paso de IA para limpiar lo que dijiste. Necesitas un Mac con Apple Silicon o un PC con Windows 10 o posterior y un micrófono que funcione. Así se configura.

Paso 1 — Instala Whisper e inicia sesión.

Descarga desde la página de descarga, instala y crea una cuenta gratuita. No se pide ningún método de pago. Toda la canalización de transcripción local se abre de inmediato.

Sabrás que funcionó cuando aparezca el icono de la bandeja de la app y el asistente de configuración ofrezca elegir un modelo.

Paso 2 — Elige una ruta de transcripción.

La app no elige por ti. Tienes tres opciones: Cloud (OpenAI, tu propia clave), Local Parakeet o Local Whisper. Para notas privadas empieza en local —hay una comparativa completa dos secciones más abajo.

Sabrás que funcionó cuando un modelo termine de descargarse y aparezca como listo.

Paso 3 — Confirma tu atajo.

En Windows el valor predeterminado es Ctrl+Space; en Mac es Command+Option, un atajo de solo modificadores que mantienes pulsado mientras hablas. En Mac, concede el permiso de Accesibilidad cuando se te pida —sin él, el pegado en el cursor no puede llegar a otras apps.

Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.

Paso 4 — Coloca el cursor en cualquier lugar y habla.

Haz clic en cualquier campo de texto de cualquier app, mantén pulsado el atajo, di una frase y suéltalo. La transcripción aparece donde está el cursor. Después de soltar, la grabación continúa un momento para que tu última palabra no quede cortada.

Sabrás que funcionó cuando tu frase hablada aparezca en el campo como texto.

Whisper
La app de escritorio real de Whisper en la pantalla de ajustes, con los paneles de Transcripción e IA abiertos.

La parte lenta es la descarga del modelo, que se hace una sola vez, no la configuración. Todo lo demás son los cuatro pasos anteriores. Una vez en marcha, escribir deja de ser una tarea de teclear y se convierte en una tarea de hablar, y el atajo es la misma tecla tanto en tu bandeja de entrada como en un editor de código.

voz a texto en Windows · en Mac

Cinco cosas que hacen funcionar cualquier herramienta

Cualquiera que sea el camino que elijas, el mismo puñado de fundamentos decide si la escritura por voz se siente como magia o como una lucha. Ninguno es complicado y la mayoría dependen de ti, no del software. Domínalos y una herramienta integrada barata supera a una cara usada mal.

Elige un lugar tranquilo. Los motores de voz transcriben lo que oyen, y lo que oyen incluye el lavavajillas, la ventana abierta y tu hijo preguntando por qué a veces no se ve la luna. Una habitación silenciosa hace más que cualquier ajuste. Luego piensa en el micrófono, porque aquí sí voy a ser tajante: un micrófono USB de $20 hace más por la precisión que cualquier mejora de modelo. Los propios datos del equipo de Whisper muestran que pasar del micrófono integrado del portátil a un micrófono USB de calidad podcast reduce la tasa de error en un 30 a 40% con el mismo modelo —un salto mayor que el que obtendrías con un motor más inteligente y más lento. Invierte primero en el hardware.

Después importa cómo hablas. Habla en frases completas, no palabra por palabra —los motores de dictado usan el contexto para escoger la correcta, así que «quedamos allí mañana» se transcribe mejor que cuatro palabras dichas de una en una. Habla a un ritmo normal y uniforme; precipitarse y exagerar la pronunciación perjudican por igual. Y no te preocupes por las comas y las mayúsculas mientras hablas. O di la puntuación si tu herramienta la acepta, o deja que un paso de limpieza por IA la añada después, que es la siguiente sección. Intentar dictar, puntuar y editar a la vez es la forma más segura de que gane la frase sin sentido.

Local o nube: qué modo elegir

Con una herramienta dedicada, la única decisión real es dónde ocurre la transcripción. Local significa que todo se ejecuta en tu máquina sin enviar nada a un servidor. Nube significa que va a OpenAI para obtener la máxima precisión y acceso a la web. Para la mayoría de las personas, la mayor parte del tiempo, yo empezaría en local —tu portátil ya tiene un micrófono y una CPU, y un párrafo suelto no necesita un servidor en medio. Si tu Mac es Apple Silicon o tu PC es de los últimos años, el modo local gestiona el dictado cotidiano sin queja. Así es como se diferencian las tres rutas, porque la app te obliga a elegir.

  • Local ParakeetEl motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida: entre 5 y 10 veces más veloz que Whisper en CPU. Cubre inglés y otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Si hablas inglés u otro idioma europeo, esta es la elección rápida y completamente sin conexión.
  • Local WhisperMás lento que Parakeet en la misma máquina, pero las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son eso, solo en inglés, no 99. Elige este para chino, japonés, coreano o cualquier trabajo de traducción que Parakeet no puede hacer. El modelo inglés predeterminado pesa unos 480 MB.
  • Cloud (OpenAI, BYOK)La mejor precisión y acceso a la web, usando tu propia clave de OpenAI que OpenAI te factura directamente. La transcripción usa gpt-4o-mini-transcribe por defecto. Necesita internet, así que es la única ruta que sale de tu máquina. El modo Cloud forma parte de Whisper Pro.

La verdad aburrida es que para el tipo de texto que la mayoría escribe todo el día —correos, notas, mensajes, borradores— el modo local es más que suficiente. Ambos motores locales se ejecutan completamente en tu máquina, lo cual importa cuando el texto es la hoja de salarios de tu jefe o un correo al colegio de tus hijos. La nube se gana su lugar cuando quieres la máxima precisión en una grabación difícil o necesitas que el modelo busque un dato en la web a mitad de una frase. Empieza en local y usa la nube solo cuando lo local no llegue.

Deja que la IA limpie lo que dijiste

El dictado en bruto sale como una ristra continua. Dices «bueno entonces respondo al correo de la profesora confirmo la excursión y me recuerdo de mandar el formulario el jueves» y esa pared sin puntuación es lo que cualquier motor de voz te devuelve. Limpiarlo es donde los caminos divergen, y es la razón principal por la que una herramienta dedicada toma ventaja.

Los integrados hacen una limpieza básica. El dictado por voz de Windows añade puntuación cuando la dices, o la adivina si activas la puntuación automática. El Dictado de macOS inserta puntuación automáticamente en los idiomas compatibles. Eso está bien para una frase o dos. Para una limpieza más profunda —eliminar los «eeh», arreglar las frases sin pausa, convertir un discurso atropellado en algo que enviarías de verdad— Whisper puede ejecutar un paso de IA. Di la frase de activación «Hey whisper» y el texto se mejora antes de llegar. En un modelo local se ejecuta a través de Ollama sin que nada salga de tu máquina; en modo nube usa gpt-5-mini por defecto.

Thinking...
En bruto

bueno entonces respondo al correo de la profesora confirmo la excursión y me recuerdo de mandar el formulario el jueves eeh antes de que suene el timbre

Limpio

Bueno, entonces respondo al correo de la profesora, confirmo la excursión y me recuerdo de mandar el formulario el jueves antes de que suene el timbre.

Aquí es donde el dictado cambia de verdad. Sin un paso de limpieza estás cambiando teclear por editar —hablas rápido y luego gastas el tiempo ahorrado arreglando mayúsculas y cortando frases sin sentido. Con él, hablas de la manera caótica en que realmente piensas y obtienes algo cercano a lo definitivo. Yo dicto como pienso, en fragmentos con algún falso arranque, y dejo que el paso lo ordene. No te escribirá el correo, pero hará que el correo que hablaste suene como si hubieras querido escribirlo.

Ese mismo flujo de hablar y limpiar es la razón por la que la voz puede superar al teclado en la escritura cotidiana —un párrafo largo se convierte en unas pocas frases habladas en lugar de cinco minutos ante el teclado.

Cuándo es suficiente el integrado

Dos flechas apuntando en direcciones distintas, ilustrando una elección entre herramientas

A veces la herramienta correcta es la gratuita que ya tienes, y fingir lo contrario sería deshonesto. Si solo dictas en ráfagas cortas —un mensaje, una búsqueda, una nota rápida— el integrado lo cubre sin coste y instalar una app sería pasarse. No voy a decirte que configures software para un recordatorio de una línea.

En Windows, la barra de la tecla Windows + H es genuinamente buena para dictados cortos: añade puntuación y ya está ahí. En un Mac, especialmente Apple Silicon, el Dictado se procesa en el dispositivo, añade puntuación automáticamente y te deja seguir tecleando mientras hablas, lo cual es más que suficiente para fragmentos cotidianos. Si principalmente envías mensajes cortos y tienes un Mac, puede que no necesites nada más. Hay una explicación más detallada de cada uno en las guías sobre voz a texto en Windows y voz a texto en Mac si quieres sacarle más partido al integrado.

Opta por una herramienta dedicada cuando el integrado empiece a molestarte de una forma que notes a diario: sesiones largas de escritura, dictado sin conexión en Windows, trabajo multilingüe, un paso de limpieza por IA más potente o querer un atajo que funcione igual en todas las apps en lugar de reaprender el flujo cada vez que cambias de ventana. Por debajo de ese umbral, usa lo que es gratuito. La respuesta honesta es que el integrado es el punto de partida correcto para la mayoría de las personas, y la herramienta dedicada es la mejora correcta cuando usas esto lo suficiente como para notar la fricción.

Si la mayor parte de tu dictado consiste en capturar ideas más que en enviar mensajes, el equilibrio se da igual en tomar notas de voz a texto —las capturas cortas son perfectas para el integrado, mientras que una sesión larga es donde el atajo dedicado empieza a rentabilizarse.

Escribir con la voz no es ningún truco nuevo —es una idea de treinta años que por fin funciona. La herramienta integrada en tu máquina te lleva casi hasta el final, y para muchas personas esa es toda la respuesta. La herramienta dedicada es a la que recurres cuando «casi» deja de ser suficiente. Escribí casi todo esto hablándole a mi portátil y dejando que el paso de limpieza arreglara mis falsos arranques, luego lo leí para comprobar que sonaba como una persona. Así era, que es la única prueba que importa.

Di tu próxima frase en lugar de escribirla

Mantén pulsado el atajo, habla, suéltalo. La transcripción aparece donde esté el cursor —en todas las apps, siempre igual.

Modo local gratuito para cualquier cuenta con sesión iniciada. No se necesita tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, probablemente dictando las respuestas.

Lectura adicional