Guía
Voz a texto cuando no puedes teclear
Si escribir con el teclado no es una opción —manos doloridas, una escayola, o simplemente prefieres no hacerlo—, la voz a texto te deja escribir en cualquier app hablando. Pulsas un atajo, hablas, y las palabras aparecen justo donde está el cursor. Esto es una guía de productividad, no consejo médico.
Última actualización: junio de 2026

La voz a texto para quienes no pueden teclear funciona con una herramienta de sistema, no con la app en la que escribes. Pulsas un atajo, hablas, y la transcripción se pega donde está el cursor en cualquier programa. Una herramienta como Whisper funciona sin conexión en Windows o Mac, con una capa local gratuita. Esto es una ayuda de productividad, no consejo médico.
Hay semanas en las que dicto más de lo que tecleo, y no siempre por gusto. Un dedo machacado al atrapar un plato que se caía, una racha larga en la que la muñeca simplemente dice que no: el teclado deja de ser una opción y el trabajo no desaparece. Así que le hablo al ordenador y él escribe. Esa es toda la idea detrás de la voz a texto para quienes no pueden teclear, o no pueden teclear con comodidad, o ya han teclado bastante por hoy.
Antes que nada, seamos sinceros. Yo desarrollo software de dictado. No soy médico, y esto no es consejo médico: nada de lo que hay aquí trata, previene ni cura ninguna condición. Lo que hace el dictado es algo concreto y útil: genera texto sin pulsar teclas. Si pulsar teclas es el problema, generar texto sin pulsarlas es la palanca que de verdad puedes accionar. Esa es la propuesta, y prefiero describir el mecanismo a adornarlo.
Aquí está la parte que la mayoría de las páginas se saltan. Un cuadro de texto es un cuadro de texto: tu correo, un Google Doc, una ventana de chat, la barra de búsqueda. Un dictado que pega donde está el cursor no distingue en qué cuadro estás. Así que la pregunta de verdad no es "¿esta app permite escribir por voz?". Es "¿qué herramienta ejecuto por encima de todo?", y la respuesta es un único atajo que se comporta igual en cada programa.
Hay una segunda verdad que conviene soltar pronto. Una herramienta de dictado escribe texto; no maneja todo el ordenador. No hará clic en menús, ni moverá el ratón, ni navegará entre ventanas por voz. Para mucha gente el dolor del teclado está en escribir el texto, así que delegar el texto ya mueve bastante la aguja. Si necesitas manejar el ordenador con las manos libres —hacer clic, desplazarte, todo—, al final hay una sección que te apunta a las herramientas adecuadas, porque esas no somos nosotros.
Por qué la gente recurre a escribir sin teclado

Las razones caben en unos pocos cajones honestos, y ninguno necesita un diagnóstico para ser real. A algunas personas les duelen las manos y quieren darles descanso por hoy —ese lado de productividad lo tratamos en una guía aparte sobre dictar cuando teclear causa molestias. Otras tienen un bloqueo temporal: una férula, una escayola, un dedo vendado. Otras tienen un motivo permanente para mantener las manos lejos del teclado. Y mucha gente simplemente escribe más rápido en voz alta de lo que nunca lo hizo con diez dedos.
Sea cual sea el motivo, la tarea es la misma. Hay un texto que tiene que existir —un correo, un párrafo, una respuesta, una nota— y el teclado es doloroso, lento o no está disponible. El dictado genera ese texto con la voz. Las teclas que habrías pulsado, no las pulsas. Para una bandeja de entrada que normalmente responderías en cuarenta minutos de teclear, son unos cuantos cientos de pulsaciones que sencillamente te ahorras.
Hablar va a unas 145 palabras por minuto para la mayoría; teclear ronda las 40. Así que, además del descanso para las manos, vas unas tres veces y media más rápido, lo cual es un efecto secundario muy agradable cuando la opción lenta era la única sobre la mesa. Lo repetiré con claridad, porque importa: esto es una ayuda de productividad y accesibilidad. No es terapia, no es tratamiento, y si hay dolor de por medio, a quien hay que preguntar es a un profesional sanitario, no a una entrada de blog.
Pulsa un atajo, habla y las palabras aparecen donde está el cursor
Este es todo el mecanismo, y es aburrido en el mejor sentido posible. Pulsas un atajo, hablas, sueltas, y la transcripción se pega donde está el cursor, en cualquier campo de texto que tenga el foco. Whisper mantiene un breve margen después de que sueltes la tecla, para que tu última palabra no se corte. Como pega en el cursor del sistema operativo, tu cliente de correo, tu documento y tu app de chat son todos simplemente "cualquier cuadro de texto". El mismo comportamiento en todas partes.
Esa es la parte que las páginas de venta complican de más. No hay extensión que conectar a una sola app, ni token que pegar, ni una ventana aparte de donde rescatar tus palabras. Tu cursor es donde debe ir el texto, hablas, y las palabras aparecen ahí. Una pequeña cápsula aparece mientras hablas para que sepas que está escuchando:
El atajo es la única cosa que vale la pena configurar bien. En Windows es Ctrl+Space; en Mac es Command+Option, un push-to-talk solo de modificadores que mantienes pulsado mientras hablas y sueltas para parar. Si mantener una combinación ya resulta incómodo, cambia a pulsar-para-alternar en Ajustes, dentro de Grabación: un toque empieza, otro toque para, y nunca mantienes nada pulsado. Todo el panel del atajo existe porque una vez lancé uno fijo y chocó con el software de música de alguien a las dos de la madrugada. Y eso que tengo un máster. Una vez en marcha, el trato que has hecho es el mismo que en dictar en lugar de teclear en cualquier app: el teclado pasa a ser opcional.
Configúralo en dos minutos (Windows o Mac)
Necesitas un Mac con Apple Silicon o un PC con Windows 10 o superior, un micrófono que funcione, y abierta delante la app en la que quieres escribir. Toda la canalización local es gratuita para cualquier cuenta con sesión iniciada, sin pedir método de pago al registrarte. Esta es la secuencia.
Paso 1 — Instala Whisper e inicia sesión.
Descárgalo desde la página de descarga, instálalo y crea una cuenta gratuita. Sin tarjeta. Toda la canalización local de transcripción se abre al momento.
Sabrás que ha funcionado cuando aparezca el icono de la app en la bandeja del sistema y el asistente de configuración te proponga elegir un modelo.
Paso 2 — Elige una vía de transcripción.
La app no elige por ti. Tienes tres: Cloud (OpenAI, con tu propia clave), Local Parakeet o Local Whisper. Si te importa la privacidad o mantenerte sin conexión, empieza por la local: más sobre esto dos secciones más abajo.
Sabrás que ha funcionado cuando un modelo termine de descargarse y aparezca como listo.
Paso 3 — Define un atajo que te quede a mano.
Windows usa Ctrl+Space por defecto, y Mac Command+Option mantenido como push-to-talk. Si mantener teclas es duro para tus manos, cambia a pulsar-para-alternar para que un toque empiece y otro pare. En Mac, concede el permiso de Accesibilidad cuando te lo pida; sin él, el pegado en el cursor no puede llegar a otras apps.
Sabrás que ha funcionado cuando una grabación de prueba se pegue en cualquier campo de texto.
Paso 4 — Pon el cursor donde irá el texto y habla.
Haz clic en cualquier cuadro de texto, empieza a grabar, di una frase, para. La transcripción aparece donde está el cursor, como si la hubieras tecleado.
Sabrás que ha funcionado cuando tu frase hablada esté en el campo de texto convertida en texto.
La parte lenta es la descarga del modelo, no la configuración. Todo lo demás son los cuatro pasos de arriba. Una vez en marcha, llevar una idea a cualquier app deja de ser una tarea de teclear y se convierte en una de hablar, que es justo el objetivo cuando teclear es precisamente lo que no puedes hacer.
Escribir en cualquier app — y lo que la voz no hará
Prácticamente todo, la verdad. El correo es lo grande: respuestas, seguimientos, ese mensaje largo y disculpa que llevas evitando. Documentos e informes, donde prefieres pensar en voz alta que pelear con el cursor. Chat en Slack, Teams, Discord, donde sea que viva tu equipo. Notas, tanto las de reunión como las del recordatorio de las 11 de la noche. Barras de búsqueda, campos de formulario, un cuadro de comentarios. Si es texto que va a un cuadro, puedes decirlo en lugar de teclearlo, y el mismo atajo lo hace en todas partes.
Aquí está el límite, dicho con claridad para que no lo descubras por las malas. Whisper pone las palabras donde ya está tu cursor. No mueve el cursor, ni hace clic en menús, ni se desplaza, ni cambia de ventana, ni maneja tu ordenador por voz. Llegas al cuadro de texto de la forma habitual —ratón, trackpad, un toque— y luego dictas en él. Para la mayoría, el grueso de la carga del teclado es escribir, no navegar, así que delegar la escritura es casi toda la victoria. Pero si tus manos necesitan descansar de todo, no solo de teclear, una herramienta de dictado no es la respuesta completa.
Esa brecha es a propósito, no un descuido. Hacemos que el acto de escribir por voz sea rápido y fiable en cada app, y preferimos hacer esa única cosa bien antes que dejar a medias un escritorio entero de manos libres. Cuando lo que necesitas es control total, las herramientas adecuadas existen y las nombraré al final. Entre tú y yo, saber exactamente dónde se detiene una herramienta es más útil que una lista de funciones que finge hacerlo todo.
Local o nube: qué modo elegir cuando teclear no es una opción
Prueba primero el modo local. Si te apoyas en el dictado porque el teclado es difícil para ti, lo último que quieres es que la herramienta dependa además de una conexión estable a internet o de una factura por minuto. El modo local funciona por completo en tu propia máquina, totalmente sin conexión, sin enviar nada a un servidor. Si tu Mac es Apple Silicon o tu PC es de los últimos años, el modo local gestiona el dictado cotidiano sin problemas, y la nube pasa a ser la salida de emergencia en vez de la opción por defecto.
Así se diferencian las tres vías, porque la app te hace elegir y prefiero que elijas bien:
- Local Parakeet — el motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida: de 5 a 10 veces más rápido que Whisper en CPU. Cubre el inglés y otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Si escribes en inglés o en otro idioma europeo, esta es la opción rápida y totalmente sin conexión.
- Local Whisper — más lento que Parakeet en la misma máquina, pero las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son solo en inglés, no 99. Elige esta para chino, japonés, coreano o cualquier trabajo de traducción, que Parakeet no puede hacer. El modelo de inglés por defecto ronda los 480 MB.
- Cloud (OpenAI, con tu clave) — la mejor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción usa gpt-4o-mini-transcribe por defecto. Necesita internet, así que es la única vía que sale de tu máquina. La capa Cloud forma parte de Whisper Pro.
La verdad aburrida es que, para el día a día, lo local sobra. Los dos motores locales funcionan por completo en tu máquina, lo que aquí importa más que de costumbre: el correo a un médico, un formulario del seguro, el mensaje que prefieres no hacer pasar por los registros de un proveedor; nada de eso sale de tu portátil. Tu ordenador ya tiene micrófono y CPU; para un párrafo no necesita un servidor de por medio. La nube se gana su sitio cuando quieres la máxima precisión en una grabación difícil o necesitas un dato sacado de la web a mitad de frase. Empieza en local y recurre a la nube solo cuando lo local se quede corto.
Limpiar y editar sin volver al teclado
El lenguaje hablado es desordenado. Dices "eh", reinicias frases, te quedas a medias. Si luego tienes que arreglar todo eso tecleando, has vuelto a meter las pulsaciones, lo que arruina la idea cuando teclear es precisamente lo que estás evitando. Así que aquí el paso de limpieza importa más que para la mayoría de la gente.
Whisper tiene un pase de IA opcional que recorta las muletillas y pule la redacción antes de que el texto aterrice, así pegas algo casi terminado. Di la frase de activación "Hey whisper" y lo que aparece es la versión mejorada. En un modelo local eso se ejecuta a través de Ollama, gratis, en tu propia máquina; en modo nube es gpt-5-mini por defecto. En cualquier caso, menos correcciones significa menos teclas.
eh sí o sea el informe ya está básicamente hecho creo y te lo mando el jueves antes de la reunión eh si te viene bien
El informe ya está básicamente hecho, creo. Te lo mando el jueves antes de la reunión, si te viene bien.
La edición es el punto flojo y honesto de cualquier flujo por voz, y no voy a fingir lo contrario. Corregir una sola palabra mal por voz es más engorroso que estirar la mano y reescribirla, lo cual está bien si te puedes permitir alguna pulsación de vez en cuando y es un problema si no. Dos cosas ayudan. Dicta en ráfagas cortas, para que un error sea una rápida regrabación en vez de rehacer un párrafo entero. Y deja que la limpieza con IA atrape las muletillas y la puntuación de entrada, para que haya menos que corregir. Para una edición por voz más profunda —seleccionar y reemplazar palabras enteras por comando— ese es claramente el trabajo de las herramientas de control total de la siguiente sección.
Ese mismo flujo de hablar y luego limpiar es el hábito cotidiano detrás de dictar texto limpio en cualquier app, de modo que un mensaje largo se convierte en unas pocas frases habladas en vez de un párrafo que tengas que teclear.
Cuando una herramienta de dictado no es la herramienta adecuada

Aquí está la mayor sinceridad de esta guía, y la advertencia que querría que un amigo me diera sin rodeos. Si necesitas manejar todo el ordenador con las manos libres —no solo escribir texto, sino hacer clic, desplazarte, mover el cursor, cambiar de app y navegar por voz—, Whisper es la herramienta equivocada. Nosotros dictamos texto en el campo que tiene el foco. No controlamos el ordenador. Para un control total con las manos libres, quieres software hecho exactamente para eso, y hay tres respuestas honestas.
En Windows 11 está Voice Access, integrado en el sistema, que te deja controlar la pantalla, hacer clic y navegar por voz además de dictar. En Mac, Voice Control hace lo mismo: ábrelo en Ajustes del Sistema, dentro de Accesibilidad, y podrás hacer clic, desplazarte y mover el cursor con comandos hablados, con el dictado por encima. Ambos son gratuitos, ambos están hechos para el control total del ordenador, y si eso es lo que necesitas, empieza ahí antes de instalar nada. Y para la configuración de manos libres más potente y programable —comandos de voz combinados con seguimiento ocular y clics basados en ruido, todo programable en Python—, Talon Voice funciona en Mac, Windows y Linux y está en otra categoría para el uso de manos libres de verdad.
El descarte menor es el de siempre: si solo metes de vez en cuando un mensaje corto en un cuadro, el dictado integrado de tu sistema operativo lo cubre gratis. En Windows es la barra de la tecla Windows + H; en Mac es el atajo de Dictado, en el dispositivo en Apple Silicon. Una herramienta dedicada se gana su sitio por volumen y fricción: la limpieza de muletillas, pulsar-para-alternar para que nunca mantengas una tecla, funcionar sin conexión, un único atajo que se comporta igual en cada app. Por debajo de ese listón, usa lo que es gratis. No voy a decirte que instales una app para una respuesta de una línea.
Si el motivo por el que estás aquí es una dificultad de lectura o escritura y no tus manos, el enfoque cambia un poco: la lógica en la conversión de voz a texto como ayuda para escribir cubre ese caso, y también es una guía de productividad, no médica.
Un teclado es una forma de meter texto en un ordenador. No es la única, y los días en que no es una opción, da un alivio recordarlo. Habla al cuadro, obtén texto, deja que la limpieza lo suavice, y edita en ráfagas cortas para que una palabra suelta sea una rápida regrabación, no una tarea pesada. Para todo lo que va más allá del texto —manejar la máquina entera por voz—, Voice Access, Voice Control y Talon están hechos para eso, y te mandaría allí sin pensarlo dos veces. La mayor parte de esta guía la dicté con una sola mano, en apps que no saben ni les importa que yo no estuviera tecleando. Ese es el truco: el cursor no pregunta cómo llegaron las palabras.
Escribe tu próximo mensaje sin el teclado
Define un atajo que te quede a mano, habla, y la transcripción aterriza en la app donde esté tu cursor: sin conexión, en tu propia máquina.
Modo local gratuito para cualquier cuenta con sesión iniciada. No hace falta tarjeta para empezar.



