Comparativa
Alternativa a la escritura por voz de Google: dicta en cualquier lugar
La escritura por voz de Google no sale de Google Docs. Aquí tienes la comparación honesta, frente a frente, con una app de dictado de escritorio que escribe allí donde esté el cursor, y una respuesta clara sobre cuándo la herramienta gratuita integrada sigue siendo la opción correcta.
Última actualización: junio de 2026

La mejor alternativa a la escritura por voz de Google es una app de dictado de escritorio que escribe en cualquier campo de texto, no solo en Google Docs. Whisper by Remskill funciona en Windows y Mac, transcribe sin conexión con modelos de IA locales gratuitos, puntúa automáticamente y pega el texto allí donde esté el cursor: correo, Slack, Word o cualquier navegador.
Un martes por la mañana, un correo de 80 palabras para una profesora que tenía que salir antes de llevar a los niños al colegio. Tenía la escritura por voz abierta en Google Docs, dicté tres párrafos bien ordenados, salté a Gmail para escribir la respuesta de verdad y me sorprendí hablándole a una ventana de redacción que nunca estuvo escuchando. La escritura por voz de Google tiene una sola regla: quédate dentro del documento. El micrófono vive en el menú Herramientas de Docs, y no te sigue cuando sales.
Así que dictas en una pestaña, copias, cambias, pegas, corriges la puntuación que se te olvidó decir en voz alta, y envías. Esa pequeña carrera de relevos es todo el argumento a favor de una alternativa. La decisión de esta página es sencilla: quédate con la herramienta gratuita que vive dentro de una sola app, o pásate a un dictado que sigue a tu cursor a todas partes.
Aquí está la brecha: la escritura por voz de Google escribe en documentos de Google Docs y en las notas del orador de Slides, y tu jornada de escritura no se queda ahí. Mientras tanto, el dictado de escritorio ha madurado: ahora hay modelos de IA locales que corren en un portátil corriente, pulen tu redacción sobre la marcha y nunca envían el audio a ningún sitio.
Esta comparación pone la escritura por voz de Google junto a Whisper by Remskill, la app de dictado de escritorio que desarrollo, en cinco ejes: dónde escriben, puntuación, idiomas, privacidad y comportamiento sin conexión. Al final sabrás cuál encaja con tu forma de escribir. Si la respuesta honesta es "quédate con Google", la sección de más abajo lo dice con todas las letras. Yo dicto casi todo lo que escribo, incluidas las respuestas de soporte, así que esto viene del uso diario, no de una página de características.
Lo que la escritura por voz de Google hace bien, y dónde se detiene
Primero, lo bueno. La escritura por voz de Google es gratuita con una cuenta de Google, no requiere ninguna instalación y funciona en las últimas versiones de Chrome, Edge y Safari. Dentro de un documento de Docs, o en las notas del orador y los subtítulos de Slides, el reconocimiento es decente y la lista de idiomas es larga. Si redactas todo en Docs, cumple de sobra, y nuestra guía de escritura por voz en Google Docs explica la configuración en detalle.
Las limitaciones son igual de concretas. La puntuación es manual: dices "punto", "coma", "signo de interrogación", "nuevo párrafo". Y la puntuación no está disponible en todos los idiomas. Los comandos de edición y formato solo funcionan en inglés, y solo cuando tanto el idioma de tu cuenta como el del documento son el inglés. (Las notas del orador de Slides tienen escritura por voz, pero ningún comando de voz. Yo tampoco sé por qué.)
Y el límite que dio origen a este artículo: la función existe dentro de dos superficies de Google y en ningún otro sitio. Gmail, Slack, tu CRM, tu editor de código, un formulario web: silencio. Nada de esto es un error. Es una función gratuita haciendo lo que su propia página de ayuda dice que hace, ni más ni menos. La pregunta es si tu escritura cabe dentro de esa caja. Y cuando deja de escuchar a media frase, suele ser el micrófono, no tú: nuestras soluciones para la escritura por voz de Google Docs cubren las causas habituales.
Una alternativa de escritura por voz que funciona en cualquier app
Whisper apuesta por lo contrario: el dictado pertenece al sistema operativo, no a un sitio web. Pulsas un atajo: Ctrl+Space en Windows, o Command+Option mantenido en Mac como pulsar para hablar. Hablas. Sueltas. El texto aterriza allí donde esté el cursor: un correo, una ventana de chat, una celda de hoja de cálculo, un mensaje de commit. No hay paso de copiar, porque no hay ningún "documento de origen" del que copiar.
El argumento de la velocidad es aritmética sencilla. El dictado va a unas 145 palabras por minuto frente a unas 40 al teclear; pongamos una diferencia de 3,6x. En un MacBook Air con M1 y el modelo pequeño en inglés, el lapso entre soltar la tecla y ver el texto es de 1,4 segundos.
Por debajo eliges una de tres rutas, y la app no la elige por ti. El modo en la nube se conecta a OpenAI con tu propia clave de API y usa gpt-4o-mini-transcribe o gpt-4o-transcribe. Parakeet, el motor local de NVIDIA, funciona de 5 a 10 veces más rápido que los modelos Whisper en CPU y cubre inglés más 24 idiomas europeos. Y los modelos Whisper de código abierto locales van desde un modelo de 140 MB en inglés hasta el Large v3 de 3 GB. La app se distribuye para Windows y para Mac con Apple Silicon.
Escritura por voz de Google frente a Whisper, frente a frente
Los criterios, elegidos antes de la tabla: dónde escribe la herramienta, dentro de qué funciona, puntuación, comandos de voz, cobertura de idiomas, comportamiento sin conexión y forma del precio. Esas son las siete cosas que lo decidieron para mí cuando aún usaba el micrófono de Docs. La columna de Google sale de la propia página de ayuda de Google; la columna de Whisper sale del código fuente de la app, que puedo ver desde aquí.
| Escritura por voz de Google | Whisper | |
|---|---|---|
| Dónde escribe | Documentos de Docs, notas del orador y subtítulos de Slides | Cualquier campo de texto de tu ordenador |
| Funciona en | Chrome, Edge y Safari más recientes | App de escritorio, Windows + macOS (Apple Silicon) |
| Puntuación | Dicha en voz alta; no está disponible en todos los idiomas | Añadida por la limpieza con IA |
| Comandos de voz | Solo en inglés, con el idioma de cuenta y de documento en inglés | Palabra clave "Hey whisper" más ajustes personalizados |
| Idiomas | Lista larga, con límites de puntuación según el idioma | Más de 90 en los modelos Whisper multilingües, 25 en Parakeet, compilaciones .en solo en inglés |
| Sin conexión | Función de navegador; el uso sin conexión no está documentado | El modo local funciona sin nada de internet |
| Forma del precio | Gratis con una cuenta de Google | Modo local gratis; funciones en la nube de pago — ver precios |
El veredicto coincide con el primer párrafo: Whisper es la opción en el momento en que tu escritura sale de Google Docs. La escritura por voz de Google sigue siendo la respuesta correcta para quien escribe sin salir nunca de ahí. Ese caso tiene su propia sección más abajo, y lo digo en serio.
Escritura por voz en línea frente a escritura por voz en tu escritorio

"Escritura por voz en línea" casi siempre significa una web que abres en una pestaña: una página gratuita con un botón de micrófono que transcribe en una caja de texto. Estas herramientas se apoyan en el motor de reconocimiento de voz del navegador, y la documentación de la Web Speech API de MDN es contundente sobre cómo funciona eso: "Tu audio se envía a un servicio web para procesar el reconocimiento, así que no funcionará sin conexión." La misma página nombra los dos costes: privacidad, porque tu voz sale de la máquina, y fiabilidad, porque sin conexión no hay transcripción.
Para una nota puntual, una página de escritura por voz en línea está bien. El impuesto aparece con la repetición: cada dictado termina en seleccionar, copiar, cambiar, pegar. Una vez dicté una lista de la compra en la pestaña equivocada y la pegué en una hoja de presupuestos. Durante unos diez segundos, las proyecciones del tercer trimestre incluían "yogures, los pequeños, no los grandes". Una herramienta de escritorio elimina toda esa clase de accidentes porque el texto empieza donde termina: en tu cursor. Y cuando el micrófono del navegador se porta mal, el arreglo vive en los ajustes del navegador, que es toda una tarde aparte. Preparamos las soluciones para el dictado en Chrome después de que bastante gente lo pidiera.
Puntuación y limpieza: el impuesto de edición que nadie cuenta
La verdad aburrida es que la transcripción nunca fue la parte lenta. La limpieza sí. Con la escritura por voz de Google dices tu puntuación ("punto", "nuevo párrafo"), lo cual funciona, pero te convierte en alguien que narra las comas. Probé los comandos para este artículo, y mi documento de prueba acabó con la palabra "coma" once veces. El hábito también se te pega: desde entonces he terminado una frase hablada, en una conversación real, con "punto".
Whisper, en cambio, pasa la transcripción en bruto por una limpieza con IA: gramática corregida, muletillas eliminadas, puntuación colocada donde corresponde. En modo local eso pasa por Ollama; en modo nube usa modelos de OpenAI, con gpt-5-mini como mejorador por defecto. Empieza una frase con "Hey whisper" y la IA trata lo que sigue como una instrucción en vez de texto para escribir: "Hey whisper, haz que esta respuesta sea amable pero firme" es un flujo de trabajo real, no una demo. La diferencia en la sensación es difícil de exagerar. Una herramienta te pide que ejecutes el formato. La otra te deja hablar como una persona y te devuelve algo que enviarías tal cual.
Privacidad: a dónde va tu voz
Esta es la opinión que voy a defender: el dictado que envía tu voz a un servidor que no controlas es un problema de privacidad, y para cierto trabajo es un impedimento absoluto. La escritura por voz basada en el navegador funciona enviando el audio fuera para procesarlo. Eso está bien para una lista de la compra. Es otra conversación para un borrador de contrato, una nota clínica o el correo sobre la situación de tu hijo en el colegio.
Vi de cerca el lado del coste de esta lección. Un equipo con el que trabajé tenía a un colaborador externo construyendo un prototipo interno de dictado con IA que llamaba a una API en la nube en cada frase. A final de trimestre, el responsable abrió el panel de costes: una factura de cinco cifras, la mayor parte de un solo equipo que transcribía sus grabaciones de standup cuatro veces porque la lógica de reintentos era demasiado ansiosa. El colaborador propuso optimizar el prompt. El director financiero propuso no pagarle a un servidor por escuchar reuniones que ya tenían notas. Ambos tenían razón en algo.
El modo local de Whisper cierra la cuestión en vez de discutirla: el modelo corre en tu máquina, nada sale del dispositivo y no hace falta nada de internet. Mismo atajo, mismo flujo, cero audio en tránsito.
Cuándo saltarte Whisper y quedarte con Google
Si cada palabra que dictas acaba en un Google Doc, quédate con la escritura por voz de Google. No cuesta nada, ya está en el menú Herramientas, y dentro de Docs cumple su función: es una combinación difícil de rebatir, y no voy a fingir lo contrario. Lo mismo si dictas dos veces al mes: instalar una app de escritorio para ahorrarte dos copiar-pegar es sobreingeniería, y lo digo profesionalmente. Whisper se gana su sitio cuando tu escritura sale del documento con regularidad (correo, chat, formularios, notas), o cuando te importan la puntuación por IA, el uso sin conexión o mantener el audio en tu máquina. Hasta entonces, la herramienta gratuita integrada es la herramienta correcta.
Fuentes que vale la pena leer
Aquel correo a la profesora del principio de la página acabó enviándose, dictado dentro del propio Gmail, sin relevo a través de un Doc, con la puntuación incluida sin que yo dijera una sola palabra de ella. La pestaña con Google Docs se quedó cerrada. Esa es toda la comparación en un solo momento: la herramienta gratuita le pide a tu escritura que vaya a ella, y la alternativa va a donde la escritura ya está. Elige la dirección que encaje con tu día.
Prueba el atajo en tu próximo correo
Descarga Whisper para Windows o Mac, pulsa una vez, habla y mira cómo el texto aterriza donde ya está tu cursor.
El modo local es gratis, funciona sin conexión y nunca envía el audio a ningún sitio.



