Por Denys Medvediev

Guía

Voz a texto en el editor de Substack

El editor de publicaciones de Substack no tiene dictado integrado. Sus funciones de audio narran una publicación ya terminada; no te ayudan a escribirla. La solución es una herramienta de todo el sistema: pulsas una tecla rápida, hablas y tus palabras aparecen en el cursor dentro del editor.

Última actualización: junio de 2026

Una escritora frente a un portátil en un escritorio oscuro, con un café, redactando una publicación al hablar

La función de voz a texto en el editor de Substack funciona mediante una herramienta de todo el sistema, no a través de Substack en sí. El editor de publicaciones de Substack no tiene función de dictado; sus opciones de audio solo narran texto ya escrito. Una herramienta como Whisper lo soluciona: pulsas una tecla rápida, hablas y la transcripción se pega en el cursor del editor, y luego una pasada de IA limpia el discurso desordenado.

Escribo un boletín pequeño, y la mayoría de mis mejores párrafos llegan mientras paseo al perro, no mientras estoy sentado al teclado. Así que me puse a buscar una manera de dictar un borrador directamente en el editor de Substack. Encontré un montón de páginas sobre la función de voz en off de Substack. Ninguna trataba de lo que yo realmente quería, que es justo lo contrario.

Esta es la confusión con la que tropieza casi cada resultado de búsqueda. Substack convertirá encantado tu publicación terminada en audio. Lo que no hará es convertir tu audio en una publicación. Son direcciones opuestas, y la segunda —dictar el borrador— no tiene ningún botón en ninguna parte del editor. La solución vive fuera de Substack, se configura en unos dos minutos y funciona también en cualquier otra aplicación donde escribas.

Aquí está lo que los artículos sobre voz en off pasan por alto. El editor de publicaciones de Substack es un cuadro de texto enriquecido del navegador, el mismo tipo que una ventana de redacción de Gmail o un Google Doc. Al dictado que pega en el cursor le da igual en qué cuadro está escribiendo.

Así que la verdadera pregunta no es «cómo activo el dictado en Substack». No hay ningún interruptor, y el menú de audio que sigues encontrando hace justo lo contrario. La pregunta es «qué herramienta de dictado uso encima del editor de Substack», y la respuesta depende de si quieres algo gratis y ya integrado, o una sola tecla rápida sin conexión que se comporta igual en todas partes. Te lo explico todo, configuro una en dos minutos y te digo cuándo puedes saltarte la opción dedicada.

¿El editor de Substack tiene dictado?

Una persona hablando con calma frente a un portátil, ilustrando cómo redactar con la voz en lugar de teclear

No. El editor de publicaciones de Substack no tiene ninguna función integrada de voz a texto, dictado ni escritura por voz para redactar tu borrador hablando. No hay un botón de micrófono que escriba por ti, ni comando de voz, ni preferencia oculta. Si llevas un rato buscándolo en la barra de herramientas del editor, puedes parar. No está ahí.

Lo que sí está —y lo que cada resultado de búsqueda te ofrece en su lugar— es el menú de audio detrás del icono de los auriculares. Eso es voz en off y texto a voz. La voz en off te permite grabarte leyendo una publicación que ya has escrito, o subir un archivo de audio, para que tus suscriptores puedan escucharlo. El texto a voz, disponible en algunas publicaciones, usa una voz sintética para leer en voz alta tu publicación terminada. Ambos toman texto y producen audio. El dictado hace exactamente lo contrario: toma tu voz y produce texto. La gente confunde las dos cosas porque ambas implican un micrófono y la palabra «voz», y esa confusión cuesta una tarde de búsquedas. Prefiero que te ahorres esa tarde.

La distinción importa porque te dice dónde mirar. No vas a encontrar el dictado dentro de Substack, por mucho que te quedes mirando el panel de audio, porque nunca se construyó ahí. El editor es un cuadro de texto que espera que teclees. Para meter tu voz en él, necesitas una herramienta que se sitúe encima del navegador y envíe texto allí donde esté el cursor. Hay dos caminos honestos, y el resto de esta guía cubre ambos.

Pulsa una tecla rápida, habla y las palabras aparecen en el editor

Este es todo el mecanismo, y es aburrido en el mejor de los sentidos. Pulsas una tecla rápida, hablas, la sueltas y la transcripción se pega en tu cursor, en el campo de texto que tenga el foco. Whisper mantiene una breve cola después de que sueltes la tecla, para que tu última palabra no se corte. Como pega en el cursor del sistema, el editor de Substack es simplemente «un cuadro de texto cualquiera». Un editor web sin API que integrar, sin ranura para complementos, y da igual, porque el dictado nunca toca el código de Substack. Escribe donde tú ya estás escribiendo.

Esa es la parte que las páginas de aterrizaje complican de más. No hay nada que instalar dentro de Substack, ningún token que pegar en los ajustes de tu publicación, ninguna integración que aprobar. Tu cursor está en el editor, hablas y las palabras aparecen en el editor. Una pequeña cápsula aparece mientras hablas para que sepas que está escuchando:

Cancel
La superposición de grabación: una pequeña cápsula que aparece mientras hablas, para que sepas que Whisper está escuchando.

La tecla rápida es lo único que merece la pena dejar bien ajustado desde el principio. En Windows es Ctrl+Space; en Mac es Command+Option, un «pulsar para hablar» de solo modificadores que mantienes mientras hablas. Ambas se pueden cambiar en Ajustes si chocan con algo que ya usas. (Mi hija menor me dijo una vez que una tecla rápida «no funcionaba» en su aplicación de dibujo. Era un conflicto, no un fallo, y así aprendí que la persona media no tiene ni idea de qué es un conflicto de teclas rápidas. Así que ahora cada tecla rápida se puede personalizar.) Si alguna vez has configurado el dictado en Windows o en Mac, esto es la misma memoria muscular apuntando a tu boletín.

Configúralo en dos minutos (Windows o Mac)

Necesitas un Mac con Apple Silicon o un PC con Windows 10 o posterior, un micrófono que funcione y Substack abierto en tu navegador con un borrador de publicación en pantalla. Todo el flujo local es gratis para cualquier cuenta con sesión iniciada, sin que se pida un método de pago al registrarte. Esta es la secuencia.

Paso 1: instala Whisper e inicia sesión.

Descárgalo desde la página de descarga, instálalo y crea una cuenta gratuita. Sin tarjeta. Todo el flujo local de transcripción se abre de inmediato.

Sabrás que funcionó cuando aparezca el icono de la aplicación en la bandeja del sistema y el asistente de configuración te ofrezca elegir un modelo.

Paso 2: elige un camino de transcripción.

La aplicación no elige por ti. Tienes tres: Nube (OpenAI, con tu propia clave), Parakeet local o Whisper local. Para redactar publicaciones en tu propia máquina, empieza con la opción local; te cuento más dos secciones más abajo.

Sabrás que funcionó cuando un modelo termine de descargarse y aparezca como listo.

Paso 3: confirma tu tecla rápida.

Windows usa Ctrl+Space por defecto; Mac, Command+Option mantenido como «pulsar para hablar». En Mac, concede el permiso de Accesibilidad cuando se te pida; sin él, el pegado en el cursor no puede llegar a tu navegador.

Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.

Paso 4: pon el cursor en el editor de Substack y habla.

Abre un borrador, haz clic en el cuerpo, mantén pulsada la tecla rápida, di una frase y suéltala. La transcripción aparece donde está el cursor, dentro del editor.

Sabrás que funcionó cuando tu frase hablada esté en el borrador de Substack como texto.

Whisper
La aplicación de escritorio real de Whisper en la pantalla de ajustes, con los paneles de Transcripción e IA abiertos.

La parte lenta es la descarga del modelo, no la configuración. Todo lo demás son los cuatro pasos de arriba. Una vez que está en marcha, llevar un borrador a la página deja de ser una tarea de teclear y pasa a ser una tarea de hablar, que, para un boletín, es la mayor parte del trabajo.

voz a texto en Windows · en Mac

Por qué un editor de navegador necesita una herramienta de todo el sistema

El editor de Substack se ejecuta en tu navegador, y eso determina lo que siquiera es posible. La mayoría de las aplicaciones en las que querrías dictar tienen una versión de escritorio con ganchos profundos; un editor de texto enriquecido en la web no tiene nada de eso. No hay un mercado de complementos, ni un punto de extensión que Substack exponga para escribir en una publicación. Así que la integración no puede venir desde dentro de Substack. Tiene que venir de una capa por encima del navegador.

Una tecla rápida de todo el sistema es exactamente esa capa. Pega en el cursor del sistema sin importar qué ventana lo controle, así que la misma tecla que llena tu borrador de Substack también llena tu cuadro de redacción de Gmail, un mensaje de Slack y un mensaje de commit. Una sola herramienta, todos los campos de texto, tanto en Windows como en Mac. No vuelves a aprender nada cuando pasas de redactar una publicación a responder el correo de un lector: es el mismo pulsar-hablar-soltar en todas partes.

Por eso también una extensión de navegador que solo funcione en Substack sería la forma equivocada de abordar el problema. Los escritores no viven en una sola pestaña. Redactas en Substack, investigas en otra ventana, respondes comentarios en la aplicación, anotas la siguiente idea donde sea que aparezca. Una herramienta limitada a un único sitio resuelve una porción; una herramienta limitada al cursor lo resuelve todo. Cambio de aplicación unas cuarenta veces por hora y no quiero cuarenta botones de dictado distintos que recordar.

Local o nube: qué modo usar para redactar publicaciones

Para un borrador de boletín, prueba primero el modo local. Una publicación a medias es tu propio pensamiento en bruto: opiniones que aún no has formado del todo, un párrafo que quizá recortes, eso que no estás seguro de querer publicar todavía. Sería una elección extraña enviar cada frase sin pulir a la nube de alguien solo para que aparezca en tu propia pantalla. Si tu Mac tiene Apple Silicon o tu PC es de los últimos años, lo local maneja el dictado del día a día sin quejarse, y la nube se convierte en la salida de emergencia en lugar de la opción por defecto.

Así es como se diferencian los tres caminos, porque la aplicación te obliga a elegir y prefiero que elijas bien:

  • Parakeet localEl motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida: de 5 a 10 veces más rápido que Whisper en CPU. Cubre el inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Si escribes tu boletín en inglés o en otro idioma europeo, esta es la opción rápida y totalmente sin conexión.
  • Whisper localmás lento que Parakeet en la misma máquina, pero las versiones multilingües cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son solo en inglés, no 99. Elige esta para chino, japonés, coreano o cualquier trabajo de traducción, que Parakeet no puede hacer. El modelo en inglés por defecto ocupa unos 480 MB.
  • Nube (OpenAI, con tu propia clave)la mejor precisión y acceso a la web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción se ejecuta en gpt-4o-mini-transcribe por defecto. Necesita internet, así que es el único camino que sale de tu máquina. La superficie de Nube forma parte de Whisper Pro.

La verdad aburrida es que, para el tipo de prosa que la mayoría de los autores de boletines escriben, lo local sobra. Ambos motores locales se ejecutan por completo en tu máquina sin enviar nada a un servidor. La nube se gana su sitio cuando quieres una precisión de primer nivel en una grabación complicada, o quieres que el modelo saque un dato de la web mientras redactas. Para un hábito de escritura habitual, empieza con lo local y recurre a la nube solo cuando lo local se quede corto.

Convierte un discurso desordenado en un párrafo limpio

El dictado en bruto sale como una frase interminable. Hablas como piensas, en un único aliento largo sin puntuación, y ese es el muro de texto que te entrega cualquier motor de voz. Para un correo terminado es molesto. Para una publicación que vas a publicar bajo tu propio nombre, es un problema: nadie quiere lanzar un párrafo que se lea como una transcripción. Limpiarlo es donde se ve el verdadero valor de redactar con la voz.

El dictado por voz de Windows añade la puntuación mientras hablas, y el Dictado de macOS gestiona la puntuación básica cuando dices «coma» o «punto». Para una limpieza más a fondo —quitar los «eh», arreglar las frases interminables, convertir un discurso desordenado en un párrafo que de verdad publicarías—, Whisper puede ejecutar una pasada de IA. Di la frase de activación «Hey whisper» y el texto se mejora antes de aterrizar. En un modelo local eso pasa por Ollama; en modo nube es gpt-5-mini por defecto. El antes y el después es toda la propuesta:

Thinking...
En bruto

vale o sea lo que quería decir esta semana es que casi todos los consejos de productividad son consejos para teclear disfrazados eh tipo no necesitas una aplicación mejor necesitas dejar de teclear tanto

Limpio

Lo que quería decir esta semana es que casi todos los consejos de productividad son consejos para teclear disfrazados. No necesitas una aplicación mejor. Necesitas dejar de teclear tanto.

El límite honesto merece la pena dejarlo claro, porque las demos no lo harán. La voz te da las palabras; no te da el formato. Los encabezados de Substack, la negrita, las citas en bloque, los enlaces y esa pequeña línea divisoria salen todos de la propia barra de herramientas y los atajos del editor. Dicta la frase, luego echa mano de la barra de herramientas para hacer el H2 o poner el enlace como siempre lo haces. Ninguna herramienta de dictado hace aparecer una cita destacada de Substack por arte de magia. Pon la prosa rápido con la voz y luego dale forma a la publicación con el editor que ya conoces.

Ese mismo flujo de hablar y luego limpiar da frutos mucho más allá de tu boletín: también puedes dictar prosa limpia en cualquier aplicación con la única tecla rápida, de modo que un bloque largo se convierte en unas pocas frases habladas en lugar de un párrafo que sacas a fuerza de teclear.

Cuándo prescindir de una herramienta de dictado para Substack

Dos flechas dibujadas con tiza en el pavimento apuntando en direcciones distintas, ilustrando una elección de herramienta

A veces la herramienta adecuada es la gratuita que ya tienes en tu máquina, y fingir lo contrario sería deshonesto. Si lo único que haces es soltar una línea corta en el editor —una nota de una frase, una respuesta rápida en los comentarios—, tu sistema operativo lo cubre gratis.

En Windows, pulsa la tecla Windows + H y la barra de dictado por voz integrada se abre allá donde esté tu cursor, incluido el editor de Substack. Puntúa por sí sola y va bien para ráfagas cortas. La pega: pasa por los servidores de Microsoft y necesita conexión a internet, así que no es una opción sin conexión. En Mac, el Dictado te permite hablar para introducir texto en cualquier sitio donde puedas escribir, se configura en Ajustes del Sistema, en Teclado, y en Apple Silicon el texto general se puede procesar en el dispositivo. Para una frase rápida en un borrador, cualquiera de las dos va genuinamente bien, y no voy a convencerte de que renuncies a lo gratis.

Recurre a una herramienta dedicada de todo el sistema cuando lo integrado empiece a doler: publicaciones de largo recorrido, la pasada de limpieza con IA que convierte un discurso desordenado en prosa publicable, escritura multilingüe, redactar sin conexión o querer una sola tecla rápida que se comporte igual en Substack, tu correo y tu aplicación de notas. Un boletín es el caso de formato largo, así que la mayoría de los escritores cruzan esa línea rápido; pero por debajo de ella, usa lo gratis. No voy a decirte que instales una aplicación para responder un comentario de una línea.

El mismo equilibrio aparece dondequiera que escribas: la lógica de dictar en Gmail es idéntica, porque ambos son cuadros de texto del navegador donde el cursor, no un complemento, es la verdadera integración.

Para seguir leyendo

Substack leerá tu publicación terminada en voz alta, y lo hace bien. Lo que no hará es ayudarte a escribir la cosa en primer lugar, y después de escribir esto estoy bastante seguro de que nunca se propuso hacerlo. No pasa nada, porque el cursor es la integración. Habla en el editor, obtén texto, límpialo con una pasada de IA y dale forma a la publicación con la barra de herramientas que ya conoces. Redacté la mayor parte de esta guía con la voz, en un cuadro que no era Substack, con una herramienta a la que le da igual qué cuadro sea, y luego pegué todo en un borrador. Ese es todo el truco.

Pruébalo en tu próximo borrador de Substack

Mantén pulsada la tecla rápida, habla y suéltala. La transcripción aterriza en el editor, donde está tu cursor, y luego una pasada de IA convierte el discurso desordenado en un párrafo que publicarías.

Modo local gratuito para cualquier cuenta con sesión iniciada. No se necesita tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, probablemente dictando las respuestas.