Por Denys Medvediev

Tutorial

Voz a texto en Canva: dicta con un atajo de teclado

Canva no tiene dictado en vivo. Magic Write genera texto a partir de una instrucción; Speech to Text transcribe un archivo. Para hablar tus propias palabras dentro de un cuadro de texto, un comentario o un Doc de Canva, usas un atajo de teclado de escritorio para todo el sistema, como Whisper.

Última actualización: junio de 2026

Escritorio de diseñador con un portátil, un cuaderno y muestras de color dispuestas para el trabajo creativo visual

La función de voz a texto en Canva no viene integrada. Canva tiene Magic Write (generación de texto con IA a partir de una instrucción escrita) y Speech to Text (transcripción de un archivo que ya grabaste), pero no dictado en vivo dentro de un cuadro de texto. Una herramienta de escritorio para todo el sistema, como Whisper, llena ese vacío: mantén pulsado un atajo, habla y las palabras aparecen donde está el cursor, en cualquier campo de Canva.

Esa frase confunde a la gente, así que déjame decirlo más despacio. Canva tiene cuatro cosas con la etiqueta «voz» o «IA», y ninguna de ellas eres tú dictando tus propias palabras dentro de un cuadro de texto. Si las mezclas, pasarás veinte minutos buscando un botón de dictado que nunca estuvo ahí.

Esto es una guía práctica. Voy a desenredar las cuatro funciones de «voz» de Canva, mostrarte cómo dictar dentro de un cuadro de texto, un comentario y un Doc reales de Canva con un solo atajo, señalar lo único que este método no hace y decirte cuándo conviene saltarse mi herramienta por completo.

¿Canva tiene voz a texto? Magic Write no es dictado

Escritorio creativo visto desde arriba con un libro de diseño, bolígrafos y pegatinas de colores para trabajar la maquetación

Canva tiene funciones con sabor a voz. Lo que no tiene es dictado en vivo. Aquí están las cuatro cosas que la gente confunde, separadas una por una.

Magic Write es generación de texto con IA, no tu voz. Escribes una instrucción —«escribe tres eslóganes para un estudio de yoga»— y la IA de Canva redacta el texto. la propia página de Magic Write de Canva deja claro que tú escribes la instrucción; tu voz nunca es la entrada. Escribe por ti. El dictado escribe lo que tú dijiste. Trabajos distintos.

Speech to Text transcribe un archivo que ya grabaste. La función Speech to Text de Canva toma una grabación o un vídeo existente —su página menciona MP4, MOV o M4V de hasta 500 MB y menos de 90 minutos, o un enlace de YouTube— y lo convierte en texto después del hecho. Es genuinamente útil, y luego te remitiré a ella. Pero está transcribiendo un archivo, no a ti hablando en vivo dentro de un cuadro de texto.

Text to Speech va en la dirección contraria. El generador de voz con IA de Canva convierte texto escrito en una locución hablada para vídeos. Entra texto, sale audio. Lo opuesto al dictado.

El micrófono de la IA de Canva solo rellena el cuadro de instrucción. El asistente tiene un icono de micrófono, pero rellena con voz la instrucción de la IA: le hablas un comando al asistente. No escribe en el texto de tu diseño, ni en tus comentarios, ni en el cuerpo de tu Doc.

Así que el veredicto honesto: Canva no tiene dictado en vivo dentro de tus campos de texto. Ese trabajo —hablar y que tus palabras aparezcan donde está el cursor— lo hace una herramienta de escritorio aparte. Esa es la razón completa por la que existe este artículo.

Dicta en cuadros de texto y docs de Canva con un atajo

La solución está por debajo de Canva, en el nivel del sistema operativo. Instalas una app de dictado de escritorio, esta reclama un atajo global, y ese atajo pega el texto transcrito en cualquier campo que tenga el cursor: un cuadro de texto de Canva, un comentario, un Doc de Canva. El mismo atajo funciona en Slack, en Gmail y en tu editor, porque la herramienta vive en el nivel del sistema operativo, no dentro de una pestaña del navegador.

Con Whisper, el atajo por defecto es Ctrl+Space en Windows y Command+Option en macOS. El flujo es idéntico en cualquier superficie de Canva:

Cancel
La superposición de grabación: una pequeña cápsula que aparece mientras hablas, para que sepas que Whisper está escuchando.
  1. Haz clic en el campo que quieras: un cuadro de texto en el lienzo, la línea de comentario o un Doc de Canva.
  2. Mantén pulsado el atajo y habla. Di la frase tal como la dirías en voz alta.
  3. Suelta. Uno o dos segundos después, las palabras aparecen donde está el cursor.
  4. Echa un vistazo, corrige una palabra si hace falta y sigue diseñando.

Ese es todo el movimiento. Sin diálogo de «iniciar dictado», sin una segunda ventana, sin copiar y pegar desde otro sitio. Te quedas en el campo de Canva en el que ya estabas. Funciona tanto si usas Canva en el navegador como en la app de escritorio de Canva, porque a la herramienta le da igual lo que haya en pantalla.

Aquí va mi única opinión para este artículo, respaldada por un número. La mayor ganancia de productividad no es escribir más rápido, sino dar menos pasos. Escribir a teclado ronda las 40 palabras por minuto; hablar ronda las 145, unas 3,6 veces más rápido. El ahorro real está en saltarse el cambio de postura de parar, sentarse y teclear. Estás maquetando un carrusel, tienes el pie de foto en la cabeza, lo dices y ya está ahí. La voz no acelera los pasos. Elimina unos cuantos.

Whisper
La app de escritorio real de Whisper: elige una ruta de transcripción, pulsa el atajo y mira cómo el texto aterriza en el campo.

Lo que ves incrustado arriba es la app real, no una captura de pantalla. Elige una ruta de transcripción, pulsa el atajo y mira cómo aterriza el texto. Canva nunca se entera de que la herramienta existe: para Canva parece exactamente que tecleaste, solo que sin teclear.

Hay tres rutas, y la app no elige por ti. El modo Cloud usa tu propia clave de OpenAI para máxima precisión y respuestas de la web. Parakeet es la opción local más rápida para inglés y 24 idiomas europeos. Los modelos multilingües de Whisper cubren más de 99 idiomas, con detección automática, además de traducción al inglés. Para el trabajo diario en Canva —un titular, un pie de foto, un comentario— hasta los modelos locales más pequeños siguen el ritmo, y la cifra de cara al cliente es más de 90 idiomas en ambos modos si haces campañas multilingües.

Limpia el dictado automáticamente

Thinking...

El habla en bruto incluye el «eh», el arranque en falso, el «no, espera, eso bórralo». Whisper ofrece una limpieza opcional con IA sobre la transcripción: una pasada local que se ejecuta en tu propia máquina en el modo gratuito, o una pasada en la nube en Pro si traes tu propia clave. Actívala y «eh pon el titular en negrita y amable algo como diez por ciento de descuento solo esta semana» aterriza como una frase limpia. Desactívala y obtienes la transcripción literal —con todos los «eh» incluidos—, que es su propia forma de honestidad. Tú decides, en cada grabación.

Aquí también vuelve la confusión con Magic Write, así que déjame zanjarla de una vez. Magic Write genera texto a partir de una instrucción que tú escribes. La limpieza de Whisper pule las palabras que de verdad dijiste. Una inventa la frase; la otra ordena la tuya. Si querías que la IA escribiera el eslogan, eso es Magic Write. Si querías decir el eslogan y que quedara escrito con pulcritud, eso es esto.

Dónde pega el texto, y lo único que no hará

Ahora la nota honesta sobre el alcance, porque nadie más en estos resultados de búsqueda lo dice con claridad. Whisper pega el texto transcrito en el único campo que tiene el foco: un cuadro de texto, un comentario o un Doc, allá donde esté el cursor. Ese es todo el trato.

No va a crear, mover, redimensionar, recolorear ni diseñar elementos de Canva con la voz, y no ejecutará comandos de Canva. No puedes decir «añade un marco», «cambia la fuente a negrita» o «agranda el logo» y que ocurra. Convierte el habla en texto donde está el cursor. No maneja la herramienta de diseño. (Al principio gasté una tarde vergonzosa intentando que los comandos de voz movieran las formas por ahí. Las formas se quedaron exactamente donde estaban. Y eso que tengo un máster.)

Vale la pena saberlo: Willow, una app de dictado equivalente para Mac y Windows, va más allá en una cosa: admite comandos de formato por voz en línea, así que puedes decir «viñeta» o «nueva línea» a mitad de frase y el formato aparece mientras dictas. Whisper no afirma eso; pega texto plano y te deja dar el formato con las manos. Si lo que quieres es formato dirigido por voz, esa es una razón de verdad para mirar Willow. Prefiero decírtelo antes que dejar que lo descubras después de instalarlo.

Sin conexión y en privado

Portátil mostrando un icono de candado de seguridad sobre una mesa, sugiriendo procesamiento privado sin conexión

Los diseñadores manejan textos que no deberían salir del edificio. El nombre de un producto sin anunciar. La fecha de lanzamiento de un cliente bajo acuerdo de confidencialidad. Una línea de precios que todavía no es pública. Cuando dictas eso en una herramienta solo en la nube, el audio viaja hasta un servidor y vuelve convertido en texto.

El modo local de Whisper se ejecuta por completo en tu máquina. Sin internet durante la transcripción, y el audio nunca sale del portátil. La única conexión que necesitas es la descarga única del modelo, en algún punto entre unos 140 MB y 3 GB según el modelo que elijas. Después de eso, puedes dictar todos los pies de foto de Canva de una presentación entera en un vuelo con el Wi-Fi apagado.

Esta es la línea más clara entre las herramientas que llenan el vacío de dictado de Canva. Voice In, la extensión de navegador, está basada en la nube. La página de Canva de Willow anuncia cero retención de datos, pero no menciona un modo sin conexión. Whisper ofrece explícitamente transcripción local en el dispositivo. Para un texto de «titular de la semana» no importará. Para cualquier cosa que dudarías en leer en voz alta en una oficina de planta abierta, lo local es el valor por defecto aburrido y correcto. Las mismas cuentas valen en nuestras guías para añadir voz a texto en Figma y voz a texto en Miro: cambia la herramienta de diseño, el razonamiento no.

Cuándo tiene más sentido Magic Write o el dictado del sistema

Escritorio ordenado con un portátil, libros y una lámpara dispuestos para un trabajo de diseño concentrado

No voy a fingir que Whisper sea la respuesta correcta siempre. Tres casos en los que no lo es:

Lo que de verdad quieres es transcribir una grabación existente. Si ya tienes una nota de voz, un fragmento de webinar o un enlace de YouTube y quieres sacarle las palabras, eso no es dictado: es transcripción de archivo, y la propia Speech to Text de Canva lo hace dentro del editor sin ninguna herramienta extra. Usa la función integrada de Canva; es la correcta para ese trabajo.

Solo trabajas en la pestaña del navegador de Canva y quieres un complemento de navegador gratuito. Voice In es una extensión para Chrome y Edge hecha exactamente para eso. No puede llegar a la app de escritorio de Canva ni a nada fuera del navegador, pero si el navegador es todo tu mundo, encaja.

Quieres una voz que ya esté en tu ordenador. Windows tiene Escritura por voz en Win+H; macOS tiene Apple Dictation. Ambos dictan en Canva para todo el sistema, en navegador o en escritorio, gratis y sin nada que instalar. Cada uno es de una sola plataforma y la calidad varía, pero para ráfagas cortas son una opción gratuita razonable.

Recurre a Whisper cuando quieras que el audio se quede en tu dispositivo, una herramienta gratuita sin tarjeta al registrarte, o un solo atajo que funcione igual en la app de escritorio de Canva y en todas las demás apps que uses.

Cuánto cuesta

Magic Write y Speech to Text de Canva viven dentro de los planes gratuito y Pro de Canva: precios de Canva, no míos. La página de Canva de Willow ofrece 2.000 palabras gratis a la semana para probar, sin tarjeta, y después un plan de pago. Voice In es una extensión de navegador freemium. Toda la canalización local de Whisper —la parte que dicta en tus campos de Canva— es gratis al registrarte, sin tarjeta. Whisper Pro añade la superficie Cloud e incluye una prueba de Cloud de 7 días, donde solo se necesita una tarjeta para esa mejora, nunca en el primer registro. No mezcles las dos cosas: el dictado que gestiona tu trabajo en Canva es la parte gratuita. Los números viven en nuestra página de precios si los quieres.

La mayoría de las búsquedas de «voz a texto en Canva» terminan en la misma pequeña decepción: vas buscando un botón de dictado, encuentras Magic Write y te das cuenta de que quiere escribir el texto por ti, no poner por escrito lo que dijiste. El botón no está en Canva. Está una capa más abajo, en un atajo de teclado. Una vez le enseñé el movimiento a mi hija pequeña —clic, mantener, hablar, soltar— y escribió el pie de foto de una tarjeta de cumpleaños antes de que yo terminara de explicárselo. Tiene siete años. No hizo ni una sola pregunta de seguimiento, que es más de lo que puedo decir de la mayoría de los adultos a los que he formado. Si quieres la versión sin teclado en todas partes, aquí tienes cómo escribir más rápido con la voz, incluido voz a texto en un Mac.

Dicta tu próximo pie de foto de Canva

Haz clic en el campo, mantén pulsada la tecla, habla y suelta. La transcripción aterriza donde está tu cursor: en Canva y también en todas las demás apps.

Modo local gratuito para cualquier cuenta con sesión iniciada. No se requiere tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, lo más probable dictando las respuestas.