Por Denys Medvediev

Guía

Cómo añadir palabras personalizadas al dictado

El dictado no reconoce nombres, jerga técnica ni marcas porque no forman parte de su vocabulario. La solución es enseñárselas: Windows tiene un Diccionario de Voz al que puedes añadir términos, y una lista de hotwords en Whisper dirige el modelo local hacia tus palabras para que las transcriba correctamente.

Última actualización: junio de 2026

Diccionario abierto sobre un escritorio junto a un teclado, evocando palabras y vocabulario

Para añadir palabras personalizadas al dictado, enséñale tu vocabulario a la herramienta. En Windows, el Diccionario de Voz de Reconocimiento de Voz tiene un asistente para «Agregar una nueva palabra». En Whisper by Remskill, una lista de hotwords dirige un modelo local de Whisper hacia nombres, jerga técnica y marcas. macOS Dictation en sí no tiene ajuste de palabras personalizadas; eso está en Control por voz.

Todas las herramientas de dictado que he usado transcriben bien el español cotidiano y luego destrozan justo la palabra que importa. Aciertan con «programa la reunión para el jueves» y después convierten a mi colega Csaba en «chaba», mi producto en «proyecto alfalfa» y «Kubernetes» en «cúper neis». Las palabras que más le cuestan al transcriptor son exactamente las que no se arreglan hablando más alto: son nombres, jerga y marcas que nunca ha visto en su entrenamiento.

Por eso la gente busca cómo añadir palabras personalizadas al dictado esperando encontrar una página de ajustes clara. La respuesta honesta es que depende de la herramienta. Windows tiene un diccionario real y editable donde puedes escribir palabras. macOS esconde esa función donde casi nadie mira. Y un modelo local de Whisper puede orientarse hacia tus términos con una lista de hotwords. Voy a explicar los tres métodos, a configurar el de Whisper y a decirte cuándo el dictado integrado ya es suficiente.

Aquí está la parte que la mayoría de las páginas omiten. Un transcriptor no «deletrea» una palabra como lo haces tú: adivina las palabras más probables para los sonidos que escucha. «Csaba» pierde frente a «chaba» porque el modelo ha oído sonidos parecidos a «chaba» millones de veces y el nombre de tu colega casi nunca. Añadir una palabra personalizada no le enseña al modelo letras nuevas. Inclina la apuesta.

Esa inclinación se implementa de forma distinta en cada herramienta. Windows la guarda en un Diccionario de Voz que editas a mano. Los modelos locales de Whisper aceptan una lista de hotwords y les dan más peso durante la transcripción. Y —el matiz que confunde a la gente— ese sesgo de hotwords es una función exclusiva del Whisper local. Parakeet no acepta hotwords, y la ruta en la nube tampoco. Seré claro sobre cuál es cuál, porque confundirlos cuesta una tarde.

Por qué el dictado distorsiona nombres y jerga técnica

Notas adhesivas escritas a mano con nombres y términos en una pared, como un glosario personal

El dictado es una máquina de apostar. Escucha un fragmento de sonido y elige las palabras más probables que podrían haberlo producido, basándose en los millones de horas con las que fue entrenado. El habla cotidiana gana esas apuestas fácilmente. El problema empieza con todo lo que es raro: un compañero llamado Csaba, un proyecto interno llamado Helios, el nombre de un medicamento, un despacho de abogados, tu propio apellido si no es común.

El modelo casi no ha oído esas palabras, así que recurre a una palabra común que suene parecida. «Helios» se convierte en «él nos». «Remskill» se convierte en «rem skill» o «rim skill». Acabas corrigiendo las mismas cinco palabras una y otra vez, que es exactamente el peaje que lleva a la gente a abandonar el dictado y volver al teclado. La solución no es un micrófono mejor ni hablar más despacio. Es decirle a la herramienta, de antemano, que esas palabras raras existen.

Eso es lo que hace una palabra personalizada. En la mayoría de las herramientas no le estás enseñando pronunciación: estás añadiendo la palabra a la lista de cosas que el transcriptor puede esperar. Así, cuando los sonidos son ambiguos, tu término gana la apuesta en lugar de la palabra común que la venía ganando. La verdad aburrida es que una lista corta de diez o quince términos cubre la mayor parte del dolor para la mayoría de la gente. No hace falta darle un diccionario entero. Solo las palabras que sigue tropezando.

El método integrado, en Windows y Mac

Empieza por lo que ya tienes en tu equipo, porque para algunas personas esa es toda la respuesta. En Windows hay dos opciones integradas distintas y manejan las palabras personalizadas de forma muy diferente. Reconocimiento de Voz de Windows —la función de escritorio más antigua— tiene un Diccionario de Voz real y editable. Abres Reconocimiento de Voz, dices o haces clic en «abrir Diccionario de Voz», eliges «Agregar una nueva palabra» y sigues el asistente. Esa palabra ya es algo que el dictado reconocerá. El más nuevo Acceso de voz de Windows 11 tiene su propia versión: un comando «Agregar al vocabulario» (y una opción en el menú Ayuda) que orienta el reconocimiento hacia las palabras que añades.

La barra de escritura por voz Win+H que usa la mayoría de la gente a diario es el caso intermedio. No te da un diccionario que editar directamente; aprende de las correcciones que haces con el tiempo y del texto que escribes, en lugar de una lista que edites tú. Así que si quieres una lista de palabras personalizadas editada a mano en Windows, el Diccionario de Voz de Reconocimiento de Voz o el vocabulario de Acceso de voz es donde vive, no en la barra Win+H.

Cancel
La superposición de grabación: una pequeña cápsula que aparece mientras hablas, para que sepas que está escuchando.

macOS es donde hay que ir con cuidado, porque la función obvia no incluye esto. macOS Dictation estándar —lo que activas para hablar en cualquier campo de texto— no tiene ajuste de palabras personalizadas ni vocabulario personalizado. Ninguno. Lo que sí existe es una función de accesibilidad separada, Control por voz, que tiene un panel de Vocabulario en Ajustes del Sistema, Accesibilidad, Control por voz, donde puedes añadir hasta 1000 términos e incluso grabar cómo se pronuncia cada uno. Es real y funciona bien, pero es una herramienta diferente del Dictation que usa la mayoría de los usuarios de Mac. Si una página te dice «añade palabras personalizadas en macOS Dictation», está confundiendo Dictation con Control por voz en silencio.

Configura palabras personalizadas en Whisper (Windows o Mac)

Si quieres una forma consistente de añadir palabras personalizadas que funcione igual en Windows y Mac, ahí es donde una herramienta dedicada demuestra su valor. Necesitas un Mac con Apple Silicon o un PC con Windows 10 o superior, un micrófono que funcione y un modelo local de Whisper. Las hotwords son una función exclusiva del Whisper local, así que esta ruta necesita ese modelo, no Parakeet ni la nube. Todo el flujo local es gratuito para cualquier cuenta registrada, sin que se pida forma de pago al registrarte. Este es el proceso.

Paso 1 — Instala Whisper e inicia sesión.

Descarga desde la página de descarga, instala y crea una cuenta gratuita. Sin tarjeta. El flujo de transcripción local se abre de inmediato.

Sabrás que funcionó cuando aparezca el icono de bandeja de la app y el asistente de configuración ofrezca elegir un modelo.

Paso 2 — Elige un modelo local de Whisper.

La app presenta tres rutas: Cloud, Parakeet local, Whisper local. Para palabras personalizadas, elige Whisper local, porque la lista de hotwords funciona con los modelos Whisper. Parakeet es más rápido pero no acepta hotwords; la nube tampoco.

Sabrás que funcionó cuando un modelo Whisper termine de descargarse y aparezca como listo.

Paso 3 — Añade tus términos a la lista de hotwords.

En los ajustes del modelo Whisper, añade los nombres, jerga técnica y marcas que sigue fallando, un término por entrada. Mantén la lista corta y específica: las palabras que realmente tropieza, no todo tu glosario.

Sabrás que funcionó cuando tus términos guardados aparezcan en la lista y permanezcan entre grabaciones.

Paso 4 — Dicta y comprueba las palabras difíciles.

Coloca el cursor en cualquier campo de texto, mantén pulsada la tecla de acceso rápido, di una frase que incluya uno de tus términos y suéltala. La transcripción se pega en el cursor con tu palabra escrita tal como la guardaste.

Sabrás que funcionó cuando el término que antes salía mal ahora salga bien.

Whisper
La app de escritorio Whisper real en la pantalla de ajustes, con los paneles de Transcripción e IA abiertos.

Te recomiendo mantener la primera lista deliberadamente pequeña. Añade las cinco o seis palabras que más te hayan molestado esta semana, dicta durante un día y añade más solo cuando algo falle. Una lista de hotwords inflada con doscientos términos puede empezar a empujar al modelo hacia palabras que no pretendías. Corto y específico supera a largo y esperanzador.

voz a texto en Windows · en Mac

Qué hace realmente una lista de hotwords

Una lista de hotwords es un conjunto de términos que le entregas al modelo antes de que transcriba, para que sepa esperarlos. Por dentro es la misma idea que el Diccionario de Voz de Windows, solo que funciona de forma diferente: en lugar de una entrada en un diccionario almacenado, las palabras viajan con cada grabación como un sesgo. Cuando el audio es ambiguo entre tu término y una palabra común que suena parecida, el sesgo inclina la decisión hacia tu término. «Csaba» deja de perder frente a «chaba» porque le has dicho al modelo que Csaba es una palabra que tiene cabida aquí.

Hay dos límites honestos que vale la pena mencionar. Primero, las hotwords sugieren, no obligan: un término que no suena nada a lo que dijiste seguirá sin aparecer, y una palabra muy corta o muy inusual puede escaparse igualmente. Segundo, y aquí es donde la gente se equivoca: las hotwords son una función exclusiva del Whisper local. Parakeet, el motor local rápido, no acepta lista de hotwords. La ruta en la nube tampoco la expone. Así que si las palabras personalizadas son tu motivo para estar aquí, el modelo local de Whisper es la ruta que las tiene.

Los modelos locales de Whisper también te dan un control más fino que la mayoría de las opciones integradas: cosas como el tamaño del beam y el vocabulario personalizado que la caja de dictado promedio no expone. No necesitas nada de eso para añadir unos pocos nombres. Pero está ahí si pasas de «arreglar cinco palabras» a «transcribir la terminología de una clínica médica todo el día», que es una razón real por la que algunas personas eligen Whisper sobre el motor Parakeet más rápido. Si estás comparando los modelos locales entre sí, qué modelo de Whisper usar explica las diferencias.

Local o nube cuando el objetivo son las palabras personalizadas

La app te hace elegir una ruta, y para palabras personalizadas la elección importa más de lo habitual, porque solo una de las tres acepta una lista de hotwords. Aquí tienes el desglose honesto para que elijas con conocimiento de causa en lugar de descubrir el límite después de haber instalado el motor equivocado.

Las tres rutas y lo que hace cada una con tu vocabulario:

  • Parakeet localEl motor TDT de NVIDIA, unos 600 MB, la opción local más rápida: entre 5 y 10 veces más rápido que Whisper en CPU. Inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés, y lo que importa aquí: sin hotwords. Ideal para el dictado en inglés cotidiano y rápido; la elección equivocada si las palabras personalizadas son tu motivo.
  • Whisper localMás lento que Parakeet en el mismo equipo, pero es la ruta con la lista de hotwords y el control de vocabulario personalizado. Las versiones multilingüe cubren 99 idiomas y pueden traducir al inglés; las versiones solo en inglés son exclusivamente en inglés. El modelo inglés predeterminado ocupa unos 480 MB. Si necesitas que los nombres y la jerga técnica se transcriban bien, esta es la opción.
  • Nube (OpenAI, BYOK)La mejor precisión general y acceso web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción usa gpt-4o-mini-transcribe por defecto. A menudo acierta con palabras raras por pura potencia, pero no expone una lista de hotwords. Necesita internet. La superficie en la nube forma parte de Whisper Pro.

La regla general es sencilla. Si las palabras personalizadas son tu principal problema y quieres una lista que controles, usa un modelo local de Whisper. Si hablas sobre todo inglés común y quieres velocidad máxima, Parakeet es mejor para el uso diario, aunque no esperes un campo de hotwords. La nube es la salida de emergencia cuando necesitas la máxima precisión en una grabación difícil y no te importa que salga de tu equipo. Si estás decidiendo sobre la configuración local en general, cómo ejecutar Whisper localmente y el desglose del modelo Parakeet cubren ambos motores en profundidad.

Corregir lo que se cuela, a posteriori

Ninguna configuración de palabras personalizadas lo captura todo, y el dictado en bruto siempre llega algo atropellado. Dices «quedamos con csaba para el lanzamiento de helios eh ponlo proyecto alpha», y aunque tengas las hotwords activadas, los signos de puntuación y las muletillas siguen siendo cosa tuya. Aquí es donde se divide el trabajo: las hotwords corrigen la escritura de las palabras difíciles, y una pasada de limpieza corrige la forma de la frase.

La escritura por voz de Windows añade puntuación mientras hablas, y macOS Dictation gestiona la puntuación básica cuando dices «coma» o «punto». Para una limpieza más profunda —eliminar los «eh», corregir frases atropelladas, ordenar un párrafo hablado en algo que realmente enviarías— Whisper puede ejecutar una pasada de IA. Di la frase de activación «Hey whisper» y el texto se mejora antes de pegarse. En un modelo local, esto se procesa a través de Ollama; en modo nube, usa gpt-5-mini por defecto. La pasada de limpieza conserva intactas tus palabras personalizadas mientras arregla todo lo que las rodea.

Thinking...
Original

meet csaba about the helios rollout um tag it project alpha before the standup thursday

Limpio

Meet Csaba about the Helios rollout, tag it Project Alpha, before the standup Thursday.

Para las palabras que siguen escapándose a pesar de la lista de hotwords y la pasada de limpieza, aplica el recurso de siempre: corrígelo una vez y, en Windows, añádelo al Diccionario de Voz para que no sea un problema la próxima vez. No hay nada de malo en una corrección manual de vez en cuando. El objetivo no es una herramienta que nunca se equivoque, sino una herramienta que se equivoque con las mismas cinco palabras una vez en lugar de cuarenta. Las palabras personalizadas cubren la mayor parte del camino; una edición rápida cubre el resto.

Ese mismo ritmo de hablar-y-limpiar vale la pena practicarlo en todas partes, porque una vez que encaja puedes dictar con fluidez en Windows en cualquier app que abras, no solo en la que querías arreglar.

Cuándo el método integrado es suficiente

Una sola nota adhesiva sobre un escritorio despejado, sugiriendo una solución pequeña y suficiente

A veces no necesitas ninguna herramienta dedicada, y pretender lo contrario sería deshonesto. Si tu problema con las palabras personalizadas es pequeño —un par de nombres, en Windows, que puedes añadir una vez y olvidar— el Diccionario de Voz de Reconocimiento de Voz de Windows ya hace exactamente esto gratis. Añade las palabras y sigue adelante. Instalar algo extra para eso es excesivo.

En Mac la situación es honestamente más complicada, y vale la pena decirlo con claridad. macOS Dictation estándar no tiene lista de palabras personalizadas, así que si es lo único que usas, tus opciones integradas para añadir términos son realmente limitadas. El panel de Vocabulario de Control por voz hace el trabajo y admite hasta 1000 términos, pero es una función de accesibilidad que tendrías que activar específicamente para esto: bien si te resulta cómodo, un rodeo si no. Así que en Mac el intercambio es real: convivir con los fallos de Dictation, aprender Control por voz o usar una herramienta con su propia lista de hotwords.

Recurre a una herramienta dedicada para todo el sistema cuando los métodos integrados empiecen a hacer daño: una lista larga de nombres y jerga técnica, las mismas palabras personalizadas necesarias tanto en Windows como en Mac, privacidad sin conexión, o querer un solo atajo de teclado y un solo vocabulario que funcione igual en todas las apps. Por debajo de ese nivel, usa lo que es gratuito. No voy a pedirte que instales software para enseñarle a tu ordenador un solo apellido.

El mismo dilema aparece si tu dictado vive principalmente en Mac: los límites del método integrado y las soluciones alternativas honestas en voz a texto en Mac son la versión más completa de esta sección.

Añadir palabras personalizadas es la función de dictado menos glamurosa y la que decide si sigues usándolo. Pon las cinco palabras que sigue tropezando en una lista —el Diccionario de Voz en Windows, una lista de hotwords en Whisper— y la fricción diaria desaparece en silencio. Añadí mi propio apellido a una lista de hotwords hace dos años y no he vuelto a ver un transcriptor destrozarlo desde entonces. Un listón bajo, y exactamente el tipo de listón que quiero superar antes del desayuno.

Enséñale las palabras que sigue fallando

Añade tus nombres, jerga técnica y marcas a la lista de hotwords de un modelo local de Whisper y dicta. Los términos que antes destrozaba aparecen escritos tal como los guardaste, en cualquier app que abras.

Modo local gratuito para cualquier cuenta registrada. No se necesita tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, probablemente dictando las respuestas.

Lectura adicional