Guía
Transcripción en tiempo real, explicada
Dos aplicaciones comparten el mismo nombre pero hacen cosas opuestas. Aquí te explicamos la diferencia entre los subtítulos en vivo y el dictado casi instantáneo, para que elijas la que realmente resuelve tu problema.
Última actualización: junio de 2026

Una aplicación de transcripción en tiempo real convierte las palabras habladas en texto en el momento en que hablas, sin pasos de subida ni espera. Existen dos tipos: subtítulos continuos en vivo que transmiten una transcripción durante reuniones, y dictado casi instantáneo que transcribe al soltar una tecla y pega el texto en el cursor. Cuál necesitas depende de si estás siguiendo una conversación o escribiendo algo.
Un equipo de finanzas con el que trabajé una vez construyó su propia herramienta de "transcripción en tiempo real". Un contratista conectó GPT-4 al micrófono de cada portátil y lo dejó funcionando. Al final del trimestre, el gerente abrió el panel de la nube y se encontró con una factura de cinco cifras. La mayor parte la había generado un equipo que transcribía las grabaciones de sus reuniones diarias cuatro veces, porque la lógica de "reintento inteligente" era demasiado agresiva. El contratista dijo que había que optimizar el prompt. El director financiero dijo algo más corto. La frase "transcripción en tiempo real" había significado cosas distintas para cada uno de ellos.
Ese malentendido es el problema central de esta categoría. Dos personas dicen "aplicación de transcripción en tiempo real" y se refieren a dos máquinas distintas. Una quiere ver las palabras desfilando por la pantalla mientras un compañero habla en una videollamada. La otra quiere mantener pulsada una tecla, decir una frase, soltarla y verla aparecer en el correo que ya estaba escribiendo. Este artículo aclara cuál es cuál, muestra cómo funciona la versión local rápida y explica cuándo conviene usar una herramienta de reuniones. Al terminar sabrás qué categoría encaja con tu problema. La mayoría de la gente elige la equivocada el primer día. Lo sé porque la mayor parte de los correos de soporte que recibo son de personas que hicieron exactamente eso, y me pasé el primer mes respondiendo uno por uno antes de pensar en explicar la diferencia desde el principio.
La diferencia importa porque los dos diseños son buenos en cosas opuestas. Los subtítulos en vivo están hechos para no parar: siguen una reunión durante una hora y tú lees al ritmo que avanza. El dictado está hecho para terminar rápido: hablas quince segundos, el texto aparece y sigues trabajando. Un correo de ventas en frío es doce variantes de ochenta palabras; unos doce minutos hablando frente a cuarenta y cinco escribiendo. El resumen de una conferencia es una grabación de noventa minutos condensada en una nota de seiscientas palabras. La misma frase en el buscador, dos herramientas distintas.
Qué significa realmente 'tiempo real'

Existen dos definiciones honestas de "tiempo real", y las aplicaciones que lo afirman se dividen en dos grupos.
El primero son los subtítulos continuos en vivo. La transcripción aparece palabra por palabra mientras el audio sigue reproduciéndose: una reunión, una conferencia, un vídeo. Lees el texto mientras se transmite. Otter hace esto durante llamadas, con subtítulos en vivo para Zoom y Google Meet. Maestra anuncia transcripción y traducción en tiempo real en más de 125 idiomas con una capa gratuita en directo. Windows 11 tiene Subtítulos en directo integrados, en el dispositivo y sin conexión, en unos 21 idiomas. Estas herramientas siguen una transmisión y la narran.
El segundo es el dictado casi instantáneo. Mantienes pulsado un atajo de teclado, dices una frase o un párrafo, lo sueltas y el texto terminado aparece donde ya estaba tu cursor. Sin subtítulos en streaming. Una pausa breve de uno o dos segundos, y luego todo el bloque aparece de golpe. Eso es lo que hace Whisper by Remskill. Transcribe al soltar el atajo y pega el texto en el cursor; el micrófono permanece abierto 500 milisegundos después de soltar la tecla, para capturar la última palabra que la gente tiende a dejar caer al final.
Ambos son "en tiempo real" en el sentido que importa para un humano: no grabas un archivo, lo subes y esperas. Pero resuelven problemas distintos. Los subtítulos en vivo son una herramienta de lectura; consumes el habla de otra persona. El dictado es una herramienta de escritura; produces la tuya propia. Confundirlos es lo que lleva a pagar una suscripción de notas de reuniones para responder un correo de una línea, o a pelear con una aplicación de dictado para subtitular un webinar para el que nunca fue diseñada.
Una tercera cosa se mete en esta categoría sin ser realmente tiempo real: la transcripción de archivos. Grabas una entrevista, subes el audio y la herramienta te devuelve una transcripción unos minutos después. Herramientas como Rev y Trint están más pensadas para ese tipo de trabajo, y es una tarea distinta: editar una grabación terminada, no capturar el habla mientras ocurre. Vale la pena nombrarlo para poder descartarlo. Si ves una barra de progreso de subida, no estás usando una aplicación en tiempo real, por mucho que diga el marketing.
Así que la categoría tiene una forma una vez que la ves. Leer habla que ocurre ahora: subtítulos en vivo. Escribir habla que estás diciendo ahora: dictado. Depurar una grabación de antes: transcripción de archivos. El término de búsqueda "aplicación de transcripción en tiempo real" mezcla los dos primeros y arrastra al tercero por accidente. Saber en cuál de ellos encajas es lo más útil que puedes hacer antes de instalar nada.
Pulsa un atajo, obtén texto en el cursor
Así funciona el bucle de dictado, de principio a fin. Pulsas el atajo: Ctrl+Space en Windows, o Command+Option mantenidos juntos en macOS, un acorde de pulsar-para-hablar donde mantienes ambas teclas mientras hablas y sueltas cualquiera de las dos para parar. Hablas. Sueltas. Un pequeño overlay muestra que la aplicación está transcribiendo, y uno o dos segundos después el texto aparece en la aplicación en la que ya estabas: el correo, el documento, el chat, el comentario del código.
Sin cambiar de ventana. Sin "copiar de la pestaña de transcripción y pegarlo de vuelta". El texto llega al cursor porque ese es el punto central. Estabas escribiendo, y ahora escribes más rápido. El overlay de arriba es la aplicación real, no una captura de pantalla; ese estado de transcripción es lo que ves en el medio segundo entre soltar la tecla y que aparezcan las palabras.
Por eso "tiempo real" se siente diferente a como se siente en un stream de subtítulos. Un subtítulo es algo que ves ocurrirle a otra persona. El dictado es algo que le ocurre a tu propia frase, lo bastante rápido para que no pierdas el hilo de lo que estabas diciendo. El buffer de cola de 500 milisegundos existe por esa razón. La gente baja la voz al final de una frase, y cortar el micrófono en el instante en que se suelta la tecla recortaría la última palabra. Un detalle pequeño. La diferencia entre "gracias por organizar la reu" y una frase completa.
Ayuda entender por qué el tiempo de respuesta es el que es. Cuando sueltas la tecla, el audio que acabas de hablar ya está capturado en memoria. El modelo procesa ese clip corto, una frase o un párrafo, no una transmisión en vivo, por eso el resultado llega como un bloque terminado en lugar de desplazarse palabra por palabra. Un clip corto es rápido de procesar; ese es el truco. Una herramienta de subtítulos en vivo tiene que seguir decodificando una transmisión abierta y mostrar conjeturas parciales que revisa a medida que llega más audio. El dictado se salta todo eso. Espera a que termines, luego transcribe una sola vez, en un pase limpio.
Esa decisión de diseño es lo que te mantiene en flujo. En mi experiencia, lo que rompe el dictado es el retraso: cuando la pausa se alarga más de uno o dos segundos, mi atención vuelve a la aplicación en la que estaba y pierdo el hilo de la frase que estaba a medias. Es una opinión de quien usa este bucle a diario, no una especificación publicada. Los clips cortos más un motor local rápido mantienen la pausa corta. Esa pausa es lo que importa cuidar, y es la razón por la que el bucle se siente como escribir y no como dictar-y-esperar.
Si quieres la versión más detallada de cómo encaja todo el proceso, escribimos una pieza aparte sobre cómo Whisper convierte una pulsación de tecla en texto pegado. Esta es la versión corta: pulsa, habla, suelta, listo.
Por qué Parakeet es la opción local más rápida
La transcripción local solía significar lenta. Eso dejó de ser cierto cuando apareció el modelo Parakeet de NVIDIA. En la aplicación Whisper, la propia descripción de Parakeet en la app dice "5-10× más rápido que Whisper en CPU", con soporte para inglés y 24 idiomas europeos, y unos 600 MB en disco. Esa velocidad es lo que hace que el dictado local se sienta casi instantáneo en lugar de casi-tan-largo-como-un-café. Es la razón por la que el bucle de atajo de arriba funciona sin ningún servidor de por medio.
No estás atado a un solo motor. Whisper by Remskill incluye dos opciones locales. Parakeet admite 25 idiomas (inglés más 24 europeos) pero no idiomas asiáticos ni traducción al inglés. El motor faster-whisper cubre más terreno: las versiones multilingües gestionan 99 idiomas con detección automática, mientras que las versiones .en son solo en inglés, un idioma, a cambio de ser más pequeñas y rápidas. Los modelos de Whisper van desde un Base de inglés de ~140 MB hasta un Large v3 multilingüe de ~3 GB, con un Large v3 Turbo de ~1,62 GB en medio para quienes quieren casi toda la precisión a una fracción del tiempo de espera.
La aplicación no elige por ti, y eso es deliberado. El componente de arriba es la superficie real de configuración. Eliges Parakeet si hablas principalmente inglés y quieres velocidad bruta, o un modelo de Whisper si necesitas cobertura de 99 idiomas o traducción al inglés. Pasé una tarde bastante vergonzosa intentando seleccionar automáticamente el motor "mejor" para la gente antes de admitir que la única persona que sabe cuál es el correcto es quien está hablando. El intercambio es real: Parakeet es el más rápido y pequeño, pero no puede hacer chino, japonés ni coreano, y no puede traducir. Las versiones multilingües de Whisper pueden hacer todo eso, al coste de un modelo más grande y un tiempo de espera mayor por clip. Ninguno es "mejor" en abstracto; uno es mejor para tu boca concreta y tus idiomas concretos.
También existe una opción en la nube que usa tu propia clave de OpenAI: transcripción mediante gpt-4o-mini-transcribe o gpt-4o-transcribe, con mejora de texto gestionada por gpt-5-mini de forma predeterminada. La nube necesita internet; los motores locales no. La opción en la nube es la salida de emergencia, no el punto de partida. Si un portátil de cuatro años ejecuta bien los motores locales, y la mayoría lo hace, nunca necesitas un servidor en el bucle para un párrafo de correo.
Detente un momento en eso. El dictado solo en la nube es un desastre para la privacidad. La hoja de cálculo de salarios de tu jefe, el correo al colegio de tu hijo, el escrito legal en el tren: nada de eso debería aparecer en los registros de un proveedor porque quisiste escribir con la voz. El modo local se ejecuta en el dispositivo y funciona sin conexión tras la descarga única del modelo; nada se envía a ningún servidor durante la transcripción local. El trimestre de cinco cifras de ese equipo de finanzas ocurrió porque las palabras salieron del edificio. Era evitable.
Si quieres el argumento más largo, aquí está nuestra defensa de la transcripción de voz sin conexión que nunca sale del dispositivo.
Subtítulos en vivo para reuniones vs. dictado en el cursor

Elige la herramienta según lo que estás haciendo, no según cuál dice "tiempo real" más alto.
Si estás en una reunión y necesitas capturar la conversación mientras ocurre (varios participantes, una hora de duración, con un resumen al final) necesitas subtítulos continuos en vivo. Es un trabajo de lectura-y-grabación. Otter, Maestra, los subtítulos integrados de Google Meet, Windows 11 Subtítulos en directo: siguen una transmisión y la transcriben. Los subtítulos de Windows 11 capturan cualquier audio que se reproduzca en tu pantalla, en el dispositivo y sin conexión, pero solo en modo lectura. No escribe las palabras en la aplicación en la que estás trabajando.
Esa distinción de Windows confunde a mucha gente. Subtítulos en directo lee el audio que se está reproduciendo (un vídeo, una llamada, la voz de un compañero por los altavoces) y lo muestra en pantalla para que lo leas. No introduce texto en el documento que estás escribiendo. Esa es la línea entre una herramienta de lectura y una de escritura: el mismo motor de transcripción en el dispositivo por debajo, un destino diferente para las palabras. Una las envía a una barra de subtítulos que lees. La otra las envía al cursor donde estás escribiendo.
Si estás escribiendo un correo, un documento, un mensaje de Slack, una nota de commit, necesitas dictado. Tú estás produciendo las palabras, no transcribiendo las de otra persona. Las quieres en el cursor, rápido, y ya está. Ese es el bucle de atajo. Una herramienta de subtítulos en vivo te transcribirá en cierto sentido, pero volcará el texto en su propia ventana y te dejará copiarlo a mano, lo que anula la velocidad que buscabas.
Algunos casos concretos hacen que la diferencia salte a la vista. Un comercial dictando notas en el CRM entre llamadas (cincuenta palabras, una pulsación de tecla, treinta segundos) necesita dictado. Un equipo con una llamada de planificación semanal que requiere una transcripción con capacidad de búsqueda y puntos de acción al terminar necesita subtítulos en vivo. Un estudiante que quiere convertir una conferencia de noventa minutos en un resumen de seiscientas palabras necesita subtítulos durante la conferencia y luego una herramienta para comprimirlos. Un padre respondiendo el correo de un profesor mientras prepara el desayuno necesita dictado, porque está escribiendo una respuesta, no grabando la cocina. La misma persona puede necesitar ambas herramientas en el mismo día. Siguen siendo dos herramientas distintas.
La regla: seguir habla → subtítulos en vivo; escribir mediante habla → dictado. Algunas aplicaciones difuminan la línea, pero la mayor parte de la frustración en esta categoría viene de usar una herramienta de reuniones para escribir o una herramienta de escritura para subtitular una reunión. Whisper está en el campo de la escritura: casi instantáneo, cursor primero, pulsar-para-hablar. Es el mismo bucle tanto si dictas en Gmail como en cualquier otro sitio con un campo de texto.
Las otras aplicaciones de transcripción en tiempo real que vale la pena conocer
No tienes que fiarte solo de mi palabra sobre la categoría. Aquí tienes una lectura honesta en una línea de los principales actores, para que puedas ubicar a cada uno antes de comprometerte.
- Otter cubre la transcripción de reuniones con subtítulos en vivo para Zoom y Google Meet, aplicaciones en iOS, Android y Web, y transcripción con IA en inglés, español, francés, alemán, japonés y chino. El nivel gratuito tiene un límite de 300 minutos de transcripción al mes.
- Maestra anuncia transcripción y traducción en tiempo real en más de 125 idiomas, más subtítulos y doblaje, con un nivel de transcripción en vivo que la empresa dice es gratuito. Diseñada para subtítulos y rótulos, no para dictado en el cursor.
- Notta convierte audio y vídeo en tiempo real a texto e informa de soporte para 58 idiomas con traducción. Una herramienta de reuniones y grabación, basada en la nube.
- Rev y Trint se posicionan más en torno a los medios grabados que al dictado en el cursor. Rev es conocido principalmente por la transcripción de reuniones y grabaciones; Trint se usa ampliamente en periodismo y redacciones para trabajar con entrevistas grabadas. Ambas son herramientas de lectura y edición, no un bucle de mantener-una-tecla-y-escribir-en-tu-app.
Observa el patrón: la mayoría de estas son herramientas de reuniones y grabación que viven en la nube. Ese es el mercado completo de las "aplicaciones de transcripción en vivo". El campo del dictado en el cursor, la herramienta de escritura, es la categoría más pequeña y menos visible, y es la que la mayoría de las personas que buscan este término necesitan sin saber cómo se llama.
Para comparar estos frente a frente en los aspectos que puedes verificar, no en velocidades o puntuaciones de precisión inventadas:
| Herramienta | Plataforma | Local / Nube | Funciona sin conexión | Modelo de precios | Idiomas | Mejor para |
|---|---|---|---|---|---|---|
| Whisper by Remskill | Windows, macOS (Apple Silicon) | Local + nube opcional (BYOK) | Sí, modo local | Nivel local gratuito; complemento de nube de pago | 99 (Whisper multilingual) / 25 (Parakeet) | Dictado en el cursor |
| Otter | iOS, Android, Web | Nube | No | Nivel gratuito + planes de pago | 6 | Subtítulos en vivo de reuniones |
| Maestra | Web | Nube | No | Nivel en vivo gratuito + planes de pago | 125+ | Subtítulos, doblaje, rótulos |
| Notta | Web, móvil | Nube | No | Nivel gratuito + planes de pago | 58 (declarados) | Notas de reuniones y grabaciones |
| Windows 11 Subtítulos en directo | Windows 11 | Local (en el dispositivo) | Sí | Incluido en el sistema operativo | ~21 | Subtítulos en pantalla para leer |
Vale la pena una frase para explicar por qué el mercado tiene esta forma. Las reuniones son donde está el dinero. Una empresa paga por asiento para capturar cada llamada, resumirla y volcar los puntos de acción en un gestor de proyectos. Es una línea de gasto recurrente y deducible. La escritura personal por voz no lo es. Así que la mitad ruidosa y bien financiada de la categoría está construida para salas de conferencias, y la mitad que ayuda a una sola persona a responder su correo más rápido recibe menos oxígeno de marketing. La frase "aplicación de transcripción en tiempo real" se asienta encima de ambas, que es la razón por la que la gente acaba en una herramienta de reuniones cuando quería una herramienta de escritura. Si quieres ver el campo más amplio desglosado por categoría, mantenemos una guía del software de transcripción por categorías.
Cuándo ignorar Whisper y usar una herramienta de reuniones
Lo diré sin rodeos, porque la alternativa sería venderte lo equivocado. Si tu trabajo es capturar una reunión en vivo (varias personas hablando, una hora entera, un resumen ordenado al final) no uses Whisper para eso. Usa Otter. Está construido para esto, con subtítulos en vivo para Zoom y Google Meet y aplicaciones en todas las plataformas, y el nivel gratuito te da 300 minutos al mes para probarlo. Para subtítulos multilingües o doblaje, el nivel en vivo de Maestra cubre más de 125 idiomas. Y si solo necesitas subtítulos del audio que ya se está reproduciendo en tu pantalla de Windows, Windows 11 Subtítulos en directo es gratuito, en el dispositivo y ya está instalado. Nosotros hacemos una herramienta de escritura. Cuando necesitas una herramienta de lectura, esas son las mejores opciones, y preferimos que uses la correcta. (Para la comparativa del caso de reuniones, escribimos un análisis completo de alternativas a Otter.ai.)
Qué cuesta
Whisper by Remskill es gratuito para todos los usuarios con sesión iniciada en todo el proceso local (Parakeet, todos los modelos de Whisper, mejora de IA en el dispositivo, historial, preajustes, atajos de teclado personalizados) sin pedir ningún método de pago al registrarse. El nivel de pago, Whisper Pro, añade la superficie en la nube: transcripción de OpenAI con clave propia y búsqueda web. Los números exactos están en la página de precios, y no cambian con asteriscos de "desde". Para contexto sobre los demás: el nivel gratuito de Otter se detiene en 300 minutos al mes, con planes de pago por encima. El punto del proceso local gratuito es que puedes probar el bucle completo de escritura, atajo de tecla a hablar a pegar, antes de decidir si la nube vale algo para ti.
Dos personas leerán esto y querrán dos aplicaciones distintas. Una está a punto de subtitular una reunión diaria. La otra está a punto de responder treinta correos antes de llevar a los niños al colegio, una pulsación de tecla cada vez. El único error es coger la máquina equivocada porque las dos decían "tiempo real" en la caja, y luego abrir un panel de la nube tres meses después preguntándose de dónde viene la factura. Elige según lo que estás haciendo. Siguiendo habla, o escribiéndola. Todo lo demás se desprende de ahí.
Prueba el bucle de escritura en tu propio portátil
Descarga Whisper, mantén pulsada la tecla, di una frase, mírala aparecer donde ya estaba tu cursor.
Gratuito en todo el proceso local. Sin método de pago al registrarse.



