Por Denys Medvediev

Comparativa

Transcripción local versus en la nube

La transcripción local ejecuta el modelo de voz en tu propio equipo: el audio nunca abandona el dispositivo, funciona sin conexión y no tiene coste por minuto. La transcripción en la nube envía el audio a un servidor con los modelos más recientes, lo que resulta más rápido en hardware modesto y puede incorporar búsqueda web en tiempo real, pero el audio sale de tu máquina y pagas por uso.

Última actualización: junio de 2026

Una sala de servidores moderna iluminada en azul, que evoca el lado de la nube en el dilema entre transcripción local y en la nube

La transcripción local mantiene el audio en el dispositivo, funciona sin conexión y no tiene coste por minuto una vez descargado el modelo. La transcripción en la nube usa el modelo más reciente del proveedor y puede buscar en internet, pero requiere conexión y se factura por uso. Nuestra aplicación incluye ambas opciones detrás de un solo interruptor, así que cambias según la situación en lugar de comprometerte de por vida con una opción.

Ese es el dilema completo en dos párrafos cortos. Todo lo que sigue es el detalle detrás de él.

Puedo escribir esto sin tomar partido porque nuestra aplicación incorpora las dos opciones. El pipeline local ejecuta ocho modelos Whisper más Parakeet de NVIDIA, todo en Rust puro sobre tu CPU, y es gratuito para cualquier usuario registrado, sin necesidad de tarjeta. La opción en la nube es la transcripción de OpenAI con tu propia clave de API, disponible como complemento Pro. Mismo atajo de teclado, mismo overlay, un solo interruptor. Así que cuando digo que el modo local es el adecuado para la mayoría, no es porque solo vendamos lo local. Es lo que dicen los números.

Local significa que el modelo vive en tu disco

La transcripción local descarga un modelo de voz una sola vez y después lo ejecuta en tu procesador. Sin subidas, sin servidor, sin conexiones a cuentas durante una grabación. Desconecta el cable de red y sigue funcionando.

Nuestra aplicación lo hace en Rust puro a través de una librería llamada transcribe-rs, sin ningún entorno Python añadido. Puedes elegir entre ocho modelos Whisper, desde Base con unos 140 MB hasta Large v3 con aproximadamente 3 GB, o el Parakeet de NVIDIA con unos 600 MB, que es de cinco a diez veces más rápido que Whisper en una CPU. No se requiere GPU. El modelo se carga en RAM, tu voz entra, el texto sale, y nada de ese proceso toca internet.

La descarga es el único inconveniente. Un modelo de 3 GB es una descarga considerable con el Wi-Fi de un hotel, y un portátil de 2018 funcionará bien con un modelo pequeño pero se atascará con el grande. Después de esa primera descarga, sin embargo, no hay coste por minuto y ningún servidor de por medio. Si quieres la versión más detallada, escribí un artículo completo sobre cómo usarlo completamente sin conexión. Mira transcripción de voz a texto sin conexión en el escritorio.

En la nube significa que tu audio hace un viaje

La transcripción en la nube graba tu audio, lo envía al servidor de un proveedor y el servidor devuelve el texto. Estás alquilando el hardware de otra persona y su modelo más reciente.

En nuestra aplicación, el modo nube funciona con tu propia clave de OpenAI. La transcripción se ejecuta en gpt-4o-mini-transcribe o en el gpt-4o-transcribe de mayor calidad, y puedes añadir corrección mediante IA y búsqueda web en tiempo real con la misma clave. Tú aportas tu propia clave de OpenAI y pagas directamente a OpenAI. Nosotros no recibimos ningún porcentaje ni añadimos recargo alguno. No hay ningún modelo grande que descargar. Funciona igual en un netbook de hace cinco años que en una estación de trabajo nueva, porque el trabajo ocurre en el servidor, y puede responder a una pregunta buscando en internet, algo que un modelo local simplemente no puede hacer.

El coste está implícito en el propio concepto. Tu audio abandona tu máquina. Necesitas una conexión activa. Y pagas por minuto, fracciones de céntimo, pero se acumula, y es medido.

La comparativa honesta

Sin cifras en esta tabla a propósito. Consulta nuestra página de precios para los números reales. Esto trata sobre la naturaleza de cada opción.

Cómo se comparan la transcripción local y en la nube en privacidad, uso sin conexión, coste, velocidad, actualidad y acceso a internet
Qué te importaTranscripción localTranscripción en la nube
PrivacidadEl audio nunca abandona tu máquinaEl audio se envía al servidor del proveedor
Funciona sin conexiónSí, después de la descarga única del modeloNo, necesita una conexión activa
Modelo de costeSin coste por minuto después de la descargaMedido, pagas por minuto utilizado
La velocidad depende deTu propia CPU y el tamaño del modeloEl hardware del proveedor y tu conexión
Actualidad del modeloEl modelo que descargaste, actualizado cuando tú eligesSiempre el modelo más reciente del proveedor
Acceso web en tiempo realNoSí, la nube puede buscar y responder

Léelo de arriba abajo y el patrón es claro. Local cede comodidad a cambio de privacidad, uso sin conexión y un coste fijo. La nube cede privacidad y control del gasto a cambio del modelo más reciente y conexión a internet. Ninguna opción es mejor. Cada una destaca en trabajos distintos.

Cuándo la nube es la mejor opción

No voy a fingir que lo local gana siempre. Hay casos reales en los que yo elegiría la nube.

Si tu hardware es antiguo o escaso de RAM, la nube es la opción más amable. Un portátil de 2017 con 8 GB de RAM luchará con un modelo local grande, mientras que la nube se encarga del trabajo pesado en otro lugar y tu máquina solo gestiona el micrófono. Si necesitas la máxima calidad de transcripción posible con audio difícil —acentos marcados, hablantes superpuestos o jerga técnica—, los modelos alojados más recientes suelen superar lo que puedes ejecutar en casa. Y si quieres dictar una pregunta y obtener una respuesta basada en la web pegada directamente donde escribes, eso requiere la nube sin más. Un modelo local no tiene internet para buscar.

El hilo que une todo esto: la nube es la salida de emergencia para hardware débil, calidad máxima y acceso web en tiempo real.

Cuándo lo local es la mejor opción

Para la mayoría de personas, en la mayoría de situaciones, lo local es lo que yo recomendaría como punto de partida.

Si las palabras que dictas son privadas —una hoja de cálculo salarial, un correo al colegio de tu hijo, un borrador legal—, no deberían acabar en los registros de un proveedor solo porque querías escribir con la voz. Lo local mantiene ese audio en tu máquina, punto. Si trabajas en aviones, trenes o cafeterías con Wi-Fi poco fiable, lo local no depende de si tienes señal. Y si dictas mucho, el coste fijo importa.

Esta es la opinión a la que me comprometo: prueba primero lo local y trata la nube como la salida de emergencia, no como la opción predeterminada. Si tu Mac es Apple Silicon o tu PC es de los últimos cuatro años, lo local gestiona el dictado cotidiano con un 95 % a un 99 % de precisión sin ningún servidor de por medio. Recurre a la nube cuando toques un límite, ya sea hardware débil, audio especialmente difícil o necesidad de búsqueda web. La mayoría de personas nunca llegan a ese límite.

Tengo una razón para ser precavido con la nube como opción predeterminada. Un equipo con el que trabajé una vez dejó que un colaborador externo construyera un prototipo interno de dictado con IA en la nube que llamaba a la API con cada frase. Un bucle de reintento inteligente transcribió las mismas grabaciones de reuniones cuatro veces seguidas. El responsable abrió el panel de costes al final del trimestre y encontró una factura de cinco cifras. La solución del colaborador fue optimizar el prompt. La solución del director financiero fue dejar de pagar para transcribir reuniones que ya tenían notas. La nube medida está bien hasta que algo entra en bucle. Lo local no tiene un contador que se dispare.

Ambos modos en una sola aplicación

Whisper
La aplicación Whisper by Remskill en vivo, mostrando el interruptor entre modo local y en la nube junto al selector de modelo. Esta es la interfaz real, no una captura de pantalla.

La distinción anterior es real, pero no es una bifurcación a la que te comprometes una sola vez. En nuestra aplicación, ambos modos comparten el mismo atajo de teclado y el mismo overlay de grabación, y el cambio es un simple interruptor. Dicta un correo privado en modo local por la mañana, cambia a la nube para verificar un dato con búsqueda web por la tarde, y vuelve. No reinstalas nada. No eliges un camino para siempre.

Pasted
El overlay post-dictado que aparece tanto si transcribiste en local como en la nube.

Ese es el punto que el debate entre local y nube suele pasar por alto. No es una guerra de religiones. Son dos herramientas en el mismo cajón, y la correcta depende de la frase que estés a punto de decir. Si quieres comparar los motores locales entre sí —velocidad frente a cobertura de idiomas—, eso merece su propio artículo: Whisper vs Parakeet. Y si estás evaluando nuestra app frente a un competidor específico, la comparativa con superwhisper lo analiza en detalle.

Si solo recuerdas una cosa

Local para privacidad, uso sin conexión y coste fijo. Nube para el modelo más reciente, hardware débil y acceso a internet. Prueba primero lo local y mantén la nube como salida de emergencia. Lo mejor es no tener que elegir para siempre: un interruptor, ambos modos, el que mejor encaje con la frase que estés a punto de decir.

Pruébalo de las dos formas

Los motores locales son gratuitos para cualquier usuario registrado, y puedes añadir la opción en la nube cuando realmente la necesites. Descarga la aplicación, dicta un correo privado en modo local y luego activa el interruptor para ver qué cambia la nube para ti.

Transcripción local gratuita para siempre. Sin método de pago al registrarse.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, probablemente dictando las respuestas.

Para seguir leyendo