Por Denys Medvediev

Explicación

Voz a texto privada, en tu dispositivo

La voz a texto privada significa que tu voz se transcribe en tu propio dispositivo, sin que nada se suba a un servidor. Whisper local y Parakeet funcionan completamente sin conexión. La dictación en la nube, en cambio, envía tu audio a un servidor externo para transcribirlo.

Última actualización: junio de 2026

Un candado apoyado sobre el teclado de un portátil con poca luz, evocando la privacidad en el dispositivo

La voz a texto privada es la transcripción que se ejecuta en el propio dispositivo del usuario, de modo que la voz grabada nunca abandona el equipo. Los motores locales como Whisper y Parakeet funcionan completamente sin conexión y no envían nada a un servidor. Los servicios de dictación en la nube suben el audio para transcribirlo de forma remota. Para obtener la máxima privacidad, elige una herramienta local y sin conexión.

Todas las herramientas de dictación se llaman a sí mismas privadas. La mayoría no lo son. La palabra se estira para significar «ciframos la subida» o «lo eliminamos en 30 días», lo que sigue implicando que tu voz salió de tu equipo, estuvo en el servidor de alguien y fue transcrita por un ordenador que no es tuyo. Eso es una política de privacidad, no privacidad. Existe una definición real y precisa de la palabra, y conviene tenerla clara antes de confiarle a una herramienta el correo a tu abogado.

La definición honesta es simple: voz a texto privada significa que el audio se convierte en palabras en tu dispositivo y no se envía nada a ningún lado. Sin subida, sin servidor, sin internet. Esa versión existe, es gratuita para el proceso local y funciona en el portátil que ya tienes. La pega —y lo digo sin rodeos— es que en el momento en que eliges el modo nube para obtener mejor precisión, esa promesa cambia. Lo voy a dejar muy claro.

Aquí está lo que queda enterrado bajo el marketing. «Privado» no es una sensación; es una pregunta con una única respuesta: ¿el audio abandona el dispositivo o no? Si lo hace, alguien que no eres tú puede, en principio, escucharlo. Si no lo hace, no puede. Todo lo demás —cifrado, plazos de retención, certificados de cumplimiento— es control de daños para el caso en que sí salga.

Así que la pregunta real no es «¿es privada esta herramienta?». Es «¿mi voz se transcribe en mi equipo o en el suyo?». Whisper local y Parakeet lo hacen en el tuyo, sin conexión, con el modelo cargado en tu propia RAM. La dictación en la nube lo hace en el suyo. Esta guía explica qué ventaja real te da esa diferencia, cómo configurar la versión local en dos minutos y la única excepción honesta en la que enviar audio a la nube es un intercambio razonable.

Qué significa «privado» de verdad en la voz a texto

Un candado cerrado sobre el trackpad de un portátil, que ilustra la privacidad de los datos en el dispositivo

Voz a texto privada significa una cosa concreta: tu voz grabada se convierte en texto en tu propio dispositivo y el audio nunca lo abandona. Sin subida a un servidor, sin viaje de ida y vuelta por internet, sin terceros en el proceso. La transcripción ocurre en tu propia memoria y CPU, igual que el corrector ortográfico, y luego el audio desaparece. Esa es toda la definición, y la mayoría de las herramientas que usan la palabra «privado» no la cumplen.

Lo que suele venderse como «privado» es la versión en la nube con un candado más resistente en la puerta. El audio igualmente viaja a los servidores del proveedor para ser transcrito; el proveedor simplemente promete cifrarlo en tránsito y eliminarlo en algún momento. Eso es genuinamente mejor que nada, y para mucha gente está bien. Pero no es lo mismo que el audio nunca salga. Una promesa de eliminación es una promesa. El procesamiento en el dispositivo es un hecho: no hay nada que eliminar porque no se envió nada. Cuando la privacidad importa de verdad —una cifra salarial, una nota médica, un borrador que nunca querrías indexado— la diferencia entre una promesa y un hecho lo es todo.

La razón por la que la transcripción en el dispositivo es posible hoy en día es que los modelos se han reducido y los portátiles se han vuelto rápidos. Hace unos años necesitabas un centro de datos para hacer un buen reconocimiento de voz, razón por la cual todo fue a la nube. Hoy, un modelo Whisper abierto se ejecuta localmente en un portátil de gama media y Parakeet va aún más rápido. La nube era una solución provisional para un hardware que ya no te limita. La voz a texto privada no es una función premium por la que pagas extra: es el valor por defecto que se volvió práctico, y el resto de esta guía trata sobre cómo usarla.

Por qué la mayoría de la dictación en la nube no es privada

Cuando pulsas una tecla en una herramienta de dictación en la nube, esto es lo que ocurre por debajo: el micrófono graba unos segundos de audio, ese archivo de audio se envía por internet a un servidor, un modelo en ese servidor lo transcribe y el texto vuelve a tu pantalla. Todo puede tardar apenas un segundo, que es exactamente por qué parece invisible. Pero tu voz —la grabación real, no solo las palabras— hizo un viaje a una máquina que no controlas y volvió.

Windows Voice Typing es el ejemplo más claro, porque la mayoría de la gente ya lo tiene. Pulsa la tecla Windows + H y se abre una pequeña barra que escribe tu dictado en el campo activo. Funciona bien. También es un servicio en la nube —el reconocimiento de voz online de Microsoft— por eso necesita conexión a internet y deja de funcionar en un avión. Tu audio va a los servidores de Microsoft para convertirse en texto. Lo mismo ocurre con la mayoría de las aplicaciones de «dictación con IA» actuales: la parte inteligente se ejecuta en el hardware de otra persona, y una factura mensual silenciosa es el coste de alquilarlo. Una herramienta local muestra una pequeña cápsula mientras escucha, y el audio que graba nunca abandona el portátil:

Cancel
El panel de grabación: una pequeña cápsula que aparece mientras hablas. Con un motor local, el audio que captura se transcribe en el dispositivo y nunca se sube.

No digo que la transcripción en la nube sea mala —la defenderé más adelante para los casos en que merece la pena—. Digo que la palabra de marketing «privado» suele describir el candado en la subida, no la ausencia de subida. La dictación solo en la nube es un desastre de privacidad esperando a que lo transcriban, y quienes lo notan primero son los que no ven la factura. Una vez vi cómo un equipo acumuló un cargo de cinco cifras en herramientas de IA en la nube en un trimestre, mayormente por un bug de «reintento inteligente» que reenviaba las mismas grabaciones de las reuniones diarias cuatro veces. El CFO abrió el panel en la revisión trimestral y la sala quedó en silencio. Nadie había decidido enviar todo ese audio a un servidor. La herramienta simplemente lo hacía, siempre, porque así funcionaba.

Cómo la voz a texto local mantiene la privacidad

La versión privada se ejecuta completamente en tu equipo. Pulsas un atajo, hablas, sueltas, y un modelo ya cargado en tu propia RAM convierte el audio en texto y lo pega en el cursor —sin internet, sin servidor, sin envíos—. Necesitas un Mac con Apple Silicon o un PC con Windows 10 o superior, un micrófono que funcione y un par de minutos. Todo el proceso local es gratuito para cualquier cuenta registrada, sin que te pidan método de pago al registrarte. Así es el proceso.

Paso 1 — Instala Whisper e inicia sesión.

Descarga desde la página de descarga, instala y crea una cuenta gratuita. Sin tarjeta. Todo el proceso de transcripción local se abre de inmediato, sin conexión.

Sabrás que funcionó cuando aparezca el icono de la bandeja del sistema y el asistente de configuración te ofrezca elegir un modelo.

Paso 2 — Elige un modo de transcripción local.

La aplicación no elige por ti. Para dictación privada sin conexión, selecciona Parakeet local o Whisper local —ambos se ejecutan en tu equipo—. La tercera opción, Nube, sube el audio, así que déjala desactivada si la privacidad es lo que importa.

Sabrás que funcionó cuando un modelo local termine de descargarse y aparezca como listo.

Paso 3 — Confirma tu atajo de teclado.

En Windows el predeterminado es Ctrl+Space; en Mac, Command+Option mantenidos como pulsar para hablar. En Mac, concede el permiso de Accesibilidad cuando se solicite; sin él, el pegado en el cursor no puede llegar a otras aplicaciones.

Sabrás que funcionó cuando una grabación de prueba se pegue en cualquier campo de texto.

Paso 4 — Desconecta el cable de red y habla de todas formas.

Esta es la prueba de privacidad. Desactiva el Wi-Fi, coloca el cursor en cualquier cuadro de texto, mantén el atajo, di una frase, suéltalo. La transcripción sigue apareciendo, porque el modelo se ejecutó localmente.

Sabrás que funcionó cuando la dictación funcione con internet completamente desconectado.

Whisper
La aplicación de escritorio real de Whisper en la pantalla de configuración, con los paneles locales de Transcripción e IA abiertos.

La parte lenta es la descarga única del modelo, que obviamente necesita internet. Después, el audio nunca vuelve a ir online en modo local. La prueba de desconectar el cable del paso cuatro no es un truco: es la única prueba que importa. Si la dictación sigue funcionando sin red, el audio se está transcribiendo en tu dispositivo, sin más. Si se detiene, es que iba a algún lado. Esa única prueba desmonta cualquier afirmación de «privado» en cualquier página de marketing.

voz a texto en Windows · en Mac

Hasta la limpieza con IA puede quedarse en tu equipo

Aquí está lo que la mayoría de la gente no se da cuenta de que debería preguntar. La dictación en bruto sale como un texto seguido —sin puntuación, algún «eh» ocasional, frases que se alargan—. La solución es un paso de IA que ordena el texto en algo que realmente querrías conservar. Y es exactamente aquí donde muchas herramientas «privadas» locales hacen una llamada silenciosa a casa: transcriben en el dispositivo y luego envían la transcripción desordenada a un modelo en la nube para la limpieza. El audio se mantuvo privado; las palabras no.

Whisper también gestiona la limpieza de forma local, a través de Ollama —un ejecutor de modelos local y gratuito que reside en tu equipo en localhost y nunca toca internet—. Di la frase de activación «Hey whisper» y el texto se mejora antes de llegar al cursor, con todo el proceso ocurriendo dentro de tu portátil. Así la cadena permanece intacta: tu voz se convierte en texto en tu dispositivo, y ese texto se limpia en tu dispositivo. Nada de esa frase —ni el audio, ni el borrador, ni la versión mejorada— sale jamás.

Este es el detalle que comprobaría en cualquier herramienta que se llame privada. Es fácil mantener la transcripción local y colar la mejora en la nube, porque la mejora es la parte que necesita un modelo grande, y los modelos grandes son tentadores de alquilar. La verdad poco glamurosa es que para la dictación cotidiana, un modelo local a través de Ollama es más que suficiente para corregir la puntuación y eliminar muletillas. Solo necesitas un modelo en la nube cuando pides algo genuinamente más difícil, y esa es una elección que deberías tomar a propósito —no una que la herramienta tome por ti en segundo plano—.

Local o nube: qué modo elegir para un flujo privado

Para cualquier cosa que consideres privada, empieza en local. Si tu Mac es Apple Silicon o tu PC es de los últimos años, los motores locales gestionan la dictación cotidiana sin problemas, y la nube pasa a ser la salida de emergencia en lugar del valor por defecto. La aplicación te hace elegir un modo a propósito —no impone uno por defecto—, así que así es como difieren los tres, con la privacidad a la vista:

La elección depende de dónde se procesa el audio y qué necesitas de la transcripción.

  • Parakeet localEl motor TDT de NVIDIA, unos 600 MB, y la opción local más rápida: entre 5 y 10 veces más rápido que Whisper en CPU. Cubre inglés más otros 24 idiomas europeos, 25 en total. Sin traducción al inglés. Totalmente en el dispositivo, sin subidas. La opción privada rápida si hablas inglés u otro idioma europeo.
  • Whisper localMás lento que Parakeet en el mismo equipo, pero las versiones multilingüe cubren 99 idiomas y pueden traducir al inglés. Las versiones solo en inglés son solo en inglés, no 99. También totalmente en el dispositivo. Elige este para chino, japonés, coreano o cualquier trabajo de traducción que Parakeet no puede hacer. El modelo en inglés por defecto pesa unos 480 MB.
  • Nube (OpenAI, BYOK)La mejor precisión y acceso web, usando tu propia clave de OpenAI facturada directamente por OpenAI. La transcripción usa gpt-4o-mini-transcribe por defecto. Este es el único modo que sube tu audio: sale de tu equipo para llegar a OpenAI. Es opcional, forma parte de Whisper Pro y está desactivado salvo que lo actives.

La línea es clara: los dos modos locales son privados por construcción —el audio se transcribe en tu dispositivo y no hay nada que filtrar—. El modo nube no lo es, y no pretendemos lo contrario. Envía tu audio a OpenAI, con tu propia clave, porque es la única manera de obtener la precisión de OpenAI y el acceso web en directo. Si tu Mac es de la serie M o tu PC es reciente, empieza con el modo local y recurre a la nube solo cuando el modo local realmente te deje con ganas de más. La nube es la excepción que eliges, no el valor por defecto que heredas.

Qué sale realmente de tu equipo, en cada modo

Seamos concretos sobre los datos, porque «privado» no significa nada sin especificar qué viaja. En modo local, la respuesta es nada: ni el audio, ni la transcripción, ni la versión mejorada. La grabación se procesa en tu RAM, la limpieza pasa por Ollama en tu equipo y lo único que se movió fueron las palabras, del modelo a tu cuadro de texto. Puedes verificarlo con la red desconectada.

Cuando se ejecuta la limpieza con IA, el panel muestra un estado de mejora mientras el modelo local convierte el texto seguido en algo legible. Este es el tipo de transformación que hace —la dictación en bruto arriba, el texto limpio abajo—, todo ocurriendo en tu dispositivo cuando estás en modo local:

Thinking...
El panel durante el paso de limpieza con IA. En modo local, esto pasa por Ollama en tu equipo, así que el texto nunca sale.
Original

okay so send the q3 numbers to marcus before the board call and flag the margin dip um but dont cc the whole finance list

Mejorado

Okay, so send the Q3 numbers to Marcus before the board call and flag the margin dip — but don't cc the whole finance list.

En modo nube, el balance honesto es diferente y deberías saberlo antes de activarlo. Tu audio se sube al punto de conexión de transcripción de OpenAI, con tu propia clave API, para convertirse en texto allí. Si también usas la mejora de IA en la nube, la transcripción va a un modelo GPT; si usas búsqueda web, también sale una consulta. Nada de eso pasa por Remskill —es una línea directa desde tu equipo a OpenAI con tu clave—, pero sí sale de tu equipo, que es lo único que define si algo es privado. Esa frase sobre los números del Q3 y Marcus es exactamente el tipo de cosa que mantendría en local. Una receta que dicto por diversión, eso me importa bien poco.

Ese mismo flujo de hablar y limpiar funciona en cualquier aplicación, así que una vez configurado puedes escribir más rápido con tu voz en tu editor, tu correo y tu terminal —de forma privada, sin que nada salga del portátil en modo local—.

Cuándo enviar audio a la nube es un trato justo

Una balanza sobre un escritorio, que ilustra el equilibrio entre privacidad y precisión

Mentiría si dijera que lo local es siempre la respuesta. A veces la nube es la opción correcta, y fingir lo contrario para empujar un argumento de privacidad sería la misma deshonestidad de marketing de la que me he pasado seis secciones quejando. El intercambio es real: renuncias a la garantía de que nunca sale de tu equipo y obtienes la mejor precisión de transcripción disponible más acceso web en vivo con el mismo atajo.

Recurre al modo nube cuando el contenido no es sensible pero la precisión sí lo es. Una transcripción de podcast, un borrador de blog público, una lista de la compra, una grabación difícil con acento fuerte o una sala ruidosa donde el modelo local tropieza: nada de eso necesita quedarse en tu equipo, y los modelos de OpenAI lo transcribirán mejor. Usas tu propia clave API, así que el audio va directamente a OpenAI y el coste por minuto recae sobre ti, sin margen de intermediario. Para trabajo no sensible donde lo que pagas es calidad, es un trato sensato. El error no es usar la nube, sino usarla por defecto para todo, incluido lo que nunca querrías en un servidor.

Y para las cosas realmente cortas, sáltate la herramienta dedicada por completo. Si dictas un texto de 30 palabras, la tecla Windows + H o la Dictación de macOS son gratuitas y ya están instaladas —aunque hay que señalar que Windows Voice Typing es en sí mismo un servicio en la nube, así que no es la opción privada, solo la cómoda—. En Apple Silicon, la Dictación de macOS puede procesar texto general en el dispositivo, lo que la convierte en la única integrada que es realmente privada para fragmentos cortos. Por debajo de las 200 palabras, no voy a decirte que instales nada. La herramienta dedicada gana su lugar cuando las notas se alargan, cuando quieres privacidad sin conexión en Windows o cuando quieres un único atajo que funcione igual en todas partes.

Si eliges una herramienta principalmente por la garantía de privacidad, la versión más profunda de este argumento vive en la guía sobre voz a texto sin conexión que explica cómo ejecutar todo con la red desconectada.

«Privado» es la palabra más usada en exceso en esta categoría y la más fácil de probar: desenchufa la red y comprueba si sigue funcionando. Whisper local y Parakeet superan esa prueba porque el audio nunca abandona tu equipo, y la limpieza con IA también la supera porque Ollama se ejecuta justo junto a ellos. El modo nube la falla a propósito, porque está alquilando la precisión de OpenAI, y eso es un trato justo para el trabajo adecuado. Dicté gran parte de esta guía con el Wi-Fi apagado, lo que es o bien una demo de producto convincente o bien una señal de que necesito salir más. Las dos cosas pueden ser verdad.

Dicta con privacidad, empieza ahora

Elige un modelo local, desconecta la red y habla. La transcripción aparece en tu cursor, y tu voz nunca salió del portátil.

Modo local gratuito para cualquier cuenta registrada. No se necesita tarjeta para empezar.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, probablemente dictando las respuestas.

Lecturas adicionales