Por Denys Medvediev

Guía

Conversor de audio a texto, explicado

Las herramientas web gratuitas, las apps de escritorio sin conexión y la nube con tu propia clave convierten el sonido en texto. Lo que de verdad importa es dónde se procesa tu audio.

Última actualización: junio de 2026

Primer plano de una interfaz de audio digital que muestra una onda de sonido luminosa sobre una pantalla oscura

Un conversor de audio a texto convierte una grabación o el habla en vivo en texto editable y consultable mediante un modelo de reconocimiento de voz. Lo que de verdad importa es dónde se procesa el audio: las herramientas web gratuitas suben los archivos a un servidor, mientras que una app de escritorio como Whisper puede transcribir por completo en tu propio ordenador, sin conexión, y pegar el resultado allí donde tengas el cursor.

La mayoría de las herramientas gratuitas de audio a texto te limitan a los primeros 10 o 30 minutos de transcripción y luego te piden la tarjeta. Eso es justo. Los servidores cuestan dinero. Lo que nadie dice en voz alta es que tu audio tuvo que viajar antes hasta esos servidores. La nota de voz de un médico, la grabación de una reunión de la junta, un archivo de preparación para una audiencia de custodia: todo subido a un proveedor que nunca has visto.

Tengo una opinión al respecto, y llegaré a ella.

Un conversor de audio a texto hace una sola cosa: escucha el sonido y escribe las palabras. Las diferencias interesantes están en cómo escucha (un modelo), dónde escucha (tu equipo o un servidor) y qué hace con el texto después (dejarlo en un archivo o pegarlo donde ya estás escribiendo). Los tres conversores gratuitos mejor posicionados para esta búsqueda son todos del tipo sube-un-archivo-y-espera. Whisper by Remskill es otra cosa. Está pensado primero para el dictado, lo que significa que pulsas una tecla rápida, hablas y el texto aparece en el cursor de cualquier aplicación.

Esta guía explica cómo funcionan los conversores, recorre el camino de tres pasos para un archivo grabado y te dice cuándo un conversor web es la opción correcta y cuándo no. Tras un año leyendo nuestro correo de soporte, te puedo decir que la mayor parte viene de gente que eligió una herramienta en la nube para audio que nunca debería haber salido de su portátil.

Un conversor de audio a texto convierte grabaciones en palabras que puedes editar

Whisper
La app real de Whisper: navega por los Ajustes para ver cómo se configuran la transcripción local y la de la nube.

Por debajo, todos los conversores ejecutan lo mismo: un modelo de reconocimiento de voz. Toma la onda de tu audio y predice las palabras, un fragmento cada vez. El modelo es donde vive la precisión. El gran modelo abierto que hay detrás de muchas de estas herramientas es Whisper, de OpenAI, que admite 99 idiomas en sus variantes multilingües. La misma API de Speech-to-Text de OpenAI expone whisper-1 además de los modelos más recientes gpt-4o-transcribe y gpt-4o-mini-transcribe.

El resultado es texto plano y editable. Puedes corregir un nombre, buscar una frase, soltarlo en un correo. De eso se trata. El sonido es difícil de ojear; el texto es fácil. Whisper produce el mismo texto editable, pero en lugar de entregarte una descarga, puede pegarlo directamente en la app en la que estés. La aplicación incrustada arriba es el frontend de escritorio real, no una maqueta.

Qué modelo elijas es la decisión sobre la precisión, y el modelo abierto Whisper y Google Cloud Speech-to-Text aterrizan en sitios distintos; nuestra comparativa Whisper frente a Google Speech-to-Text pone los dos motores cara a cara en precisión, cobertura de idiomas y a dónde va tu audio.

Cómo convertir un archivo de audio a texto en tres pasos

Para un archivo grabado, el camino es corto. Los conversores web gratuitos lo resumen así: subir, hacer clic, descargar.

converter · web upload
interview.wavuploading to server… 64%
files deleted within 24h Download transcript
Un conversor web típico: suelta un archivo, espera la subida, descarga la transcripción.
1

Elige dónde se ejecuta. Los conversores en la nube necesitan que subas el archivo a su servidor. Whisper ejecuta la transcripción en tu propio equipo en modo local, así que el archivo nunca sale de tu ordenador.

2

Elige un modelo para tu idioma. Los archivos solo en inglés son más rápidos con un modelo más pequeño. El audio multilingüe o con varios idiomas mezclados necesita un modelo multilingüe que cubra 99 idiomas.

3

Obtén el texto y edítalo. La transcripción vuelve como texto plano. Corrige las erratas que un modelo siempre comete en los nombres propios y listo.

CancelTranscribing
Whisper transcribiendo una grabación de forma local: el archivo nunca sale de tu equipo.

Un detalle que conviene saber: las API en la nube tienen techos de tamaño. El endpoint de transcripción de OpenAI limita las subidas a 25 MB por solicitud. La grabación de una reunión larga en WAV se pasa de ahí enseguida. El procesamiento local no tiene ese límite más allá de tu propio disco y tu paciencia.

Archivos grabados frente a dictado en vivo: ¿cuál necesitas?

Aquí está la pregunta que la mayoría de las páginas de conversores se saltan. ¿Estás transcribiendo un archivo que ya existe, o intentas escribir algo nuevo con tu voz?

Si tienes una grabación (una entrevista, una clase, un pódcast), un conversor de archivos es la herramienta adecuada. Súbela, obtén la transcripción y sigue adelante. Las tres herramientas gratuitas mejor posicionadas hacen esto, con límites diarios de minutos en el plan gratuito.

Cancel
La superposición de grabación en vivo de Whisper: mantén la tecla rápida, habla, suelta.

Si estás redactando un correo, una nota o un documento nuevos, no quieres un archivo en absoluto. Quieres que las palabras aparezcan a medida que hablas. Eso es el dictado, y es un mecanismo distinto. Con Whisper mantienes pulsada una tecla rápida, hablas y la sueltas. En Windows el valor predeterminado es Ctrl+Space, y en macOS es un acorde de pulsar para hablar Command+Option (mantén ambas y suelta cualquiera de las teclas para detenerlo). El texto transcrito se pega en tu cursor en cualquier aplicación. Sin subida, sin descarga, sin cambiar de pestaña. La superposición de arriba es lo que ves mientras escucha.

La mayoría de quienes buscan un conversor de audio a texto quieren lo primero y descubren que también querían lo segundo. Grabas menos cosas de las que escribes. El año pasado pasé dos semanas buscando un mejor conversor de archivos cuando lo que de verdad necesitaba era dejar de teclear respuestas con un solo dedo durante los entrenamientos de natación de mi hija.

Local frente a nube: dónde se procesa tu audio (y por qué importa)

Filas de bastidores de servidores en un centro de datos con equipos en funcionamiento, que representan el procesamiento de audio en la nube

La bifurcación que importa llega aquí, y es de la que las herramientas gratuitas hablan menos. Un conversor web procesa tu audio en sus servidores. AudioConvert.ai dice que los archivos se borran en un plazo de 24 horas. HappyScribe y NoteGPT también suben a la nube. Eso es lo normal, y para un pódcast público está bien.

Ahora, la opinión que prometí. La conversión de audio solo en la nube es un desastre de privacidad esperando a ser transcrito. Un equipo con el que trabajé una vez encargó a un contratista un prototipo interno de dictado que llamaba a una IA en la nube por cada frase. El responsable abrió el panel de costes al final del trimestre y se encontró con una factura de cinco cifras, la mayoría por transcribir grabaciones de standups cuatro veces porque la lógica de reintentos era demasiado agresiva. La respuesta del director financiero fue breve: o podríamos no pagar por subir reuniones que ya tienen actas. El dinero era el problema pequeño. El mayor era que trimestres de llamadas internas vivían ahora en los servidores de otra persona.

El modo local de Whisper responde a eso. En modo local, todo el audio se procesa en tu ordenador y nada sale del dispositivo; tras una descarga única del modelo (entre unos 140 MB y 3 GB según el modelo) funciona totalmente sin conexión. Dos motores se ejecutan en el dispositivo: los modelos Whisper y Parakeet, de NVIDIA, que es de 5 a 10 veces más rápido que Whisper en CPU pero solo cubre inglés más 24 idiomas europeos, sin traducción al inglés. Si prefieres la nube, Whisper tiene un modo OpenAI con tu propia clave usando gpt-4o-mini-transcribe o gpt-4o-transcribe (los mismos modelos que expone la API), facturados directamente por OpenAI, sin recargo por nuestra parte. La cuestión es que tú eliges. Las herramientas web gratuitas eligen por ti, y la respuesta es siempre su servidor. Para saber más sobre mantenerte fuera de la nube por completo, consulta nuestra guía de reconocimiento de voz sin conexión.

Elegir la precisión: qué modelo gestiona tu acento y tu idioma

La precisión es sobre todo una cuestión de modelo, y el modelo es una cuestión de idioma. Los conversores gratuitos anuncian cifras grandes. AudioConvert.ai afirma hasta un 99 % de precisión en audio nítido; HappyScribe dice hasta un 96 %. Son afirmaciones de marketing del proveedor sin método publicado, así que trátalas como el folleto, no como el punto de referencia.

Lo que mueve la precisión es ajustar el modelo a tu audio. Whisper trae 8 modelos locales divididos en solo-inglés y multilingües. Las versiones solo en inglés (Base, con ~140 MB, hasta Medium, con ~1,5 GB) bloquean el selector de idioma en inglés y hacen ese único trabajo bien. Las versiones multilingües (Small, Medium, Large v3 con ~3 GB, y un Large v3 Turbo) cubren 99 idiomas con detección automática. ¿Ucraniano e inglés mezclados en una misma frase? Eso necesita un modelo multilingüe. ¿Una nota de voz nítida en inglés? El modelo Base en inglés es más rápido y más ligero.

Whisper
El selector de modelo e idioma en la app real de Whisper: versiones solo-inglés y multilingües, una al lado de la otra.

La verdad aburrida que ninguna página de modelo admite: un micrófono de pinza barato hace más por la precisión que cualquier mejora de modelo. Audio basura entra, texto basura sale. Ninguna cantidad de IA arregla una grabación hecha junto a un lavavajillas en marcha. Pasé un fin de semana ajustando la configuración del modelo para limpiar mi propio audio enturbiado antes de darme cuenta de que el problema era el micrófono del portátil a quince centímetros de un ventilador. Tengo un máster. El panel de ajustes de arriba es donde eliges el modelo y el idioma.

Cuándo saltarse un conversor web (y usar otra cosa)

Un escritorio ordenado con un cuaderno, gafas y bolígrafos, que sugiere alternativas de toma de notas a mano

Un conversor web es la mejor opción a veces, y prefiero decírtelo antes que dejar que pelees con la herramienta equivocada. Si tienes una grabación corta (un fragmento de entrevista de cinco minutos, una sola nota de voz) y no te importa que toque un servidor, un conversor gratuito como HappyScribe te da los primeros 10 minutos gratis sin tarjeta. Abre la página, sube, listo. Instalar una app de escritorio para eso es pasarse.

Sáltate el conversor web cuando se cumpla una de estas tres cosas: el audio es sensible (médico, legal, financiero), el archivo es lo bastante grande como para chocar con el tope de 25 MB de la nube, o estás escribiendo algo nuevo en lugar de transcribir algo viejo. Los dos primeros casos piden procesamiento local. El tercero pide dictado, no un conversor en absoluto. Para transcripción tipo reunión con varios interlocutores y resúmenes, una herramienta dedicada a esa categoría encaja mejor que cualquiera de las otras dos: ese es un trabajo distinto, que cubrimos en nuestra selección de software de transcripción.

Cuánto cuesta

Whisper es gratis para todo el mundo en toda la canalización local (ambos motores de transcripción, la limpieza de texto con IA, el historial y la tecla rápida personalizada) sin necesidad de un método de pago para registrarte. La superficie de nube con tu propia clave es el plan Pro de pago, y OpenAI te factura directamente por los minutos que realmente transcribes. Los conversores web gratuitos de esta búsqueda funcionan con un tope de minutos freemium: HappyScribe da 10 minutos gratis, AudioConvert.ai da 30 minutos al día. Whisper está disponible hoy en Windows y en macOS con Apple Silicon. Para las cifras exactas de cada plan, la página de precios las tiene por escrito.

Los conversores gratuitos son buenos en lo que hacen: suelta un archivo, espera, copia el texto. Usa uno para el fragmento de pódcast que no te importa compartir. Pero las grabaciones que más importan suelen ser las que menos te gustaría subir, y ese es el momento en que un conversor que se ejecuta en tu propio portátil deja de ser un simple lujo.

Prueba una grabación que nunca sale de tu equipo

Mi hija pequeña le dictó un correo de 90 palabras a su abuela el sábado pasado y me preguntó adónde habían ido las palabras. A ningún sitio, le dije. Se quedaron aquí mismo. Esa respuesta es toda la razón por la que construí esto.

Gratis para toda la canalización local. No hace falta método de pago para registrarse.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, probablemente dictando las respuestas.

Más lecturas