Por Denys Medvediev

Guía

Cómo transcribir entrevistas

Para transcribir una entrevista automáticamente, pasa la grabación por una herramienta de voz a texto: una opción gratuita de código abierto como Buzz o OpenAI Whisper en tu propio ordenador (para mantener la privacidad) o un servicio de transcripción en la nube cuando también necesitas etiquetas de hablantes y un editor pulido. Elige local si quieres gratis y privado; nube si necesitas diarización.

Última actualización: junio de 2026

Mesa de estudio de podcast con micrófonos y una mezcladora de audio, preparada para grabar una conversación

Para transcribir una entrevista automáticamente, pasa la grabación por una herramienta de voz a texto: una opción gratuita de código abierto como Buzz o OpenAI Whisper en tu propio ordenador (para mantener la privacidad) o un servicio de transcripción en la nube cuando también necesitas etiquetas de hablantes y un editor pulido. Elige local si quieres gratis y privado; nube si necesitas diarización.

Voy a decir la parte incómoda primero, porque te ahorra diez minutos. Whisper by Remskill, la app a la que pertenece este blog, no transcribe grabaciones de entrevistas. Es dictado en vivo: mantienes pulsada una tecla de acceso rápido, hablas, y las palabras aparecen en el cursor dentro de cualquier app. Eso es algo muy distinto a pasarle una grabación de una hora con dos personas y recibir una transcripción etiquetada. Esta guía trata sobre las herramientas que sí hacen ese trabajo, escrita por alguien que prefiere enviarte a la correcta antes que hacerse pasar por ella.

Una transcripción de entrevista es más difícil de lo que parece por una sola razón: los hablantes. Una herramienta de transcripción básica te da un muro de texto. Lo que normalmente quieres es «Entrevistador:» y «Entrevistado:» delante de cada turno. Eso se llama diarización, y no todas las herramientas lo hacen. La gran distinción es local frente a nube. Las herramientas locales funcionan en tu portátil, no cuestan nada y nunca suben tu audio. Los servicios en la nube suben el archivo, pero suelen gestionar las etiquetas de hablantes y ofrecen un editor. A continuación tienes el mapa honesto y, después, la parte en la que te digo exactamente dónde encajamos nosotros y dónde no.

La vía gratuita y privada funciona en tu propio ordenador

Si la entrevista es sensible —una fuente que necesita protección, un paciente, un directivo interno— la grabación no debería salir nunca de tu máquina. Las herramientas gratuitas de código abierto transcriben completamente en el dispositivo.

Whisper de OpenAI es el modelo sobre el que se construyen la mayoría de estas herramientas. Se publica bajo licencia MIT, se instala con un único comando pip y transcribe archivos de audio desde la línea de comandos. Viene en seis tamaños, cuatro con variantes solo en inglés, así que intercambias velocidad por precisión según tu hardware. Es multilingüe e incluso puede traducir el habla al inglés mientras transcribe. El inconveniente para entrevistas: el Whisper base escribe las palabras, pero no etiqueta quién las dijo. La diarización de hablantes necesita herramientas adicionales encima, o un servicio en la nube que ya la incluya.

Si la línea de comandos te echa para atrás, Buzz es la opción más fácil. Es una app gráfica que transcribe y traduce audio sin conexión en tu ordenador personal, funciona con Whisper, tiene licencia MIT y está disponible en macOS, Windows y Linux. Arrastra la grabación, elige un modelo, espera y lee la transcripción. Para la mayoría de las personas que quieren transcribir una entrevista gratis, este es el camino más corto.

Dos más que merece la pena conocer. whisper.cpp es un port en C/C++ de Whisper que funciona solo con CPU y está muy optimizado para Apple Silicon: más rápido, sin Python, pero lo compilas y lo manejas desde la línea de comandos. Y MacWhisper es una app para Mac construida alrededor de Whisper en local y el Parakeet de NVIDIA, centrada en la transcripción de archivos, que es exactamente el caso de uso de la entrevista. Todas estas opciones mantienen el audio en tu máquina. Ninguna de ellas, por sí sola, te entrega etiquetas de hablantes limpias.

Los servicios en la nube añaden etiquetas de hablantes y un editor

Aquí es donde decides cuánto vale tu privacidad. Los servicios de transcripción especializados suben tu grabación a sus servidores, la procesan y te devuelven una transcripción que normalmente identifica a los hablantes y la vuelca en un editor donde puedes corregir nombres y exportar. Esa comodidad es real, y para un pódcast público o un panel que no te importa compartir, es la mejor herramienta.

Si eso es lo que necesitas (etiquetas de varios hablantes, marcas de tiempo, una superficie de edición limpia), busca en la categoría de transcripción de reuniones y grabaciones en lugar de en una app de dictado. He escrito sobre ese panorama en el artículo de alternativas a Otter.ai y en el de alternativas a Rev; ambos cubren las herramientas en la nube que hacen bien la diarización y la edición.

Aquí va la opinión, y viene acompañada de una factura. Un equipo con el que trabajé una vez encargó a un contratista un prototipo interno de dictado que llamaba a una IA en la nube por cada utterance. El responsable abrió el panel de costes al final del trimestre y encontró un número de cinco cifras, la mayor parte por volver a transcribir grabaciones de stand-ups cuatro veces porque la lógica de reintento era demasiado agresiva. La respuesta del CFO fue corta: o dejamos de pagar para subir reuniones que ya tienen notas. El dinero era el problema menor. El mayor era que una cuarta parte de las llamadas internas vivía ahora en los servidores de un proveedor externo. La transcripción en la nube es genuinamente la elección correcta para etiquetas de hablantes y edición. Es la elección equivocada para una grabación que nunca querrías que saliera del edificio. Elige según ese eje, no según el marketing.

Cómo elegir, en pocas palabras

Hay tres tipos de personas que llegan a esta página: las que cuidan su privacidad, las que van contra el reloj y las que simplemente quieren los nombres de los hablantes sin pensarlo. Dos de ellas deberían optar por local.

  • Necesito que sea gratuito y privadoBuzz (la opción más fácil) o Whisper en tu propia máquina. El audio no se sube nunca.
  • Necesito etiquetas de hablantes y un editor pulidoun servicio de transcripción en la nube. El audio se sube; ese es el trato.
  • En un Mac, quiero una app centrada en archivosMacWhisper, en local.

El desempate honesto: si la grabación es sensible, la respuesta es local, sin más. Si es una charla pública y quieres que la diarización llegue sola, la nube vale lo que cuesta. La mayoría de las transcripciones de entrevistas son del primer tipo, por eso empiezo con las herramientas locales gratuitas. Si lo que te preocupa es el tiempo de respuesta, la guía para transcribir audio rápido repasa los controles de velocidad.

Dónde encaja realmente Whisper by Remskill

Pasted
El overlay post-dictado que se muestra en la app — así luce un dictado en vivo, completamente local, justo cuando termina. No hay ningún botón de «subir una grabación» aquí.

Ahora la parte en la que trazo la línea con claridad, porque el peor resultado de este artículo sería que descargaras nuestra app esperando que procesara una grabación. No lo hará. Whisper by Remskill es dictado primero: una tecla de acceso rápido activa tu voz en vivo, que se transcribe y se pega en el cursor de cualquier app en la que estés. No hay botón de «subir un archivo de entrevista» ni diarización de hablantes, porque está construida para una sola voz: la tuya, en el momento.

¿Entonces dónde la usa un entrevistador? Alrededor de la entrevista, no en ella. Dictando tus preguntas de preparación en un documento antes de entrar. Soltando tus notas de seguimiento en el segundo en que termina la conversación, mientras las impresiones están frescas y aún llevas el café en la mano. Redactando el artículo por voz una vez que la transcripción existe. La tecla de acceso rápido por defecto en Windows es Ctrl+Space, totalmente reasignable, y todo el pipeline local es gratuito para cualquier usuario registrado sin tarjeta al registrarse. También hay un nivel de pago en la nube que añade transcripción con tecnología de OpenAI y búsqueda web para el dictado en vivo, pero sigue tratándose de escribir con tu voz, no de transcribir una grabación de dos personas.

Whisper
Esa es la app de escritorio real — barra lateral, panel de transcripción y tarjetas de instrucciones de IA — no una captura de pantalla.

Úsala para escribir alrededor de la entrevista. Usa Buzz o un servicio en la nube para la entrevista en sí. Herramientas distintas, trabajos distintos. Prefiero que lo sepas antes de instalar nada.

Una última palabra

La mayoría de las grabaciones de entrevistas que vale la pena transcribir son las que menos te gustaría subir: el apunte off the record, la fuente que confió en ti, el paciente. Esa es precisamente la razón por la que las herramientas locales gratuitas se ganan su lugar: el archivo se queda en tu portátil. Una vez pasé un fin de semana ajustando la configuración del modelo para limpiar mi propio audio borroso antes de darme cuenta de que el verdadero problema era el micrófono del portátil a quince centímetros de un ventilador. Tengo un máster. Compra primero el micrófono.

Y cuando la transcripción está lista y llega el momento de escribir el artículo de verdad, ahí es cuando nuestra app deja de ser espectadora.

Dicta el artículo una vez que la transcripción existe

Transcribe la entrevista con Buzz o un servicio en la nube. Luego descarga Whisper by Remskill y dicta el artículo — la única parte del flujo de trabajo de la entrevista para la que fuimos creados. El pipeline local es gratuito, sin tarjeta al registrarse.

Dictado local gratuito para siempre. Sin método de pago al registrarse. No transcribimos grabaciones — usa una herramienta local o un servicio en la nube para eso.

Foto de Denys Medvediev

Denys Medvediev

Soy quien lee nuestro correo de soporte, probablemente dictando las respuestas.

Lectura adicional