Comparativa
Whisper frente a Google Speech-to-Text
Google Cloud Speech-to-Text es una API para desarrolladores que llamas desde código y pagas por minuto. Whisper, el modelo de código abierto de OpenAI sobre el que funciona nuestra app en tu propio equipo, está pensado para una persona que dicta en Word o Slack. Una es fontanería para ingenieros. La otra es una herramienta de dictado de escritorio.
Última actualización: junio de 2026

Google Cloud Speech-to-Text es una API para desarrolladores. La llamas desde código y factura por cada minuto de audio enviado a los servidores de Google. Whisper, el modelo de código abierto de OpenAI sobre el que funciona nuestra app en tu propio equipo, está pensado para una persona que dicta en Word o Slack. Una es fontanería para ingenieros. La otra es una herramienta de dictado de escritorio.
Google Speech-to-Text es una API en la nube para desarrolladores que integran la transcripción en apps y servidores. Hace streaming, procesa archivos largos por lotes, cubre muchos idiomas y cobra por minuto. Whisper en nuestra app es para un usuario final que quiere dictado de escritorio privado, sin conexión y gratis. Si escribes código y necesitas transcripción a gran escala, gana Google. Si quieres hablar y ver cómo aparece el texto donde está tu cursor, gana Whisper. Categorías distintas.
Yo llevo Whisper by Remskill, una app que convierte el modelo de código abierto Whisper en dictado de escritorio: atajo, hablas y el texto aparece allá donde esté tu cursor. Así que tengo mi parte en esto. Aun así intentaré ser honesto, porque la respuesta honesta es la más útil. La mayoría de quienes escriben "Whisper vs Google Speech-to-Text" en un buscador están a punto de comparar dos cosas que no pertenecen al mismo grupo.
Google Speech-to-Text es una API, no una app que abres
Lo primero que conviene tener claro: Google Cloud Speech-to-Text no tiene ventana. No hay icono en tu dock, ni atajo, ni "pulsar para hablar". Es un servicio con el que tu software se comunica a través de la red. Le envías audio con código y te devuelve texto. La propia documentación de Google lo describe como reconocimiento síncrono, en streaming y asíncrono, consumido a través de una API.
Ese diseño es bueno para lo que sirve. El reconocimiento en streaming devuelve resultados parciales en tiempo real, lo cual es útil si estás construyendo una función de subtítulos en directo o un comando de voz para tu propio producto. El reconocimiento asíncrono gestiona grabaciones largas: subes el audio, Google lo procesa en segundo plano y consultas el resultado cuando está listo. Google documenta esta vía por lotes como capaz de manejar audio de hasta ocho horas en un solo trabajo. Eso es una virtud real. Si tienes un almacén de llamadas grabadas para transcribir de la noche a la mañana, una app de dictado para usuario final es la herramienta equivocada, y una API como la de Google es la correcta.
Admite una larga lista de idiomas y variantes regionales, los códigos BCP-47 que conocen los ingenieros, como en-US, en-GB y es-MX. No voy a poner aquí un recuento exacto de idiomas ni un precio por minuto, y desconfiaría de cualquier artículo que lo haga. Las páginas de precios e idiomas de Google cambian, y los números que circulan por la web no siempre se remontan a una fuente primaria que yo respaldaría. Lo que sí puedo decir sin matices: es facturación en la nube según el uso. Pagas por lo que envías, tu audio va a los servidores de Google y no hay modo local gratuito.
Dos personas, dos problemas distintos
Esta es la forma más limpia que he encontrado de saber en qué lado de la línea estás. Imagina a dos personas.
La primera es una desarrolladora. Está construyendo una herramienta de atención al cliente que convierte llamadas grabadas en texto buscable. La transcripción ocurre en su servidor, dentro de su código, sin que ningún humano la vea ejecutarse. Quiere un endpoint al que enviar audio y una respuesta JSON que pueda guardar en una base de datos. Nunca va a "abrir" el transcriptor. Vive dentro del producto que entrega a sus propios clientes. Ese es el trabajo de Google Speech-to-Text. La API es el componente; su producto es la app.
El segundo es un escritor. O un abogado redactando en el tren, o un estudiante que convierte una clase en apuntes, o un padre respondiendo el correo de un profesor mientras remueve la cena. No tiene un servidor. Tiene un cursor parpadeando en un documento y prefiere hablar a teclear. Quiere pulsar una tecla, decir la frase y verla aparecer en el archivo que ya tiene abierto. Nunca va a escribir código, y no debería tener que hacerlo. Ese es nuestro trabajo.
La confusión de la búsqueda viene de que "Whisper" hace doble función. Google STT es un servicio en la nube terminado. Whisper es un modelo, y un modelo no es una app. Alguien tiene que construir la app a su alrededor: conectar el micrófono, cablear el atajo, pegar el texto en el cursor. Esa es la parte que hicimos nosotros.
Whisper en nuestra app es dictado de escritorio, y funciona en tu equipo
Whisper es el modelo de voz que OpenAI liberó como código abierto. Nuestra app lo ejecuta en local: Rust puro, sin proceso paralelo de Python, sin servidor en el bucle para el dictado normal. Pulsas un atajo (Ctrl+Space en Windows por defecto, totalmente reasignable), hablas, sueltas y el texto aterriza allá donde ya está tu cursor. Sin código. Sin clave de API para la vía local. El audio nunca sale del portátil.
Esa última parte es la clave de todo, y es la que no aparece en una tabla de características.
En el plan local eliges entre ocho modelos Whisper, desde unos 140 MB hasta 3 GB; cambias tamaño de descarga y tiempo de CPU por precisión. Cuatro están afinados para el inglés; los cuatro multilingües cubren un amplio abanico de idiomas y pueden traducir el habla al inglés en el mismo gesto, algo que la API de Google no integra en una sola pulsación de dictado y que la mayoría de las herramientas de consumo se saltan por completo. También está Parakeet, un motor de NVIDIA aparte que es entre 5 y 10 veces más rápido que Whisper en CPU para el inglés y otros 24 idiomas europeos, y funciona sin GPU.
Todo el pipeline local es gratis para cualquier usuario que haya iniciado sesión, sin tarjeta al registrarse: todos los modelos, limpieza con IA mediante Ollama, historial, palabras clave personalizadas, todo. Si quieres la parte en la nube, eso es Whisper Pro: transcripción en la nube de OpenAI (gpt-4o-mini-transcribe o gpt-4o-transcribe), limpieza con IA en la nube y búsqueda web, todo con tu propia clave de OpenAI y sin que Remskill se lleve nada. Eso es opcional. Lo predeterminado es local y gratis.
La verdad aburrida es que, para un párrafo de texto dictado, tu portátil ya tiene micrófono y CPU. No necesita un centro de datos.
Los modelos de coste no tienen la misma forma
Aquí es donde la comparación deja de ser de igual a igual. Una API en la nube factura por minuto de audio. Una app de dictado local factura, como mucho, una vez.
Vi cómo el modelo por minuto mordía una vez. Un equipo con el que trabajé tenía un contratista que construyó un prototipo interno de "dictado con IA" que llamaba a una API en la nube por cada intervención. Una rutina de "reintento inteligente" se volvió demasiado agresiva y volvió a transcribir las mismas grabaciones de las reuniones diarias cuatro veces. El responsable del equipo abrió el panel de costes al final del trimestre y se encontró una factura de cinco cifras. La solución del contratista fue "deberíamos optimizar el prompt". La solución del director financiero fue "o no deberíamos pagar por transcribir en la nube reuniones que ya tienen acta."
Esto no es un reproche a la API de Google. Usada como toca, por ingenieros que vigilan el contador, está bien tarifada para pipelines de producción. Es un reproche a usar un servicio en la nube con contador para algo que una app local hace gratis. La transcripción solo en la nube es un desastre de privacidad esperando a que te lo facturen. Tus borradores de contratos, tu hoja de cálculo de salarios, el correo al colegio de tu hijo, todo saliendo de tu equipo porque querías hablar en vez de teclear. Para un individuo que dicta todo el día, lo local primero es la opción correcta por defecto, y el contador nunca se pone en marcha.
Cara a cara
Aquí va el reparto honesto. Fíjate en que la tabla no va realmente de "cuál es mejor". Va de "en qué categoría estás".
| Característica | Google Speech-to-Text | Whisper (en nuestra app) |
|---|---|---|
| Tipo de producto | API en la nube para desarrolladores | App de dictado de escritorio |
| Cómo se usa | La llamas desde tu propio código | Pulsas un atajo y hablas |
| A dónde va tu audio | A los servidores de Google | Se queda en tu equipo (modo local) |
| Modelo de coste | Facturación en la nube según el uso, por minuto | Plan local gratis; una app, mira la página de precios |
| Funciona sin conexión | No | Sí (modelos locales) |
| Para quién es | Desarrolladores que integran transcripción en apps o servidores | Una persona que dicta en cualquier app |
| Configuración | Proyecto en la nube, credenciales, código | Instalas, inicias sesión, eliges un modelo |
En esa tabla no hay cifras concretas de Google a propósito. Lo que importa es la forma: servidor frente a equipo, código frente a atajo, contador frente a gratis. Si esas filas te llevan a la API, bien, sigue leyendo la siguiente sección. Si te llevan a la app, el botón de descarga está al final.
Cuándo Google Speech-to-Text es la herramienta correcta
Yo recurriría a la API de Google, no a nuestra app, en unos pocos casos claros. Esta es la sección que los artículos de IA se saltan, así que aquí está sin rodeos.
Estás construyendo un producto, no dictando en uno
Si eres ingeniero y estás cableando transcripción en un backend (un pipeline de analítica para un centro de llamadas, una función de subtitulado automático, una interfaz de voz para tu propio software), quieres una API, y la de Google es madura. Nuestra app de escritorio no puede ser llamada desde tu servidor. No tiene endpoint, ni SDK, ni forma de que tu código le pida texto. Eso es por diseño; es una app para una persona, no un servicio para un programa.
Necesitas procesar grabaciones largas por lotes a gran escala
Ocho horas de audio en un solo trabajo asíncrono es exactamente para lo que está hecho el reconocimiento asíncrono de Google. Si tienes diez mil llamadas grabadas que triturar durante la noche, quieres un servicio que escale en los servidores de otro, no un portátil ejecutando un modelo cada vez.
Necesitas streaming en tiempo real dentro de tu propio código
Si tu aplicación tiene que mostrar resultados parciales mientras alguien habla (subtítulos en directo en una videollamada que estás construyendo), el reconocimiento en streaming es la superficie de API para eso. Nuestra app pega un bloque de texto terminado después de que sueltas la tecla, que es el comportamiento equivocado para una función de subtítulos en directo y el correcto para el dictado.
Necesitas control programático y registros de auditoría
Cuotas por solicitud, facturación en el servidor, un registro central de quién transcribió qué: una API en la nube gestionada te da el andamiaje operativo que necesita un despliegue regulado o a gran escala. Una app de escritorio mantiene eso en el equipo del individuo, que es el intercambio opuesto.
Si cualquiera de esos casos eres tú, cierra esta pestaña y abre la documentación de Google. Nosotros no hacemos lado servidor. No es falsa modestia; es un producto diferente.
Cuándo Whisper en nuestra app es la herramienta correcta
La otra cara. No estás construyendo software. Estás intentando dejar de teclear.
Quieres dictar correos, notas, mensajes, comentarios de código, y que aparezcan en la app en la que ya estás. Prefieres que tu audio no vaya a los servidores de nadie. No quieres un contador por minuto corriendo mientras piensas. Lo quieres gratis para empezar, y no quieres escribir ni una línea de código para usarlo.
Elige Parakeet por velocidad y para el inglés; elige un modelo Whisper multilingüe cuando necesites traducción, idiomas menos comunes o un control más fino. El pipeline local no cuesta nada; el plan en la nube (transcripción de OpenAI con tu propia clave) es opcional y su precio está en la página de precios.
Para el lado sin conexión, local y gratis de esta cuestión, escribí sobre los compromisos más amplios en transcripción local frente a en la nube. Y si estás eligiendo entre los dos motores locales que ofrecemos, Whisper frente a Parakeet repasa la velocidad frente a la cobertura de idiomas.
Si solo recuerdas una cosa
Google Speech-to-Text es una API para ingenieros; Whisper en nuestra app es dictado para personas. Preguntar cuál es "mejor" es como preguntar si el motor de un coche es mejor que un coche. Depende por completo de si estás construyendo la cosa o conduciéndola.
Elige la que encaje con tu trabajo
Si tu trabajo es dictar en las apps que ya usas, de forma privada, sin conexión y gratis para empezar, instala Whisper y pulsa una tecla. Si tu trabajo es integrar transcripción en software, ya sabes dónde está la documentación de Google.
Transcripción local gratis para siempre. Sin método de pago al registrarte. El plan en la nube es opcional y con tu propia clave.



