Vergleich
Whisper vs. Google Speech-to-Text
Google Cloud Speech-to-Text ist eine Entwickler-API, die du aus deinem Code heraus aufrufst und pro Minute bezahlst. Whisper, das quelloffene OpenAI-Modell, auf dem unsere App läuft, arbeitet direkt auf deinem eigenen Rechner und ist für jemanden gemacht, der in Word oder Slack diktiert. Das eine ist Infrastruktur für Entwickler. Das andere ist ein Desktop-Diktiertool.
Zuletzt aktualisiert: Juni 2026

Google Cloud Speech-to-Text ist eine Entwickler-API. Du rufst sie aus deinem Code heraus auf, und sie rechnet pro Minute Audio ab, das an die Server von Google geschickt wird. Whisper, das quelloffene OpenAI-Modell, auf dem unsere App läuft, arbeitet auf deinem eigenen Rechner und ist für jemanden gemacht, der in Word oder Slack diktiert. Das eine ist Infrastruktur für Entwickler. Das andere ist ein Desktop-Diktiertool.
Google Speech-to-Text ist eine Cloud-API für Entwickler, die Transkription in Apps und Server einbauen. Sie streamt, sie verarbeitet lange Dateien im Batch, sie deckt viele Sprachen ab und rechnet pro Minute ab. Whisper in unserer App ist für Endnutzer gedacht, die privat, offline und kostenlos am Desktop diktieren möchten. Wenn du Code schreibst und Transkription in großem Umfang brauchst, gewinnt Google. Wenn du einfach sprechen und zusehen möchtest, wie der Text an deinem Cursor erscheint, gewinnt Whisper. Zwei verschiedene Kategorien.
Ich betreibe Whisper by Remskill, eine App, die das quelloffene Whisper-Modell in ein Desktop-Diktiergerät verwandelt: Tastenkürzel, sprechen, Text erscheint dort, wo dein Cursor steht. Ich habe also eine Seite in dieser Sache. Trotzdem versuche ich, ehrlich zu bleiben, denn die ehrliche Antwort ist die nützlichere. Die meisten Leute, die "Whisper vs Google Speech-to-Text" in ein Suchfeld tippen, sind kurz davor, zwei Dinge zu vergleichen, die nicht in denselben Topf gehören.
Google Speech-to-Text ist eine API, keine App, die du öffnest
Das Erste, was klar sein muss: Google Cloud Speech-to-Text hat kein Fenster. Es gibt kein Symbol in deinem Dock, kein Tastenkürzel, kein "Drücken zum Sprechen". Es ist ein Dienst, mit dem deine Software über das Netzwerk kommuniziert. Du schickst ihm per Code Audio; er schickt Text zurück. Googles eigene Dokumentation beschreibt es als synchrone, streamende und asynchrone Spracherkennung, die über eine API genutzt wird.
Dieses Design ist gut für seinen Zweck. Die Streaming-Erkennung liefert Zwischenergebnisse in Echtzeit, was nützlich ist, wenn du eine Live-Untertitelung oder einen Sprachbefehl für dein eigenes Produkt baust. Die asynchrone Erkennung verarbeitet lange Aufnahmen: Du lädst Audio hoch, Google arbeitet es im Hintergrund durch, und du fragst das Ergebnis ab, wenn es fertig ist. Google dokumentiert diesen Batch-Weg so, dass er Audio von bis zu acht Stunden in einem einzigen Auftrag verarbeitet. Das ist eine echte Stärke. Wenn du ein ganzes Lager aufgezeichneter Anrufe über Nacht transkribieren willst, ist eine Diktier-App für Endnutzer das falsche Werkzeug und eine API wie die von Google das richtige.
Es unterstützt eine lange Liste von Sprachen und regionalen Varianten, die BCP-47-Codes, die Entwickler kennen, wie en-US, en-GB und es-MX. Ich werde hier keine genaue Sprachanzahl und keinen Preis pro Minute nennen, und ich wäre vorsichtig bei jedem Artikel, der das tut. Googles Preis- und Sprachseiten ändern sich, und die Zahlen, die im Netz herumschwirren, lassen sich nicht alle auf eine Primärquelle zurückführen, für die ich geradestehen würde. Was ich ohne Einschränkung sagen kann: Es ist nutzungsbasierte Cloud-Abrechnung. Du zahlst für das, was du sendest, dein Audio geht an die Server von Google, und es gibt keinen kostenlosen lokalen Modus.
Zwei Menschen, zwei verschiedene Probleme
Hier ist die klarste Methode, die ich gefunden habe, um zu erkennen, auf welcher Seite dieser Linie du stehst. Stell dir zwei Menschen vor.
Der erste ist eine Entwicklerin. Sie baut ein Tool für den Kundensupport, das aufgezeichnete Anrufe in durchsuchbaren Text verwandelt. Die Transkription läuft auf ihrem Server, in ihrem Code, ohne dass ein Mensch dabei zusieht. Sie will einen Endpunkt, an den sie Audio schicken kann, und eine JSON-Antwort, die sie in einer Datenbank speichern kann. Sie wird das Transkriptionswerkzeug nie "öffnen". Es lebt in dem Produkt, das sie an ihre eigenen Kunden ausliefert. Das ist die Aufgabe von Google Speech-to-Text. Die API ist die Komponente; ihr Produkt ist die App.
Der zweite ist ein Autor. Oder eine Anwältin, die im Zug einen Schriftsatz verfasst, oder ein Student, der eine Vorlesung in Notizen verwandelt, oder ein Elternteil, das die E-Mail einer Lehrerin beantwortet, während es das Abendessen umrührt. Er hat keinen Server. Er hat einen Cursor, der in einem Dokument blinkt, und er würde lieber sprechen als tippen. Er will eine Taste drücken, den Satz sagen und zusehen, wie er in der Datei erscheint, die er ohnehin schon offen hat. Er wird nie Code schreiben, und das sollte er auch nicht müssen. Das ist unsere Aufgabe.
Die Verwirrung im Suchbegriff entsteht, weil "Whisper" eine Doppelrolle spielt. Google STT ist ein fertiger Cloud-Dienst. Whisper ist ein Modell, und ein Modell ist keine App. Jemand muss die App darum herum bauen: das Mikrofon einbinden, das Tastenkürzel verdrahten, den Text an den Cursor einfügen. Das ist der Teil, den wir gemacht haben.
Whisper in unserer App ist Desktop-Diktat, und es läuft auf deinem Rechner
Whisper ist das Sprachmodell, das OpenAI quelloffen veröffentlicht hat. Unsere App führt es lokal aus: reines Rust, kein Python-Beiwerk, kein Server in der Schleife für gewöhnliches Diktieren. Du drückst ein Tastenkürzel (unter Windows standardmäßig Ctrl+Space, frei belegbar), du sprichst, du lässt los, und der Text landet genau dort, wo dein Cursor schon steht. Kein Code. Kein API-Schlüssel für den lokalen Weg. Das Audio verlässt den Laptop nie.
Dieser letzte Punkt ist der ganze Sinn der Sache, und es ist genau der, der in einer Funktionstabelle nicht auftaucht.
In der lokalen Stufe wählst du aus acht Whisper-Modellen, von rund 140 MB bis zu 3 GB; du tauschst Downloadgröße und CPU-Zeit gegen Genauigkeit. Vier sind auf Englisch abgestimmt; die vier mehrsprachigen decken eine breite Spanne von Sprachen ab und können Sprache in derselben Geste ins Englische übersetzen, was Googles API nicht in einen einzigen Diktierdruck packt und was die meisten Verbrauchertools komplett auslassen. Es gibt außerdem Parakeet, eine separate NVIDIA-Engine, die auf der CPU 5- bis 10-mal schneller ist als Whisper, für Englisch und 24 weitere europäische Sprachen, und sie läuft ohne GPU.
Die gesamte lokale Pipeline ist für jeden angemeldeten Nutzer kostenlos, ohne Karte bei der Anmeldung: jedes Modell, KI-Aufbereitung über Ollama, Verlauf, eigene Schlüsselwörter, das ganze Paket. Wenn du die Cloud-Seite willst, ist das Whisper Pro: OpenAI-Cloud-Transkription (gpt-4o-mini-transcribe oder gpt-4o-transcribe), Cloud-KI-Aufbereitung und Websuche, alles über deinen eigenen OpenAI-Schlüssel, ohne dass Remskill etwas davon abzweigt. Das ist optional. Standard ist lokal und kostenlos.
Die nüchterne Wahrheit ist: Für einen diktierten Absatz hat dein Laptop schon ein Mikrofon und eine CPU. Er braucht kein Rechenzentrum.
Die Kostenmodelle haben nicht dieselbe Form
Hier hört der Vergleich auf, Äpfel mit Äpfeln zu sein. Eine Cloud-API rechnet pro Minute Audio ab. Eine lokale Diktier-App rechnet höchstens einmal ab.
Ich habe einmal gesehen, wie das Minuten-Modell zugebissen hat. Ein Team, mit dem ich gearbeitet habe, ließ von einem externen Dienstleister einen internen "KI-Diktat"-Prototypen bauen, der für jede Äußerung eine Cloud-API aufrief. Eine "smarte Wiederholungs"-Routine wurde zu eifrig und transkribierte dieselben Stand-up-Aufnahmen viermal hintereinander. Die Teamleitung öffnete am Quartalsende das Kosten-Dashboard und fand eine fünfstellige Rechnung. Die Lösung des Dienstleisters war: "Wir sollten den Prompt optimieren." Die Lösung des Finanzchefs war: "Oder wir sollten nicht für die Cloud-Transkription von Meetings zahlen, zu denen es ohnehin schon Notizen gibt."
Das ist kein Vorwurf an Googles API. Wie vorgesehen eingesetzt, von Entwicklern, die den Zähler im Blick behalten, ist sie für Produktions-Pipelines fair bepreist. Es ist ein Vorwurf dagegen, einen kostenpflichtigen Cloud-Dienst für etwas zu nutzen, das eine lokale App kostenlos erledigt. Reine Cloud-Transkription ist ein Datenschutz-Desaster, das nur darauf wartet, in Rechnung gestellt zu werden. Deine Vertragsentwürfe, deine Gehaltstabelle, die E-Mail an die Schule deines Kindes — alles verlässt deinen Rechner, nur weil du sprechen statt tippen wolltest. Für jemanden, der den ganzen Tag diktiert, ist Local-First die richtige Voreinstellung, und der Zähler springt nie an.
Direkt nebeneinander
Hier ist die ehrliche Übersicht. Beachte: Die Tabelle dreht sich nicht wirklich um "was ist besser". Sie dreht sich um "in welcher Kategorie steckst du".
| Merkmal | Google Speech-to-Text | Whisper (in unserer App) |
|---|---|---|
| Produkttyp | Cloud-Entwickler-API | Desktop-Diktier-App |
| So nutzt du es | Aus deinem eigenen Code aufrufen | Tastenkürzel drücken und sprechen |
| Wohin dein Audio geht | An die Server von Google | Bleibt auf deinem Rechner (lokaler Modus) |
| Kostenmodell | Nutzungsbasierte Cloud-Abrechnung, pro Minute | Kostenlose lokale Stufe; eine App, siehe Preisseite |
| Funktioniert offline | Nein | Ja (lokale Modelle) |
| Für wen es gedacht ist | Entwickler, die Transkription in Apps oder Server einbauen | Eine Person, die in eine beliebige App diktiert |
| Einrichtung | Cloud-Projekt, Anmeldedaten, Code | Installieren, anmelden, Modell wählen |
In dieser Tabelle stehen mit Absicht keine konkreten Google-Zahlen. Auf die Form kommt es an: Server vs. Rechner, Code vs. Tastenkürzel, Zähler vs. kostenlos. Wenn diese Zeilen dich zur API führen, gut, lies den nächsten Abschnitt weiter. Wenn sie dich zur App führen, der Download-Button ist ganz unten.
Wann Google Speech-to-Text das richtige Werkzeug ist
In ein paar klaren Fällen würde ich zu Googles API greifen, nicht zu unserer App. Das ist der Abschnitt, den KI-Artikel überspringen, also hier ganz unverblümt.
Du baust ein Produkt, du diktierst nicht hinein
Wenn du als Entwickler Transkription in ein Backend einbaust (eine Analyse-Pipeline fürs Callcenter, eine automatische Untertitelungsfunktion, eine Sprachschnittstelle für deine eigene Software), willst du eine API, und Googles ist eine ausgereifte. Unsere Desktop-App lässt sich von deinem Server aus nicht aufrufen. Sie hat keinen Endpunkt, kein SDK, keine Möglichkeit, dass dein Code sie um Text bittet. Das ist Absicht; sie ist eine App für einen Menschen, kein Dienst für ein Programm.
Du musst lange Aufnahmen in großem Umfang im Batch verarbeiten
Acht Stunden Audio in einem einzigen asynchronen Auftrag sind genau das, wofür Googles asynchrone Erkennung gebaut ist. Wenn du zehntausend aufgezeichnete Anrufe über Nacht durchkauen musst, willst du einen Dienst, der auf den Servern eines anderen skaliert, nicht einen Laptop, der ein Modell nach dem anderen abarbeitet.
Du brauchst Echtzeit-Streaming in deinem eigenen Code
Wenn deine Anwendung Zwischenergebnisse anzeigen muss, während jemand spricht (Live-Untertitel in einem Videoanruf, den du baust), ist die Streaming-Erkennung die passende API-Schnittstelle dafür. Unsere App fügt einen fertigen Textblock ein, nachdem du die Taste losgelassen hast — das falsche Verhalten für eine Live-Untertitelfunktion und das richtige fürs Diktieren.
Du brauchst programmatische Kontrolle und Audit-Logs
Kontingente pro Anfrage, serverseitige Abrechnung, eine zentrale Aufzeichnung darüber, wer was transkribiert hat: Eine verwaltete Cloud-API liefert das betriebliche Gerüst, das ein regulierter oder großflächiger Einsatz braucht. Eine Desktop-App behält all das auf dem Rechner des Einzelnen — der genau umgekehrte Kompromiss.
Wenn dich das beschreibt, schließ diesen Tab und öffne Googles Dokumentation. Wir machen nichts Serverseitiges. Das ist keine falsche Bescheidenheit; es ist ein anderes Produkt.
Wann Whisper in unserer App das richtige Werkzeug ist
Die andere Seite. Du baust keine Software. Du versuchst, mit dem Tippen aufzuhören.
Du willst E-Mails, Notizen, Nachrichten und Code-Kommentare diktieren und sie dort erscheinen lassen, wo du gerade arbeitest. Du hättest lieber, dass dein Audio nicht auf irgendwessen Server landet. Du willst keinen Minutenzähler laufen lassen, während du nachdenkst. Du willst kostenlos anfangen, und du willst keine einzige Zeile Code schreiben, um es zu nutzen.
Nimm Parakeet für Tempo und Englisch; nimm ein mehrsprachiges Whisper-Modell, wenn du Übersetzung, seltenere Sprachen oder feinere Kontrolle brauchst. Die lokale Pipeline kostet nichts; die Cloud-Stufe (OpenAI-Transkription mit deinem eigenen Schlüssel) ist optional und auf der Preisseite aufgeführt.
Zur Offline-, Lokal- und Kostenlos-Seite dieser Frage habe ich die größeren Abwägungen in Lokale vs. Cloud-Transkription aufgeschrieben. Und falls du zwischen den beiden lokalen Engines wählst, die wir ausliefern: Whisper vs. Parakeet geht Tempo gegen Sprachabdeckung durch.
Wenn du dir nur eine Sache merkst
Google Speech-to-Text ist eine API für Entwickler; Whisper in unserer App ist Diktat für Menschen. Zu fragen, was "besser" ist, ist, als würde man fragen, ob ein Automotor besser ist als ein Auto. Das hängt ganz davon ab, ob du das Ding baust oder fährst.
Wähle das, was zu deiner Aufgabe passt
Wenn deine Aufgabe darin besteht, privat, offline und kostenlos in die Apps zu diktieren, die du ohnehin schon nutzt, dann installiere Whisper und drück eine Taste. Wenn deine Aufgabe darin besteht, Transkription in Software einzubauen, weißt du schon, wo Googles Dokumentation steht.
Kostenlose lokale Transkription für immer. Keine Zahlungsmethode bei der Anmeldung. Die Cloud-Stufe ist optional und nutzt deinen eigenen Schlüssel.



