What is the best real-time transcription app?

There is no single best. It depends on the job. For capturing live meetings, Otter is the standard, with live captions for Zoom and Google Meet. For dictation at your cursor while you write, you want a near-instant push-to-talk tool like Whisper. Decide whether you are reading speech or writing it first; the answer falls out of that.

Is there a free real-time transcription app?

Yes, several. Whisper by Remskill is free across its entire local pipeline for signed-in users, no card at signup. Windows 11 ships Live Captions free and on-device. Otter has a free tier capped at 300 minutes a month, and Maestra advertises a free live transcription tier.

Do real-time transcription apps work offline?

Some do, many do not. Whisper's local mode runs entirely on-device and works fully offline after the one-time model download. Windows 11 Live Captions also work offline on-device. Cloud tools like Otter, Maestra and Notta need an internet connection because the audio is processed on their servers.

Can it transcribe a live meeting as people speak?

That is continuous live captioning, and Whisper does not do it. It transcribes on hotkey release and pastes at your cursor, which is a writing tool, not a meeting recorder. For mid-meeting captions, use Otter, Maestra, or Google Meet's built-in captions.

How fast is local transcription compared to cloud?

Local can be near-instant. In the Whisper app, the Parakeet engine's own description is 5-10 times faster than Whisper on CPU for English and 24 European languages. Cloud transcription adds a network round-trip, so on a strong connection it is comparable, but it always depends on your bandwidth, and your audio leaves the device.

How many languages does it support?

Depends on the engine. Whisper's multilingual models handle 99 languages with auto-detect; the English-only builds handle one. Parakeet covers 25: English plus 24 European, no Asian languages and no translate-to-English. The cloud path uses OpenAI's models, which list 50-plus supported languages.

Which platforms does it run on?

Whisper by Remskill ships on Windows and macOS on Apple Silicon today. Intel Macs and Linux are not supported. If you are on Windows, the Windows voice-to-text walkthrough covers setup end to end.

Von Denys Medvediev19. April 2026

Leitfaden

Echtzeit-Transkription, erklärt

Zwei Apps tragen denselben Namen und machen das genaue Gegenteil. Hier erfahren Sie, wie Sie Live-Untertitel von nahezu sofortiger Diktierfunktion unterscheiden – und welche davon Ihr Problem tatsächlich löst.

Zuletzt aktualisiert: Juni 2026

Vogelperspektive auf eine anonyme Person, die an einem Tisch auf einem Laptop tippt – sinnbildlich für schnelles, tastengesteuertes Diktieren

Eine Echtzeit-Transkriptions-App wandelt gesprochene Worte sofort in Text um – ohne Hochladen und Warten. Es gibt zwei Varianten: kontinuierliche Live-Untertitel, die während Meetings einen Transkript-Stream erzeugen, und nahezu sofortiges Diktieren, das beim Loslassen einer Taste transkribiert und den Text an der Cursor-Position einfügt. Welche Sie brauchen, hängt davon ab, ob Sie einem Gespräch folgen oder selbst etwas schreiben möchten.

Ein Finanzteam, mit dem ich einmal zusammengearbeitet habe, baute sein eigenes „Echtzeit-Transkriptions“-Werkzeug. Ein freier Mitarbeiter verband GPT-4 mit dem Mikrofon jedes Laptops und ließ es laufen. Am Quartalsende öffnete die Teamleiterin das Cloud-Dashboard und sah eine fünfstellige Rechnung. Der Großteil entstand, weil ein Team Standup-Aufzeichnungen viermal transkribiert hatte – die „intelligente Wiederholungslogik“ war zu eifrig. Der Auftragnehmer schlug vor, den Prompt zu optimieren. Die CFO sagte etwas Kürzeres. Der Begriff „Echtzeit-Transkription“ hatte für alle etwas anderes bedeutet.

Genau dieses Missverständnis ist das Kernproblem dieser Kategorie. Zwei Menschen sagen „Echtzeit-Transkriptions-App“ und meinen zwei völlig verschiedene Werkzeuge. Der eine möchte, dass Worte auf dem Bildschirm erscheinen, während ein Kollege im Zoom-Call spricht. Der andere möchte eine Taste halten, einen Satz sagen, loslassen – und ihn in der E-Mail sehen, die er gerade schreibt. Dieser Artikel klärt, was was ist, zeigt, wie die schnelle lokale Variante funktioniert, und erklärt, wann Sie stattdessen ein Meeting-Tool brauchen. Am Ende wissen Sie, welche Kategorie zu Ihrem Problem passt. Die meisten greifen am ersten Tag zum falschen Werkzeug. Das weiß ich, weil der größte Teil der Support-E-Mails, die ich lese, von genau solchen Menschen stammt – und ich den ersten Monat damit verbracht habe, jede einzelne von Hand zu beantworten, bevor ich auf die Idee kam, den Unterschied von Anfang an zu erklären.

Die Unterscheidung ist wichtig, weil beide Ansätze für gegensätzliche Aufgaben entwickelt wurden. Live-Untertitel sind darauf ausgelegt, niemals zu stoppen: Sie folgen einem Meeting eine Stunde lang, Sie lesen mit. Diktieren ist darauf ausgelegt, schnell zu enden: Sie sprechen fünfzehn Sekunden, der Text erscheint, Sie arbeiten weiter. Eine Cold-Sales-E-Mail ist zwölf Varianten à achtzig Wörter – per Stimme etwa zwölf Minuten, per Hand etwa fünfundvierzig. Eine Vorlesungszusammenfassung ist eine neunzigminütige Aufzeichnung, verdichtet auf eine sechshundert Wörter umfassende Notiz. Derselbe Begriff in der Suchleiste, zwei verschiedene Werkzeuge.

Was „Echtzeit“ wirklich bedeutet

Digitale Audio-Oberfläche mit einer lebhaften Schallwelle – sinnbildlich für Sprache, die in Echtzeit erfasst und umgewandelt wird

Es gibt zwei ehrliche Definitionen von „Echtzeit“, und die Apps, die damit werben, teilen sich entsprechend in zwei Lager.

Das erste sind kontinuierliche Live-Untertitel. Das Transkript erscheint Wort für Wort, während Audio noch läuft: ein Meeting, eine Vorlesung, ein Video. Sie lesen den Text, während er gestreamt wird. Otter macht das während Anrufen mit Live-Untertiteln für Zoom und Google Meet. Maestra bewirbt Echtzeit-Transkription und -Übersetzung in über 125 Sprachen mit einem kostenlosen Live-Tarif. Windows 11 hat Live-Untertitel eingebaut – auf dem Gerät, offline, in rund 21 Sprachen. Diese Apps beobachten einen Stream und verschriften ihn.

Das zweite ist nahezu sofortiges Diktieren. Sie halten eine Taste gedrückt, sprechen einen Satz oder einen Absatz, lassen los – und der fertige Text erscheint dort, wo Ihr Cursor bereits war. Kein scrollender Untertitel. Eine kurze Pause von einer oder zwei Sekunden, dann erscheint der gesamte Block auf einmal. Das ist das, was Whisper by Remskill macht. Die App transkribiert beim Loslassen der Taste und fügt den Text am Cursor ein; das Mikrofon bleibt 500 Millisekunden nach dem Loslassen offen, um das letzte Wort aufzufangen, das Menschen oft leiser werden lassen.

Beide sind „Echtzeit“ in dem Sinne, der für Menschen zählt: Sie nehmen keine Datei auf, laden sie hoch und warten. Aber sie lösen unterschiedliche Probleme. Live-Untertitel sind ein Lesewerkzeug; Sie konsumieren die Sprache eines anderen. Diktieren ist ein Schreibwerkzeug; Sie produzieren Ihre eigene. Wer beides durcheinanderbringt, zahlt am Ende ein Meeting-Notizen-Abo, um eine einzeilige E-Mail zu beantworten – oder kämpft mit einer Diktierfunktion, die ein Webinar untertiteln soll, für das sie nie gedacht war.

Eine dritte Kategorie wird hier oft mitgezählt, die überhaupt nicht Echtzeit ist: Datei-Transkription. Sie nehmen ein Interview auf, laden die Audiodatei hoch, und das Werkzeug liefert einige Minuten später ein Transkript. Tools wie Rev und Trint sind eher für diese Art von Arbeit gemacht – das Bearbeiten einer fertigen Aufzeichnung, nicht das Erfassen von Sprache, während sie passiert. Es lohnt sich, das zu benennen, damit Sie es ausschließen können. Wenn Sie auf einen Upload-Fortschrittsbalken starren, nutzen Sie keine Echtzeit-App – egal, was die Werbung behauptet.

Die Kategorie hat also eine klare Struktur, sobald man sie erkennt. Sprache lesen, die gerade passiert: Live-Untertitel. Sprache schreiben, die Sie gerade sagen: Diktieren. Eine frühere Aufzeichnung aufbereiten: Datei-Transkription. Der Suchbegriff „Echtzeit-Transkriptions-App“ vermischt die ersten beiden und zieht die dritte versehentlich mit hinein. Sich selbst der richtigen Kategorie zuzuordnen ist das Nützlichste, was Sie tun können, bevor Sie irgendetwas installieren.

Taste drücken, Text am Cursor erhalten

So läuft der Diktier-Loop von Anfang bis Ende. Sie drücken die Taste: Ctrl+Space unter Windows oder Command+Option gleichzeitig auf macOS – ein Push-to-Talk-Akkord, bei dem Sie beide Tasten gedrückt halten, solange Sie sprechen, und eine davon loslassen, um zu stoppen. Sie sprechen. Sie lassen los. Ein kleines Overlay zeigt, dass die App transkribiert, und eine oder zwei Sekunden später sitzt der Text in der App, in der Sie bereits gearbeitet haben: der E-Mail, dem Dokument, dem Chat-Feld, dem Code-Kommentar.

CancelTranscribing

Das Live-Whisper-Overlay mitten beim Transkribieren – kein Screenshot, sondern das, was Sie in der halben Sekunde zwischen dem Loslassen der Taste und dem Erscheinen der Wörter sehen.

Kein Fensterwechsel. Kein „Aus dem Transkriptions-Tab kopieren und wieder einfügen.“ Der Text landet am Cursor, weil genau das der Sinn ist. Sie haben geschrieben – und schreiben jetzt schneller. Das Overlay oben ist die Live-App, kein Screenshot; dieser Transkriptions-Status ist das, was Sie in der halben Sekunde zwischen dem Loslassen der Taste und dem Erscheinen der Wörter sehen.

Hier ist der Grund, warum sich „Echtzeit“ anders anfühlt als bei einem Untertitelstream. Ein Untertitel ist etwas, das Sie beobachten, wie es bei jemand anderem passiert. Diktieren ist etwas, das mit Ihrem eigenen Satz passiert – schnell genug, dass Sie den Faden nicht verlieren. Der 500-Millisekunden-Puffer am Ende existiert genau dafür. Menschen lassen ihre Stimme am Satzende abfallen, und das Mikrofon sofort beim Loslassen der Taste zu kappen würde das letzte Wort abschneiden. Ein kleines Detail – aber der Unterschied zwischen „danke für die Organisation des Treffens mit dem“ und einem vollständigen Satz.

Es hilft zu verstehen, warum das Timing so ist, wie es ist. Wenn Sie die Taste loslassen, ist die Audio, die Sie gerade gesprochen haben, bereits im Speicher. Das Modell verarbeitet diesen kurzen Clip – einen Satz oder einen Absatz –, keinen Live-Stream. Deshalb kommt das Ergebnis als ein fertiger Block, nicht als scrollende Wörter. Ein kurzer Clip lässt sich schnell verarbeiten; das ist der Trick. Ein Live-Untertitel-Tool muss einen offenen Stream kontinuierlich dekodieren und Teilschätzungen anzeigen, die es korrigiert, während mehr Audio eintrifft. Diktieren überspringt das alles. Es wartet, bis Sie fertig sind, und transkribiert dann einmal, in einem sauberen Durchgang.

Diese Designentscheidung hält Sie im Fluss. Aus meiner Erfahrung ist es die Verzögerung, die Diktieren unterbricht: Sobald die Lücke länger als eine oder zwei Sekunden wird, wandert meine Aufmerksamkeit zurück zu der App, in der ich war, und ich verliere den Faden des Satzes, den ich halb fertig hatte. Das ist eine persönliche Beobachtung aus dem täglichen Einsatz, keine veröffentlichte Spezifikation. Kurze Clips plus eine schnelle lokale Engine halten die Lücke kurz. Diese Lücke ist das, worauf es ankommt – und der Grund, warum sich der Loop wie Schreiben anfühlt und nicht wie Diktieren-und-Warten.

Wenn Sie die ausführlichere Version möchten, wie die gesamte Pipeline zusammenpasst, haben wir einen separaten Artikel darüber geschrieben, wie Whisper aus einem Tastendruck eingefügten Text macht. Hier die Kurzfassung: drücken, sprechen, loslassen, fertig.

Warum Parakeet die schnellste lokale Option ist

Lokale Transkription bedeutete früher: langsam. Das änderte sich, als NVIDIAs Parakeet-Modell erschien. In der Whisper-App lautet Parakeets eigene In-App-Beschreibung „5-10× faster than Whisper on CPU“ und deckt Englisch plus 24 europäische Sprachen bei rund 600 MB auf der Festplatte ab. Diese Geschwindigkeit ist es, die lokales Diktieren nahezu sofort wirken lässt – und nicht wie eine Kaffeepause. Sie ist der eigentliche Grund, warum der oben beschriebene Hotkey-Loop ohne einen Server in der Mitte funktioniert.

Whisper

Die echte Whisper-App – klicken Sie in Einstellungen und den Modell-Auswähler, um die lokalen Engines nebeneinander zu sehen. Das ist das Live-Frontend, kein Screenshot.

Sie sind nicht auf eine Engine festgelegt. Whisper by Remskill liefert zwei lokale Optionen. Parakeet unterstützt 25 Sprachen (Englisch plus 24 europäische), aber keine asiatischen Sprachen und keine Übersetzung ins Englische. Die faster-whisper-Engine deckt mehr ab: Die mehrsprachigen Versionen verarbeiten 99 Sprachen mit automatischer Erkennung, während die .en-Versionen nur Englisch beherrschen – eine Sprache, dafür kleiner und schneller. Die Whisper-Modelle reichen von einem rund 140 MB großen englischen Base-Modell bis zu einem rund 3 GB großen mehrsprachigen Large v3, mit einem rund 1,62 GB großen Large v3 Turbo dazwischen – für alle, die den Großteil der Genauigkeit bei einem Bruchteil der Wartezeit wollen.

Die App wählt nicht für Sie aus – das ist Absicht. Das obige Embed ist die echte Einstellungsoberfläche. Sie wählen Parakeet, wenn Sie hauptsächlich Englisch sprechen und maximale Geschwindigkeit wollen, oder ein Whisper-Modell, wenn Sie 99-Sprachen-Abdeckung oder Übersetzung ins Englische brauchen. Ich habe einen peinlich langen Nachmittag damit verbracht, die „beste“ Engine automatisch für Nutzer auszuwählen, bevor ich zugeben musste: Die einzige Person, die weiß, welche die richtige ist, ist die Person, die spricht. Der Trade-off ist real: Parakeet ist die schnellste und kleinste Option, kann aber kein Chinesisch, Japanisch oder Koreanisch und übersetzt nicht. Die mehrsprachigen Whisper-Modelle können das alles – auf Kosten eines größeren Modells und einer längeren Wartezeit pro Clip. Keines ist abstrakt „besser“; eines ist besser für Ihren spezifischen Mund und Ihre spezifischen Sprachen.

Es gibt auch einen Cloud-Weg, bei dem Sie Ihren eigenen OpenAI-Schlüssel mitbringen: Transkription über gpt-4o-mini-transcribe oder gpt-4o-transcribe, mit Textbereinigung standardmäßig durch gpt-5-mini. Cloud erfordert eine Internetverbindung; die lokalen Engines nicht. Der Cloud-Weg ist der Notausgang, nicht der Startpunkt. Wenn ein vier Jahre alter Laptop die lokalen Engines problemlos ausführt – und das tun die meisten –, brauchen Sie für einen E-Mail-Absatz keinen Server in der Schleife.

Halten Sie einen Moment bei diesem Punkt inne. Nur-Cloud-Diktieren ist ein Datenschutzproblem. Das Gehaltsblatt Ihres Chefs, die E-Mail an die Schule Ihres Kindes, das Rechtsgutachten im Zug: Nichts davon sollte in den Logs eines Anbieters landen, nur weil Sie per Stimme tippen wollten. Der lokale Modus läuft auf dem Gerät und funktioniert nach dem einmaligen Modell-Download vollständig offline; während der lokalen Transkription werden keine Daten an einen Server gesendet. Die fünfstellige Quartalsrechnung jenes Finanzteams entstand, weil die Wörter das Gebäude verließen. Das wäre vermeidbar gewesen.

Wenn Sie das ausführlichere Argument möchten, finden Sie unsere Begründung für Offline-Spracherkennung, die niemals nach Hause telefoniert.

Live-Untertitel für Meetings versus Diktieren am Cursor

Geräumiger moderner Konferenzraum mit Leinwand – das Meeting-Umfeld, in dem Live-Untertitel verwendet werden

Wählen Sie das Werkzeug danach, was Sie tun – nicht danach, wer am lautesten „Echtzeit“ schreit.

Wenn Sie in einem Meeting sind und das Gespräch so festhalten möchten, wie es passiert – mehrere Sprecher, eine Stunde lang, mit einer Zusammenfassung danach –, brauchen Sie kontinuierliche Live-Untertitel. Das ist eine Lese-und-Aufzeichnungsaufgabe. Otter, Maestra, die integrierten Untertitel von Google Meet, Windows 11 Live-Untertitel: Sie folgen einem Stream und schreiben ihn nieder. Windows 11 untertitelt jedes Audio, das auf Ihrem Bildschirm abgespielt wird – auf dem Gerät, offline –, aber es untertitelt nur mit. Es tippt die Wörter nicht in die App, in der Sie gerade arbeiten.

Diese Unterscheidung bei Windows bringt viele Menschen durcheinander. Live-Untertitel lesen Audio, das abgespielt wird (ein Video, ein Anruf, die Stimme eines Kollegen aus Ihren Lautsprechern), und zeigen es auf dem Bildschirm zum Lesen an. Sie fügen keinen Text in das Dokument ein, das Sie schreiben. Das ist die Grenze zwischen Lesewerkzeug und Schreibwerkzeug: dieselbe On-Device-Transkriptions-Engine darunter, ein anderes Ziel für die Wörter. Eines sendet sie in eine Untertitelleiste, die Sie lesen. Das andere sendet sie an den Cursor, an dem Sie tippen.

Wenn Sie eine E-Mail, ein Dokument, eine Slack-Nachricht oder einen Commit-Kommentar schreiben, wollen Sie Diktieren. Sie produzieren die Wörter, Sie transkribieren keine fremden. Sie wollen sie am Cursor, schnell, und dann weiter. Das ist der Hotkey-Loop. Ein Live-Untertitel-Tool wird Sie in gewisser Weise transkribieren, aber es wirft den Text in sein eigenes Fenster und lässt Sie ihn rüberkopieren – womit genau die Geschwindigkeit verloren geht, die Sie gesucht haben.

Ein paar konkrete Fälle machen den Unterschied deutlich. Ein Vertriebsmitarbeiter, der zwischen Anrufen CRM-Notizen diktiert (fünfzig Wörter, ein Tastendruck, dreißig Sekunden) – Diktieren. Ein Team, das einen wöchentlichen Planungsanruf mit durchsuchbarem Transkript und Aufgaben danach braucht – Live-Untertitel. Eine Studentin, die eine neunzigminütige Vorlesung in eine sechshundert Wörter lange Zusammenfassung umwandeln will – Untertitel während der Vorlesung, dann ein Verdichtungswerkzeug. Ein Elternteil, das beim Lunchboxpacken die E-Mail einer Lehrerin beantwortet – Diktieren, weil eine Antwort geschrieben wird, keine Küche aufgezeichnet. Dieselbe Person kann beides an einem Tag brauchen. Es bleiben trotzdem zwei verschiedene Werkzeuge.

Die Regel: Sprache beobachten → Live-Untertitel; Sprache schreiben → Diktieren. Manche Apps verwischen die Grenze, aber der Großteil der Frustration in dieser Kategorie entsteht dadurch, ein Meeting-Tool zum Schreiben oder ein Schreibwerkzeug zum Untertiteln eines Meetings zu verwenden. Whisper gehört ins Schreib-Lager: nahezu sofortig, cursor-zuerst, Push-to-Talk. Der Loop ist derselbe, egal ob Sie in Gmail oder in einem anderen Textfeld diktieren.

Die anderen Echtzeit-Transkriptions-Apps, die Sie kennen sollten

Sie müssen mir nicht einfach glauben. Hier ist die ehrliche Einzeiler-Einschätzung der wichtigsten Anbieter, damit Sie jeden einordnen können, bevor Sie sich festlegen.

OtterMaestraNottaRevTrint

Otter deckt Meeting-Transkription mit Live-Untertiteln für Zoom und Google Meet ab, mit Apps für iOS, Android und Web sowie KI-Transkription auf Englisch, Spanisch, Französisch, Deutsch, Japanisch und Chinesisch. Der kostenlose Tarif begrenzt Sie auf 300 Transkriptionsminuten pro Monat.
Maestra bewirbt Echtzeit-Transkription und -Übersetzung in über 125 Sprachen sowie Untertitel und Synchronisation, mit einem Live-Transkriptions-Tarif, den das Unternehmen als kostenlos bezeichnet. Gebaut für Untertitel, nicht für Cursor-Diktieren.
Notta wandelt Audio und Video in Echtzeit in Text um und nennt Unterstützung für 58 Sprachen mit Übersetzung. Ein Meeting-und-Aufzeichnungs-Tool, cloudbasiert.
Rev und Trint positionieren sich stärker im Bereich aufgezeichneter Medien als beim Cursor-Diktieren. Rev ist vor allem für die Transkription von Meetings und Aufzeichnungen bekannt; Trint wird im Journalismus und in Newsroom-Workflows weit verbreitet für die Arbeit mit aufgezeichneten Interviews eingesetzt. Beide sind Lese-und-Bearbeitungs-Tools, kein Taste-halten-und-in-Ihre-App-tippen-Loop.

Das Muster fällt auf: Die meisten dieser Tools sind Meeting-und-Aufzeichnungs-Tools in der Cloud. Das ist der gesamte Markt für „Live-Transkriptions-Apps“. Das Lager der Cursor-Diktierfunktion – das Schreibwerkzeug – ist die kleinere und stillere Kategorie, und sie ist genau die, die die meisten Menschen, die diesen Begriff suchen, brauchen, ohne den Namen dafür zu kennen.

Um diese Tools auf Basis nachprüfbarer Fakten gegenüberzustellen – nicht auf Basis erfundener Geschwindigkeits- oder Genauigkeitswerte:

Tool	Plattform	Lokal / Cloud	Offline nutzbar	Preismodell	Sprachen	Am besten für
Whisper by Remskill	Windows, macOS (Apple Silicon)	Lokal + optionale Cloud (BYOK)	Ja, lokaler Modus	Kostenloser lokaler Tarif; kostenpflichtiges Cloud-Add-on	99 (Whisper multilingual) / 25 (Parakeet)	Diktieren am Cursor
Otter	iOS, Android, Web	Cloud	Nein	Kostenloser Tarif + kostenpflichtige Pläne	6	Meeting-Live-Untertitel
Maestra	Web	Cloud	Nein	Kostenloser Live-Tarif + kostenpflichtige Pläne	125+	Untertitel, Synchronisation, Captions
Notta	Web, mobil	Cloud	Nein	Kostenloser Tarif + kostenpflichtige Pläne	58 (laut Anbieter)	Meeting- und Aufzeichnungsnotizen
Windows 11 Live Captions	Windows 11	Lokal (auf dem Gerät)	Ja	Im Betriebssystem enthalten	~21	Bildschirmuntertitel zum Lesen

Echtzeit-Transkriptions-Apps verglichen anhand nachprüfbarer Fakten, nicht erfundener Werte.

Warum dieser Markt so aussieht, wie er aussieht, ist einen Satz wert. Meetings sind dort, wo das Geld ist. Ein Unternehmen zahlt pro Sitz, um jeden Anruf zu erfassen, zusammenzufassen und Aufgaben in ein Projektmanagement-Tool zu übertragen. Das ist eine wiederkehrende, abrechenbare Position. Persönliches Schreiben per Stimme ist das nicht. Deshalb ist die laute, gut finanzierte Hälfte der Kategorie für Konferenzräume gebaut – und die Hälfte, die einer einzelnen Person hilft, ihre E-Mails schneller zu beantworten, bekommt weniger Marketing-Aufmerksamkeit. Der Begriff „Echtzeit-Transkriptions-App“ steht über beiden, weshalb Menschen bei einem Meeting-Tool landen, obwohl sie ein Tipp-Tool wollten. Wenn Sie den gesamten Bereich nach Kategorie aufgefächert haben möchten, pflegen wir einen laufenden Leitfaden zu Transkriptions-Software nach Kategorien.

Wann Sie Whisper überspringen und ein Meeting-Tool nutzen sollten

Ich sage es direkt, denn die Alternative wäre, Ihnen das falsche Produkt zu verkaufen. Wenn Ihre Aufgabe darin besteht, ein Live-Meeting aufzuzeichnen – mehrere Personen, eine Stunde davon, eine ordentliche Zusammenfassung am Ende –, nutzen Sie Whisper dafür nicht. Nutzen Sie Otter. Es ist dafür gebaut, mit Live-Untertiteln für Zoom und Google Meet sowie Apps auf jeder Plattform, und der kostenlose Tarif gibt Ihnen 300 Minuten pro Monat zum Testen. Für mehrsprachige Untertitel oder Synchronisation deckt Maestras Live-Tarif über 125 Sprachen ab. Und wenn Sie nur Untertitel für Audio brauchen, das bereits auf Ihrem Windows-Bildschirm läuft, sind Windows 11 Live-Untertitel kostenlos, auf dem Gerät und bereits installiert. Wir machen ein Schreibwerkzeug. Wenn Sie ein Lesewerkzeug brauchen, sind das die besseren Optionen – und wir hätten lieber, dass Sie das richtige Tool nutzen. (Für den direkten Vergleich im Meeting-Kontext haben wir einen ganzen Otter.ai-Alternativenvergleich geschrieben.)

Was es kostet

Whisper by Remskill ist für jeden angemeldeten Nutzer über die gesamte lokale Pipeline kostenlos (Parakeet, alle Whisper-Modelle, On-Device-KI-Bereinigung, Verlauf, Presets, benutzerdefinierte Hotkeys) – ohne dass bei der Anmeldung eine Zahlungsmethode verlangt wird. Der kostenpflichtige Tarif, Whisper Pro, fügt die Cloud-Oberfläche hinzu: Bring-your-own-key-OpenAI-Transkription und Websuche. Die genauen Zahlen stehen auf der Preisseite – ohne „ab“-Fußnoten, die sich verschieben. Zum Vergleich: Der kostenlose Tarif von Otter endet bei 300 Minuten pro Monat, darüber gibt es kostenpflichtige Pläne. Der Sinn der kostenlosen lokalen Pipeline ist, dass Sie den gesamten Schreib-Loop – Hotkey, sprechen, einfügen – testen können, bevor Sie entscheiden, ob die Cloud für Sie einen Cent wert ist.

Zwei Menschen werden das lesen und zwei verschiedene Apps wollen. Einer ist dabei, einen Standup zu untertiteln. Der andere wird gleich dreißig E-Mails vor der Schule beantworten – einen Tastendruck nach dem anderen. Der einzige Fehler ist, die falsche Maschine zu greifen, nur weil beide „Echtzeit“ auf der Verpackung standen – und dann in drei Monaten ein Cloud-Dashboard zu öffnen und sich zu fragen, woher die Rechnung kommt. Wählen Sie nach dem, was Sie tun. Sprache beobachten oder schreiben. Alles andere folgt daraus.

Probieren Sie den Schreib-Loop auf Ihrem eigenen Laptop

Laden Sie Whisper herunter, halten Sie die Taste, sprechen Sie einen Satz, und sehen Sie, wie er dort landet, wo Ihr Cursor bereits ist.

Whisper herunterladen Sehen Sie, wie es funktioniert

Kostenlos über die gesamte lokale Pipeline. Keine Zahlungsmethode bei der Anmeldung.

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – und die Antworten höchstwahrscheinlich selbst diktiert.

Weiterführende Quellen

Häufig gestellte Fragen

Die eine beste gibt es nicht. Es hängt von der Aufgabe ab. Für die Erfassung von Live-Meetings ist Otter der Standard, mit Live-Untertiteln für Zoom und Google Meet. Für das Diktieren am Cursor während des Schreibens brauchen Sie ein nahezu sofortiges Push-to-Talk-Tool wie Whisper. Entscheiden Sie zunächst, ob Sie Sprache lesen oder schreiben – die Antwort ergibt sich daraus.

Von Denys Medvediev19. April 2026

Leitfaden

Echtzeit-Transkription, erklärt

Zuletzt aktualisiert: Juni 2026

Was „Echtzeit“ wirklich bedeutet

Es gibt zwei ehrliche Definitionen von „Echtzeit“, und die Apps, die damit werben, teilen sich entsprechend in zwei Lager.

Taste drücken, Text am Cursor erhalten

CancelTranscribing

Das Live-Whisper-Overlay mitten beim Transkribieren – kein Screenshot, sondern das, was Sie in der halben Sekunde zwischen dem Loslassen der Taste und dem Erscheinen der Wörter sehen.

Warum Parakeet die schnellste lokale Option ist

Whisper

Die echte Whisper-App – klicken Sie in Einstellungen und den Modell-Auswähler, um die lokalen Engines nebeneinander zu sehen. Das ist das Live-Frontend, kein Screenshot.

Wenn Sie das ausführlichere Argument möchten, finden Sie unsere Begründung für Offline-Spracherkennung, die niemals nach Hause telefoniert.

Live-Untertitel für Meetings versus Diktieren am Cursor

Wählen Sie das Werkzeug danach, was Sie tun – nicht danach, wer am lautesten „Echtzeit“ schreit.

Die anderen Echtzeit-Transkriptions-Apps, die Sie kennen sollten

Sie müssen mir nicht einfach glauben. Hier ist die ehrliche Einzeiler-Einschätzung der wichtigsten Anbieter, damit Sie jeden einordnen können, bevor Sie sich festlegen.

OtterMaestraNottaRevTrint

Otter deckt Meeting-Transkription mit Live-Untertiteln für Zoom und Google Meet ab, mit Apps für iOS, Android und Web sowie KI-Transkription auf Englisch, Spanisch, Französisch, Deutsch, Japanisch und Chinesisch. Der kostenlose Tarif begrenzt Sie auf 300 Transkriptionsminuten pro Monat.
Maestra bewirbt Echtzeit-Transkription und -Übersetzung in über 125 Sprachen sowie Untertitel und Synchronisation, mit einem Live-Transkriptions-Tarif, den das Unternehmen als kostenlos bezeichnet. Gebaut für Untertitel, nicht für Cursor-Diktieren.
Notta wandelt Audio und Video in Echtzeit in Text um und nennt Unterstützung für 58 Sprachen mit Übersetzung. Ein Meeting-und-Aufzeichnungs-Tool, cloudbasiert.
Rev und Trint positionieren sich stärker im Bereich aufgezeichneter Medien als beim Cursor-Diktieren. Rev ist vor allem für die Transkription von Meetings und Aufzeichnungen bekannt; Trint wird im Journalismus und in Newsroom-Workflows weit verbreitet für die Arbeit mit aufgezeichneten Interviews eingesetzt. Beide sind Lese-und-Bearbeitungs-Tools, kein Taste-halten-und-in-Ihre-App-tippen-Loop.

Um diese Tools auf Basis nachprüfbarer Fakten gegenüberzustellen – nicht auf Basis erfundener Geschwindigkeits- oder Genauigkeitswerte:

Tool	Plattform	Lokal / Cloud	Offline nutzbar	Preismodell	Sprachen	Am besten für
Whisper by Remskill	Windows, macOS (Apple Silicon)	Lokal + optionale Cloud (BYOK)	Ja, lokaler Modus	Kostenloser lokaler Tarif; kostenpflichtiges Cloud-Add-on	99 (Whisper multilingual) / 25 (Parakeet)	Diktieren am Cursor
Otter	iOS, Android, Web	Cloud	Nein	Kostenloser Tarif + kostenpflichtige Pläne	6	Meeting-Live-Untertitel
Maestra	Web	Cloud	Nein	Kostenloser Live-Tarif + kostenpflichtige Pläne	125+	Untertitel, Synchronisation, Captions
Notta	Web, mobil	Cloud	Nein	Kostenloser Tarif + kostenpflichtige Pläne	58 (laut Anbieter)	Meeting- und Aufzeichnungsnotizen
Windows 11 Live Captions	Windows 11	Lokal (auf dem Gerät)	Ja	Im Betriebssystem enthalten	~21	Bildschirmuntertitel zum Lesen

Echtzeit-Transkriptions-Apps verglichen anhand nachprüfbarer Fakten, nicht erfundener Werte.

Wann Sie Whisper überspringen und ein Meeting-Tool nutzen sollten

Was es kostet

Probieren Sie den Schreib-Loop auf Ihrem eigenen Laptop

Laden Sie Whisper herunter, halten Sie die Taste, sprechen Sie einen Satz, und sehen Sie, wie er dort landet, wo Ihr Cursor bereits ist.

Whisper herunterladen Sehen Sie, wie es funktioniert

Kostenlos über die gesamte lokale Pipeline. Keine Zahlungsmethode bei der Anmeldung.

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – und die Antworten höchstwahrscheinlich selbst diktiert.

Echtzeit-Transkription, erklärt

Was „Echtzeit“ wirklich bedeutet

Taste drücken, Text am Cursor erhalten

Warum Parakeet die schnellste lokale Option ist

Live-Untertitel für Meetings versus Diktieren am Cursor

Die anderen Echtzeit-Transkriptions-Apps, die Sie kennen sollten

Wann Sie Whisper überspringen und ein Meeting-Tool nutzen sollten

Was es kostet

Probieren Sie den Schreib-Loop auf Ihrem eigenen Laptop

Weiterführende Quellen

Häufig gestellte Fragen

Spracheingabe in Word

Das Spracheingabe-Kürzel auf jedem Betriebssystem

Alternative zur Google-Spracheingabe: überall diktieren

Echtzeit-Transkription, erklärt

Was „Echtzeit“ wirklich bedeutet

Taste drücken, Text am Cursor erhalten

Warum Parakeet die schnellste lokale Option ist

Live-Untertitel für Meetings versus Diktieren am Cursor

Die anderen Echtzeit-Transkriptions-Apps, die Sie kennen sollten

Wann Sie Whisper überspringen und ein Meeting-Tool nutzen sollten

Was es kostet

Probieren Sie den Schreib-Loop auf Ihrem eigenen Laptop

Weiterführende Quellen

Häufig gestellte Fragen

Spracheingabe in Word

Das Spracheingabe-Kürzel auf jedem Betriebssystem

Alternative zur Google-Spracheingabe: überall diktieren

Echtzeit-Transkription, erklärt

Was „Echtzeit“ wirklich bedeutet

Taste drücken, Text am Cursor erhalten

Warum Parakeet die schnellste lokale Option ist

Live-Untertitel für Meetings versus Diktieren am Cursor

Die anderen Echtzeit-Transkriptions-Apps, die Sie kennen sollten

Wann Sie Whisper überspringen und ein Meeting-Tool nutzen sollten

Was es kostet

Probieren Sie den Schreib-Loop auf Ihrem eigenen Laptop

Weiterführende Quellen

Häufig gestellte Fragen

Weiterlesen

Spracheingabe in Word

Das Spracheingabe-Kürzel auf jedem Betriebssystem

Alternative zur Google-Spracheingabe: überall diktieren

Echtzeit-Transkription, erklärt

Was „Echtzeit“ wirklich bedeutet

Taste drücken, Text am Cursor erhalten

Warum Parakeet die schnellste lokale Option ist

Live-Untertitel für Meetings versus Diktieren am Cursor

Die anderen Echtzeit-Transkriptions-Apps, die Sie kennen sollten

Wann Sie Whisper überspringen und ein Meeting-Tool nutzen sollten

Was es kostet

Probieren Sie den Schreib-Loop auf Ihrem eigenen Laptop

Weiterführende Quellen

Häufig gestellte Fragen

Weiterlesen

Spracheingabe in Word

Das Spracheingabe-Kürzel auf jedem Betriebssystem

Alternative zur Google-Spracheingabe: überall diktieren