Von Denys Medvediev

Vergleich

Die ehrliche Aqua-Voice- Alternative

Aqua Voice ist eine Cloud-Diktier-App für Mac, Windows und iPhone, die deine Sprache in Echtzeit in jede App tippt und dabei Grammatik und Formatierung gleich mitkorrigiert. Die stärkste datenschutzfreundliche Alternative ist Whisper by Remskill: Die lokale Verarbeitung läuft offline, kostenlos und schickt dein Audio nie irgendwohin.

Zuletzt aktualisiert: Juni 2026

Ein Studio-Kondensatormikrofon auf einem Schreibtisch in warmem, gedämpftem Licht, das an Offline-Spracherkennung erinnert

Lass mich den Interessenkonflikt gleich auf den Tisch legen. Das hier ist ein Vergleich, und eines der beiden Dinge darin habe ich selbst gebaut. Also werde ich Aqua Voice loben, wo es Lob verdient – und das ist häufiger der Fall, als du es vom Blog eines Mitbewerbers erwarten würdest –, und ich werde genau benennen, an welcher einen Stelle wir wirklich gewinnen.

Whisper by Remskill ist eine datenschutzfreundliche Aqua-Voice-Alternative, deren komplette lokale Verarbeitung offline und für immer kostenlos läuft – ohne Wortlimit und ohne Zahlungsmittel bei der Anmeldung. Aqua Voice arbeitet in Echtzeit, ist ausgefeilt und schleift deine Sprache in der Cloud, während du sprichst. Der entscheidende Unterschied steckt in einem Wort: Cloud.

Was dieser Vergleich ist – und wer ihn geschrieben hat

Die nüchterne Wahrheit ist: Aqua Voice kann das, wofür es gemacht ist, gut. Es arbeitet in Echtzeit, ist ausgefeilt und verarbeitet jedes Wort, während du sprichst, korrigiert Formulierungen und Grammatik im Vorbeigehen. Wenn du schon dafür zahlst und zufrieden bist, kannst du diesen Tab wahrscheinlich schließen. Es gibt gegen Ende einen ganzen Abschnitt, der dir genau sagt, wann du dabeibleiben solltest.

Für alle, die noch dabei sind, steckt der Unterschied in einem Wort: Cloud. Aqua schickt dein Audio an seine Server, um diese Echtzeit-Magie zu erledigen. Wir machen das auf deinem Laptop, kostenlos, und das Audio verlässt den Raum nie.

Das ist das ganze Argument, und ich werde den Rest des Artikels darauf verwenden, es zu zeigen statt es zu behaupten. Keine erfundenen Bewertungszahlen, keine erdachten Nutzerzahlen. Nur zwei Funktionslisten und eine Tabelle, die du auf beiden Startseiten nachprüfen kannst.

Was Aqua Voice tatsächlich kann

Aqua Voice läuft auf Mac und Windows, dazu gibt es eine iPhone-App. Es diktiert live und in Echtzeit und fügt sich in jede App ein, die du schon nutzt, ganz ohne Einrichtungsritual. Drücken, sprechen, und geschliffener Text erscheint. Genau dieses Schleifen ist das Verkaufsargument: Es korrigiert Grammatik, glättet Formulierungen und formatiert, während du sprichst.

Unter der Haube steckt eine proprietäre Cloud-Engine. Im Marketing heißt sie Avalon in der kostenpflichtigen Stufe und Aqua Engine in der kostenlosen, und es gibt keine offenen Gewichte, in die man hineinschauen könnte. Sie versteht 49 Sprachen. Das ist eine echte Zahl auf einer echten Startseite, und ich werde sie nicht kleinreden.

Beim Umgang mit Daten ist Aqua sorgfältiger als die meisten Cloud-Tools. Die eigene Website sagt, dass in den Stufen Starter und Pro nichts auf ihren Servern gespeichert wird, wobei Zero Data Retention dem Enterprise-Tarif vorbehalten ist. Das ist eine faire Richtlinie. Es ist aber eben immer noch eine Richtlinie. Dein Audio verlässt deinen Rechner, reist in ihre Cloud, wird transkribiert und kommt zurück. Du vertraust einem Versprechen statt der Physik.

Es gibt eine kostenlose Starter-Stufe mit einem Limit von 1.000 Wörtern, dann einen jährlich abgerechneten Pro-Tarif, einen Team-Tarif und Enterprise. Ich nenne hier keine Zahlen, denn Preisseiten ändern sich, und du solltest ihre und unsere direkt an der Quelle lesen. Worauf es ankommt, ist die Form: Die kostenlose Stufe läuft aus, und alles danach ist ein Abo.

Was du außerdem mit Whisper by Remskill bekommst

Jetzt der Teil, in dem ich das beschreibe, was ich gebaut habe, und dich dann über die Tabelle urteilen lasse. Whisper by Remskill sind zwei Produkte auf einem Tastenkürzel. Die kostenlose Stufe ist die komplette lokale Verarbeitung. Du bekommst die 8 Whisper-Transkriptionsmodelle, die Parakeet-Engine, vollständig offline laufende KI-Nachbearbeitung über Ollama, Transkriptionsverlauf, Presets, Hotwords, Hardwarebeschleunigung, Modell-Downloads und ein eigenes Tastenkürzel. Kein Zahlungsmittel bei der Anmeldung und kein Wortlimit. Du legst ein Konto an, lädst die App herunter, drückst das Tastenkürzel und sprichst.

Whisper
Die echte Whisper-by-Remskill-App – Seitenleiste, Transkriptionspanel und KI-Anweisungskarten. Das ist die echte Oberfläche, kein Screenshot.

Du wählst deine lokale Engine danach, was du brauchst, nicht danach, was wir dir aufdrängen. Whisper bietet dir 99 Sprachen, Übersetzung ins Englische, eigenes Vokabular, Steuerung der Beam-Größe und Hotword-Gewichtung – alles auf Kosten der Geschwindigkeit. Parakeet ist die NVIDIA-TDT-Engine, rund 600 MB groß, und läuft auf einer CPU 5- bis 10-mal schneller als Whisper; es deckt Englisch plus 24 weitere europäische Sprachen ab. Nimm Parakeet für Tempo und Englisch. Nimm Whisper für Sprachen, Übersetzung oder feine Kontrolle. Keines von beiden ist Standard. Das entscheidest du.

Die lokale Genauigkeit liegt typischerweise zwischen 95 % und 99 %, und alles läuft auf deiner CPU, ganz ohne GPU. Die App selbst belegt rund 25 MB auf der Festplatte. All das passiert auf deinem Rechner. Kein Hin und Her, keine Server, kein Versprechen, dem man vertrauen muss.

Wenn du die Cloud willst, haben wir die auch – und zwar mit deinem eigenen Schlüssel. Die Pro-Stufe ergänzt OpenAI-Cloud-Transkription. Du fügst deinen eigenen OpenAI-Schlüssel ein und wählst das Modell: gpt-4o-mini-transcribe für etwa $0.003 pro Minute oder gpt-4o-transcribe für höhere Qualität. Die KI-Verbesserung läuft standardmäßig auf gpt-5-mini, und es gibt außerdem eine Websuche direkt an deinem Cursor über OpenAIs Responses API. Wir nehmen keinen Aufschlag auf OpenAIs Tarif. Dein Schlüssel, deine Rechnung – die Pro-Zahlen findest du auf der Preisseite.

Die Plattform-Geschichte ist der ehrliche Teil. Windows und macOS auf Apple Silicon sind beide heute verfügbar. Es gibt keine iPhone-App, keine iPad-App, kein Android. Wenn du von deinem Handy aus diktierst, ist Aqua hier klar im Vorteil.

Aqua Voice vs. Whisper by Remskill, direkt nebeneinander

Die Tabelle, die sonst niemand mit echten Zeilen zu füllen scheint. Keine Zahlen darin – die findest du auf beiden Preisseiten.

Funktionsvergleich zwischen Aqua Voice und Whisper by Remskill
FunktionAqua VoiceWhisper by Remskill
PlattformenMac, Windows, iOSMac (Apple Silicon) und Windows; keine Mobil-App
Wo das Audio verarbeitet wirdCloud; das Audio verlässt deinen RechnerAuf deinem Rechner, offline
Kostenlose StufeKostenlos bis 1.000 WörterKomplette lokale Verarbeitung für immer kostenlos, kein Wortlimit
Funktioniert ohne InternetNein, es ist cloudbasiertJa, in der lokalen Verarbeitung vollständig offline
EngineProprietäre Cloud (Avalon / Aqua Engine), keine offenen Gewichte8 Whisper-Modelle + Parakeet, offene Modelle
Eigener OpenAI-SchlüsselNicht möglichJa – Cloud läuft mit deinem eigenen Schlüssel, ohne Aufschlag
Sprachen4999 mehrsprachig mit Whisper, 25 mit Parakeet
Übersetzung ins EnglischeNicht angegebenJa, bei den Whisper-Modellen
Echtzeit-Schliff beim SprechenJa; das AushängeschildNachbearbeitung läuft nach der Äußerung, über Ollama oder Cloud-KI
Diktieren am HandyJa – iPhoneKeine Mobil-App
PreismodellAbo nach Überschreiten des GratislimitsLokal kostenlos; optional Pro für die Cloud

Ein paar ehrliche Beobachtungen zu dieser Tabelle. Aquas Echtzeit-Schliff ist wirklich elegant, seine 49 Sprachen decken das meiste ab, was Menschen diktieren, und es liefert eine Mobil-App, die wir nicht haben. Das sind keine kleinen Punkte. Überall dort, wo es in der Zeile um Offline-Betrieb, Datenschutz, die kostenlose lokale Verarbeitung oder die Sprachanzahl geht, läuft das Gefälle in die andere Richtung.

Dass dein Audio den Rechner nie verlässt, ist der ganze Punkt

Genau das wollen die meisten hier vergleichen, also werde ich konkret. Aquas Datenrichtlinie ist gut. Sie besagt, dass in den Verbraucher-Stufen nichts auf den Servern gespeichert wird. Ich glaube ihnen. Aber „wir speichern es nicht“ ist nicht dasselbe wie „es hat den Rechner nie verlassen“. Dein Audio reist trotzdem in eine Cloud, um transkribiert zu werden, denn so funktioniert eine Cloud-Engine. Bei der lokalen Verarbeitung von Whisper by Remskill ist überhaupt kein Server im Spiel. Das Modell lädt in deinen Arbeitsspeicher, dein Mikrofon speist es, und der Text erscheint: im Flugzeug im Flugmodus, in einem abhörsicheren Raum, in einem Zug mitten im Tunnel. Du vertraust keinem Versprechen. Es gibt nichts zu versprechen.

Pasted
Das ausgelieferte Overlay nach dem Diktat – so sieht es aus, wenn ein kostenloses, vollständig offline laufendes lokales Diktat im selben Moment fertig wird.

Hier ist die eine Meinung, die ich mir in diesem Artikel leiste. Reine Cloud-Diktiersoftware ist ein Datenschutz-Desaster, das nur darauf wartet, transkribiert zu werden. Die Gehaltstabelle deines Chefs, die E-Mail an die Schule deines Kindes, der Schriftsatz, an dem du im Zug arbeitest: Nichts davon sollte deinen Laptop verlassen, nur weil du mit deiner Stimme tippen wolltest. Ein Team, mit dem ich einmal zusammengearbeitet habe, ließ von einem Auftragnehmer einen internen Cloud-Diktier-Prototyp bauen, der bei jeder Äußerung eine KI-API aufrief. Er transkribierte dieselben Standup-Aufnahmen viermal, weil die „smarte Wiederholungslogik“ zu eifrig war. Am Quartalsende öffnete der Manager das Cloud-Kosten-Dashboard und fand eine fünfstellige Rechnung. Die Lösung des Auftragnehmers war: „Lass uns den Prompt optimieren.“ Die Lösung des Finanzchefs war: „Oder wir hören auf, Meetings, von denen wir längst Notizen haben, an einen Server zu schicken.“ Lokal zuerst war die günstigere Antwort und die datenschutzfreundlichere – im selben Satz.

Dein Laptop hat bereits ein Mikrofon und eine CPU. Er braucht keinen Server im Spiel, um einen Absatz zu tippen. Die Cloud ist ein großartiger Notausgang und ein seltsamer Standard.

Wann du bei Aqua Voice bleiben solltest

Dieser Abschnitt rechtfertigt den Rest des Artikels. Es gibt echte Gründe zu bleiben, und ich tue nicht so, als gäbe es sie nicht.

Du willst ein rundum verwaltetes Cloud-Erlebnis und legst keinen Wert auf Offline-Betrieb

Das ist der große Punkt. Aqua arbeitet in Echtzeit, ist gehostet und erfordert keine Einrichtung. Wenn es dich nicht stört, dass dein Audio kurz auf dem Server eines Anbieters liegt, und du lieber kein Modell herunterladen oder über Engines nachdenken möchtest, ist das verwaltete Cloud-Erlebnis tatsächlich reibungsärmer. Behalte das, was funktioniert.

Du willst gezielt die Echtzeit-Formatierung

Aqua schleift Formulierungen und korrigiert Grammatik, während du sprichst, im Moment selbst, bevor der Text ankommt. Unsere Nachbearbeitung läuft nach der Äußerung statt mitten im Satz. Wenn dieser Live-Schliff Wort für Wort die Funktion ist, in die du dich verliebt hast: Aqua macht das, und wir machen es anders.

Du diktierst von deinem Handy

Aqua liefert eine iPhone-App. Wir liefern für Windows und Mac auf Apple Silicon, und eine Mobil-App steht nicht auf unserer Roadmap. Wenn dein tägliches Diktat am Handy stattfindet, brauchst du ihr Tool.

Für alle anderen – freie Autorinnen und Autoren, Marketing-Leute, Vertrieblerinnen und Vertriebler, Studierende, Eltern, die die E-Mail einer Lehrerin beim Kochen beantworten, kurz: alle, deren Worte den Raum nicht verlassen sollten – fang mit unserer kostenlosen lokalen Stufe an und schau, ob du überhaupt jemals an eine Grenze stößt. Es gibt kein Wortlimit, und Internet ist nicht nötig.

Wenn du dir nur eine Sache merkst

Die meisten Diktier-Vergleiche enden damit, dir zu raten, deinen Workflow zu revolutionieren. Dieser endet kleiner. Was Sprachtippen löst, ist die Lücke zwischen „etwas zu sagen haben“ und „es ins Dokument bekommen“. Aqua schließt diese Lücke in Echtzeit, in der Cloud, und stellt nach dem Gratislimit etwas in Rechnung. Wir schließen sie auf deinem Rechner, offline, mit dem lokalen Teil kostenlos. Wenn deine Worte auf dem Server eines anderen leben dürfen, ist Aqua eine gute Wahl. Wenn sie das nicht dürfen – oder du es einfach lieber nicht hättest –, ist genau das die Linie, für die wir gebaut wurden.

Wenn du die ausführlichere Version dieses Arguments willst, ich habe sie in unserem Beitrag über Offline-Spracherkennung aufgeschrieben, und es gibt außerdem unseren Vergleich der superwhisper-Alternative, falls du lokale Optionen abwägst.

Probiere zuerst die kostenlose lokale Verarbeitung

Lade Whisper by Remskill herunter, lege ein Konto ohne Karte an, drücke das Tastenkürzel und diktiere. Dein Audio bleibt auf deinem Rechner, und wenn du die Cloud-Stufe nie brauchst, zahlst du nie.

Lokale Transkription für immer kostenlos, vollständig offline. Kein Zahlungsmittel bei der Anmeldung. Die 7-tägige Cloud-Testphase fragt erst beim Upgrade nach einer Karte.

Foto von Denys Medvediev

Denys Medvediev

Ich bin derjenige, der unsere Support-E-Mails liest – höchstwahrscheinlich, indem ich die Antworten diktiere.

Weiterlesen