Anleitung
So transkribierst du Interviews
Um ein Interview automatisch zu transkribieren, schickst du die Aufnahme durch ein Speech-to-Text-Werkzeug: eine kostenlose Open-Source-Option wie Buzz oder OpenAI Whisper auf deinem eigenen Rechner, wenn dir Datenschutz wichtig ist, oder einen Cloud-Transkriptionsdienst, wenn du zusätzlich Sprecherkennzeichnung und einen ausgefeilten Editor brauchst. Lokal für kostenlos und privat, Cloud für die Diarisierung.
Zuletzt aktualisiert: Juni 2026

Um ein Interview automatisch zu transkribieren, schickst du die Aufnahme durch ein Speech-to-Text-Werkzeug: eine kostenlose Open-Source-Option wie Buzz oder OpenAI Whisper auf deinem eigenen Rechner, wenn dir Datenschutz wichtig ist, oder einen Cloud-Transkriptionsdienst, wenn du zusätzlich Sprecherkennzeichnung und einen ausgefeilten Editor brauchst. Lokal für kostenlos und privat, Cloud für die Diarisierung.
Ich sage den unangenehmen Teil gleich vorweg, denn das spart dir zehn Minuten. Whisper by Remskill, die App, zu der dieser Blog gehört, transkribiert keine Interview-Aufnahmen. Es ist Live-Diktat: Du hältst eine Tastenkombination gedrückt, sprichst, und die Wörter landen an deiner Cursorposition in jeder App. Das ist eine andere Aufgabe, als ihm eine einstündige Aufnahme von zwei Personen vorzulegen und ein beschriftetes Transkript zurückzubekommen. Diese Anleitung handelt also von den Werkzeugen, die den Interview-Job wirklich erledigen, geschrieben von jemandem, der dich lieber zum richtigen schickt, als so zu tun, als wären wir es.
Ein Interview-Transkript ist aus einem Grund schwieriger, als es klingt: die Sprecher. Ein einfaches Transkriptionswerkzeug gibt dir eine Textwand. Was du normalerweise willst, ist "Interviewer:" und "Befragter:" vor jedem Redebeitrag. Das nennt man Diarisierung, und nicht jedes Werkzeug beherrscht das. Der entscheidende Unterschied ist lokal gegen Cloud. Lokale Werkzeuge laufen auf deinem Laptop, kosten nichts und laden deine Audiodatei nie hoch. Cloud-Dienste laden die Datei hoch, kümmern sich aber meist um die Sprecherkennzeichnung und geben dir einen Editor an die Hand. Unten findest du die ehrliche Übersicht, und danach den Teil, in dem ich dir genau sage, wo wir hineinpassen und wo nicht.
Der kostenlose, private Weg läuft auf deinem eigenen Rechner
Wenn das Interview heikel ist (eine Quelle, die geschützt werden muss, ein Patient, eine interne Führungskraft), sollte die Aufnahme deinen Rechner nie verlassen. Die kostenlosen Open-Source-Werkzeuge transkribieren vollständig auf dem Gerät.
OpenAIs Whisper ist das Modell, auf dem die meisten davon aufbauen. Es steht unter der MIT-Lizenz, du installierst es mit einem einzigen pip-Befehl, und es transkribiert Audiodateien über die Kommandozeile. Es kommt in sechs Größen, vier davon mit reinen Englisch-Varianten, sodass du je nach Hardware Geschwindigkeit gegen Genauigkeit eintauschst. Es ist mehrsprachig und kann Sprache beim Transkribieren sogar ins Englische übersetzen. Der Haken für Interviews: Das Basis-Whisper schreibt die Wörter mit, aber es kennzeichnet nicht, wer sie gesagt hat. Sprecher-Diarisierung braucht zusätzliche Werkzeuge obendrauf oder einen Cloud-Dienst, der sie eingebaut hat.
Wenn dir bei einer Kommandozeile das Auge zuckt, ist Buzz der einfache Knopf. Es ist eine grafische App, die Audio offline auf deinem persönlichen Rechner transkribiert und übersetzt, angetrieben von Whisper, MIT-lizenziert und verfügbar für macOS, Windows und Linux. Aufnahme hineinziehen, Modell wählen, warten, Transkript lesen. Für die meisten, die ein Interview kostenlos transkribieren wollen, ist das der kürzeste Weg.
Zwei weitere lohnen sich zu kennen. whisper.cpp ist ein schlichter C/C++-Port von Whisper, der reine CPU-Leistung nutzt und stark für Apple Silicon optimiert ist: schneller, kein Python, aber du baust es selbst und steuerst es über die Kommandozeile. Und MacWhisper ist eine Mac-App, die um das On-Device-Whisper und NVIDIAs Parakeet herum gebaut ist und mit der Datei-Transkription führt, also genau dem Interview-Anwendungsfall. All diese behalten das Audio auf deinem Rechner. Keines von ihnen liefert dir von sich aus saubere Sprecherkennzeichnungen.
Cloud-Dienste fügen Sprecherkennzeichnung und einen Editor hinzu
Das ist die Weggabelung, an der du entscheidest, was dir dein Datenschutz wert ist. Die spezialisierten Transkriptionsdienste laden deine Aufnahme auf ihre Server, verarbeiten sie und geben dir ein Transkript zurück, das meist die Sprecher benennt und in einen Editor legt, in dem du Namen korrigieren und exportieren kannst. Diese Bequemlichkeit ist real, und für einen öffentlichen Podcast oder eine Podiumsdiskussion, die du ohnehin teilst, ist es das bessere Werkzeug.
Wenn das dein Bedarf ist (Kennzeichnung mehrerer Sprecher, Zeitstempel, eine saubere Bearbeitungsfläche), dann schau dir die etablierte Kategorie der Meeting- und Aufnahme-Transkription an statt einer Diktier-App. Ich habe diese Landschaft im Beitrag zu den Otter.ai-Alternativen und im Beitrag zu den Rev-Alternativen beschrieben; beide decken die Cloud-Werkzeuge ab, die Diarisierung und Bearbeitung ordentlich beherrschen.
Hier ist die Meinung, und sie kommt mit einer Rechnung im Schlepptau. Ein Team, mit dem ich einmal gearbeitet habe, ließ einen Auftragnehmer einen internen Diktier-Prototyp bauen, der für jede Äußerung eine Cloud-KI aufrief. Der Manager öffnete am Ende des Quartals das Kosten-Dashboard und fand eine fünfstellige Zahl, das meiste davon vom viermaligen Re-Transkribieren von Standup-Aufnahmen, weil die Wiederholungslogik zu eifrig war. Die Antwort des CFOs war kurz: Oder wir hören auf, dafür zu bezahlen, Meetings hochzuladen, zu denen es schon Notizen gibt. Das Geld war das kleine Problem. Das größere war, dass nun ein Viertel der internen Gespräche auf den Servern eines Anbieters lag. Cloud-Transkription ist für Sprecherkennzeichnung und Bearbeitung wirklich die richtige Wahl. Sie ist die falsche Wahl für eine Aufnahme, die du nie aus dem Haus geben würdest. Entscheide entlang dieser Achse, nicht entlang des Marketings.
Wie du wählst, in einem Atemzug
Es gibt drei Sorten von Menschen, die auf dieser Seite landen: die Datenschutzbewussten, die Deadline-Getriebenen und die, die einfach Sprechernamen wollen, ohne darüber nachzudenken. Zwei davon sollten lokal gehen.
- Du brauchst es kostenlos und privat — Buzz (am einfachsten) oder Whisper auf deinem eigenen Rechner. Audio wird nie hochgeladen.
- Du brauchst Sprecherkennzeichnung und einen ausgefeilten Editor — einen Cloud-Transkriptionsdienst. Audio wird hochgeladen; das ist der Handel.
- Auf einem Mac, du willst eine Datei-zuerst-App — MacWhisper, auf dem Gerät.
Der ehrliche Tiebreaker: Wenn die Aufnahme heikel ist, lautet die Antwort lokal, Punkt. Wenn es ein öffentlicher Vortrag ist und du willst, dass dir die Diarisierung abgenommen wird, verdient die Cloud ihr Geld. Die meisten Interview-Transkriptionen sind die erste Sorte, weshalb ich mit den kostenlosen lokalen Werkzeugen anfange. Wenn dich die reine Bearbeitungszeit umtreibt, geht die Anleitung zum schnellen Transkribieren von Audio die Stellschrauben für Geschwindigkeit durch.
Wo Whisper by Remskill tatsächlich hineinpasst
Jetzt der Teil, in dem ich die Grenze klar ziehe, denn das schlimmste Ergebnis dieses Artikels wäre, dass du unsere App herunterlädst und erwartest, dass sie sich durch eine Aufnahme arbeitet. Das tut sie nicht. Whisper by Remskill ist diktat-zuerst: Eine Tastenkombination löst deine Live-Sprache aus, die transkribiert und an der Cursorposition eingefügt wird, in welcher App du auch gerade bist. Es gibt keinen "Interview-Datei hochladen"-Knopf, und es gibt keine Sprecher-Diarisierung, weil es für eine Stimme gebaut ist: deine, im Moment.
Wo setzt es ein Interviewer also ein? Rund um das Interview, nicht im Interview. Deine Vorbereitungsfragen in ein Dokument diktieren, bevor du hineingehst. Deine Folgenotizen aussprechen, in der Sekunde, in der das Gespräch endet, solange die Eindrücke frisch sind und deine Hände noch einen Kaffee halten. Den Beitrag per Stimme entwerfen, sobald das Transkript existiert. Die Standard-Tastenkombination unter Windows ist Ctrl+Space, vollständig neu belegbar, und die gesamte lokale Pipeline ist kostenlos für jeden angemeldeten Nutzer, ohne Karte bei der Anmeldung. Es gibt außerdem eine bezahlte Cloud-Stufe, die OpenAI-gestützte Transkription und Websuche fürs Live-Diktat ergänzt, aber auch da geht es darum, mit deiner Stimme zu tippen, nicht eine Zwei-Personen-Aufnahme zu transkribieren.
Nutze es für das Schreiben rund um das Interview. Nutze Buzz oder einen Cloud-Dienst für das Interview selbst. Andere Werkzeuge, andere Aufgaben. Mir ist lieber, du weißt das, bevor du irgendetwas installierst.
Ein letztes Wort
Die meisten transkribierenswerten Interview-Aufnahmen sind genau die, die du am wenigsten hochladen möchtest: die Bemerkung, die nicht für die Öffentlichkeit bestimmt war, die Quelle, die dir vertraut hat, der Patient. Das ist der ganze Grund, warum die kostenlosen lokalen Werkzeuge ihren Platz verdienen, denn die Datei bleibt auf deinem Laptop. Ich habe einmal ein Wochenende damit verbracht, Modelleinstellungen zu justieren, um mein eigenes matschiges Audio zu bereinigen, bevor mir auffiel, dass das eigentliche Problem das Laptop-Mikrofon war, das fünfzehn Zentimeter neben einem Lüfter saß. Ich habe einen Master-Abschluss. Kauf zuerst das Mikrofon.
Und wenn das Transkript fertig ist und es Zeit wird, den Beitrag tatsächlich zu schreiben, dann hört unsere App auf, ein Zuschauer zu sein.
Diktiere den Beitrag, sobald das Transkript existiert
Transkribiere das Interview mit Buzz oder einem Cloud-Dienst. Lade dann Whisper by Remskill herunter und diktiere den Beitrag – den einen Teil des Interview-Workflows, für den wir gebaut wurden. Die lokale Pipeline ist kostenlos, ohne Karte bei der Anmeldung.
Lokales Diktat für immer kostenlos. Keine Zahlungsmethode bei der Anmeldung. Wir transkribieren keine Aufnahmen – nutze dafür ein lokales Werkzeug oder einen Cloud-Dienst.



