Poradnik
Jak transkrybować wywiady
Aby automatycznie transkrybować wywiad, przepuść nagranie przez narzędzie do zamiany mowy na tekst: darmową opcję open source, taką jak Buzz lub OpenAI Whisper, działającą lokalnie na Twoim komputerze dla zachowania prywatności — albo chmurową usługę transkrypcji, gdy potrzebujesz też etykiet głośników i wygodnego edytora. Lokalne rozwiązanie: bezpłatne i prywatne; chmura: diaryzeacja.
Ostatnia aktualizacja: czerwiec 2026

Aby automatycznie transkrybować wywiad, przepuść nagranie przez narzędzie do zamiany mowy na tekst: darmową opcję open source, taką jak Buzz lub OpenAI Whisper, działającą lokalnie na Twoim komputerze dla zachowania prywatności — albo chmurową usługę transkrypcji, gdy potrzebujesz też etykiet głośników i wygodnego edytora. Lokalne rozwiązanie: bezpłatne i prywatne; chmura: diaryzacja.
Zacznę od rzeczy niewygodnej, bo zaoszczędzi Ci to dziesięć minut. Whisper by Remskill — aplikacja, do której należy ten blog — nie transkrybuje nagrań wywiadów. To narzędzie do dyktowania na żywo: trzymasz skrót klawiszowy, mówisz, a słowa pojawiają się w kursorbem w dowolnej aplikacji. To zupełnie inne zadanie niż podanie mu godzinnego nagrania dwóch osób i oczekiwanie na oznakowany transkrypt. Ten poradnik dotyczy narzędzi, które naprawdę wykonują tę robotę — napisany przez kogoś, kto woli odesłać Cię do właściwego narzędzia, niż udawać, że nim jesteśmy.
Transkrypt wywiadu jest trudniejszy niż się wydaje z jednego powodu: głośnicy. Zwykłe narzędzie do transkrypcji daje Ci ścianę tekstu. Zazwyczaj chcesz mieć "Prowadzący:" i "Rozmówca:" przed każdą wypowiedzią. To się nazywa diaryzacja i nie każde narzędzie ją obsługuje. Kluczowy podział to lokalne kontra chmura. Lokalne narzędzia działają na Twoim laptopie, nic nie kosztują i nigdy nie wysyłają dźwięku. Usługi chmurowe przesyłają plik, ale zazwyczaj radzą sobie z etykietami głośników i dają Ci edytor. Poniżej znajdziesz rzetelną mapę, a potem część, w której powiem dokładnie, gdzie my się wpisujemy — i gdzie nie.
Darmowa, prywatna metoda — działa na Twoim własnym komputerze
Jeśli wywiad jest wrażliwy (źródło wymagające ochrony, pacjent, wewnętrzny menedżer), nagranie nie powinno nigdy opuszczać Twojego komputera. Darmowe narzędzia open source transkrybują w całości lokalnie.
Whisper od OpenAI to model, na którym opiera się większość tych narzędzi. Jest wydany na licencji MIT, instalujesz go jednym poleceniem pip i transkrybuje pliki audio z linii poleceń. Dostępny jest w sześciu rozmiarach, z czego cztery mają warianty wyłącznie anglojęzyczne — rezygnujesz z szybkości na rzecz dokładności w zależności od sprzętu. Jest wielojęzyczny i potrafi nawet tłumaczyć mowę na angielski podczas transkrypcji. Haczyk przy wywiadach: podstawowy Whisper zapisuje słowa, ale nie oznacza, kto je powiedział. Diaryzacja głośników wymaga dodatkowych narzędzi albo usługi chmurowej, która ma ją wbudowaną.
Jeśli na sam widok wiersza poleceń dostajesz dreszczy, Buzz jest właściwym wyborem. To graficzna aplikacja, która transkrybuje i tłumaczy audio offline na Twoim komputerze, napędzana przez Whisper, wydana na licencji MIT i dostępna na macOS, Windows i Linux. Wrzucasz nagranie, wybierasz model, czekasz i czytasz transkrypt. Dla większości osób transkrybujących wywiady za darmo — to najkrótsza droga.
Dwa inne narzędzia warte uwagi. whisper.cpp to port Whisper w czystym C/C++, działający wyłącznie na CPU, mocno zoptymalizowany pod Apple Silicon: szybszy, bez Pythona, ale budujesz go i obsługujesz z linii poleceń. MacWhisper to aplikacja na Maca zbudowana wokół lokalnego Whisper i Parakeet od NVIDIA, skupiona na transkrypcji plików — dokładnie ten przypadek użycia co wywiad. Wszystkie te narzędzia trzymają audio na Twoim komputerze. Żadne z nich, samo w sobie, nie da Ci czystych etykiet głośników.
Usługi chmurowe dodają etykiety głośników i edytor
To jest moment, w którym decydujesz, ile warta jest Twoja prywatność. Dedykowane usługi transkrypcji przesyłają nagranie na swoje serwery, przetwarzają je i oddają Ci transkrypt, który zazwyczaj oznacza głośników i wrzuca wszystko do edytora, gdzie możesz poprawić nazwy i wyeksportować wynik. To wygoda jak najbardziej realna — i przy publicznym podcastcie czy panelu dyskusyjnym, którym i tak się dzielisz, to lepsze narzędzie.
Jeśli tego właśnie potrzebujesz (etykiety wielu głośników, znaczniki czasu, wygodna powierzchnia do edycji), sięgnij po dedykowaną kategorię usług transkrypcji spotkań i nagrań, a nie po aplikację do dyktowania. Opisałem ten krajobraz w artykule Alternatywy dla Otter.ai oraz w Alternatywach dla Rev — oba omawiają chmurowe narzędzia, które robią diaryzację i edycję jak należy.
Czas na opinię — i rachunek, który za nią idzie. Zespół, z którym kiedyś pracowałem, zlecił kontrahentowi zbudowanie wewnętrznego prototypu dyktowania, który wywoływał chmurowe AI przy każdej wypowiedzi. Menedżer otworzył panel kosztów na koniec kwartału i znalazł liczbę pięciocyfrową — większość pochodziła z wielokrotnego transkrybowania nagrań ze standupów, bo logika ponowień była zbyt agresywna. Reakcja CFO była krótka: albo przestaniemy płacić za wysyłanie spotkań, z których mamy już notatki. Pieniądze były mniejszym problemem. Większym było to, że ćwierć wewnętrznych rozmów mieszkała teraz na serwerach zewnętrznego dostawcy. Chmurowa transkrypcja jest naprawdę dobrym wyborem przy etykietach głośników i edycji. Jest złym wyborem przy nagraniu, które nie powinno opuścić firmowych murów. Wybieraj według tej osi — nie według marketingu.
Jak wybrać — w jednym zdaniu
Na tę stronę trafiają trzy typy osób: dbający o prywatność, goniący za terminem i ci, którzy po prostu chcą nazwy głośników bez zastanawiania się. Dwoje z nich powinno wybrać rozwiązanie lokalne.
- Potrzebujesz czegoś darmowego i prywatnego — Buzz (najłatwiejsze) albo Whisper na własnym komputerze. Audio nigdy nie trafia do sieci.
- Potrzebujesz etykiet głośników i dopracowanego edytora — chmurowa usługa transkrypcji. Audio jest przesyłane — to jest ten kompromis.
- Na Macu, chcesz aplikacji skupionej na plikach — MacWhisper, lokalnie.
Uczciwy tiebreaker: jeśli nagranie jest wrażliwe, odpowiedź brzmi — lokalnie, bez dyskusji. Jeśli to publiczna rozmowa i chcesz diaryzacji podanej na tacy, chmura zasługuje na swoją cenę. Większość transkrypcji wywiadów to ten pierwszy przypadek, dlatego zaczynam od darmowych lokalnych narzędzi. Jeśli martwisz się o szybkość realizacji, poradnik o szybkiej transkrypcji audio przeprowadzi Cię przez dostępne ustawienia.
Gdzie Whisper by Remskill naprawdę się sprawdza
Teraz część, w której wyznaczam linię wyraźnie — bo najgorszym efektem tego artykułu byłoby pobranie przez Ciebie naszej aplikacji z oczekiwaniem, że przeprocesuje nagranie. Nie zrobi tego. Whisper by Remskill to narzędzie dyktowania: skrót klawiszowy uruchamia Twój żywy głos, który jest transkrybowany i wklejany w miejscu kursora w dowolnej aplikacji. Nie ma przycisku „wgraj plik z wywiadem” ani diaryzacji głośników — bo aplikacja jest zbudowana dla jednego głosu: Twojego, w danej chwili.
Gdzie więc dziennikarz może jej użyć? Wokół wywiadu, nie podczas niego. Dyktowanie pytań przygotowawczych do dokumentu przed wejściem na rozmowę. Mówienie notatek uzupełniających sekundy po zakończeniu rozmowy, gdy wrażenia są świeże, a Ty masz jeszcze kawę w ręku. Dyktowanie tekstu artykułu, gdy transkrypt już istnieje. Domyślny skrót na Windows to Ctrl+Space, w pełni do zmiany; cały lokalny pipeline jest darmowy dla każdego zalogowanego użytkownika bez karty przy rejestracji. Jest też płatny poziom chmurowy, który dodaje transkrypcję opartą na OpenAI i wyszukiwanie w sieci do dyktowania na żywo — ale to nadal chodzi o pisanie głosem, nie o transkrypcję nagrania dwóch osób.
Używaj jej do pisania wokół wywiadu. Do samego wywiadu używaj Buzz lub usługi chmurowej. Różne narzędzia, różne zadania. Wolę, żebyś to wiedział, zanim cokolwiek pobierzesz.
Na koniec
Większość nagrań wywiadów wartych transkrybowania to te, które najmniej chciałbyś wysyłać: poufna uwaga na marginesie, informator, który Ci zaufał, pacjent. Właśnie dlatego darmowe lokalne narzędzia mają swoje miejsce — plik zostaje na laptopie. Kiedyś spędziłem weekend na strojeniu ustawień modelu, by oczyścić własne mętne nagranie, zanim zauważyłem, że prawdziwym problemem był mikrofon laptopa siedzący piętnaście centymetrów od wentylatora. Mam tytuł magistra. Najpierw kup mikrofon.
A kiedy transkrypt jest gotowy i czas zabrać się za pisanie — to wtedy nasza aplikacja przestaje być widzem.
Podyktuj artykuł, gdy transkrypt już istnieje
Transkrybuj wywiad przez Buzz lub usługę chmurową. Potem pobierz Whisper by Remskill i podyktuj tekst — to jedyna część obiegu pracy dziennikarskiej, do której zostaliśmy zbudowani. Lokalny pipeline jest darmowy, bez karty przy rejestracji.
Darmowe dyktowanie lokalne na zawsze. Bez metody płatności przy rejestracji. Nie transkrybujemy nagrań — do tego użyj lokalnego narzędzia lub usługi chmurowej.



