Poradnik
Audio na napisy: co naprawdę działa
Generator napisów z audio zamienia plik dźwiękowy w zsynchronizowany plik SRT lub VTT. Oto realny przepływ pracy, narzędzia, które faktycznie eksportują taki plik, oraz darmowa opcja offline, która nigdy nie wysyła Twojego audio w sieć.
Ostatnia aktualizacja: czerwiec 2026

Generator napisów z audio bierze plik dźwiękowy — MP3, WAV albo eksport podcastu — i zapisuje zsynchronizowany plik napisów. Każda linia tekstu ma znacznik czasu początku i końca. Narzędzia webowe, takie jak VEED, Kapwing czy Descript, robią to w przeglądarce. Darmowe narzędzie wiersza poleceń OpenAI Whisper robi to samo offline, na Twoim własnym komputerze.
Kiedyś spędziłem czterdzieści minut na ręcznym dodawaniu napisów do dziesięciominutowego fragmentu podcastu — zatrzymując co trzy sekundy, żeby wpisać tekst i zgadywać znaczniki czasu. Mam magisterium z inżynierii oprogramowania. Matematyka jest bezlitosna w obu przypadkach. Ręczne dodawanie napisów zajmuje wielokrotność długości nagrania. Nowoczesny generator napisów wykonuje to samo zadanie mniej więcej w czasie trwania pliku plus kubek kawy. Haczyk, o którym nikt nie mówi na początku, jest taki: właściwe narzędzie zależy od jednego pytania. Czy potrzebujesz zsynchronizowanego pliku do pobrania, czy wystarczą Ci same słowa?
"Generator napisów" bywa używany do dwóch różnych zadań, a złe narzędzie kosztuje Cię całe popołudnie. Rynek dzieli się na narzędzia przeglądarkowe, które eksportują zsynchronizowane pliki, oraz narzędzia offline, które robią to samo za darmo — o ile nie boisz się terminala. Ten przewodnik opisuje, jak przebiega praca, które narzędzia generują prawdziwy plik .srt wyłącznie z audio, co oznaczają formaty SRT, VTT i TXT, oraz kiedy aplikacja do dyktowania — taka jak nasza — jest złym wyborem. Na końcu będziesz wiedzieć, które narzędzie otworzyć dla swojego zadania. Większość zamieszania, jakie czytam w skrzynce supportu, pochodzi od osób, które wybrały narzędzie do pisania, kiedy potrzebowały pliku napisów. Rok takich wiadomości to główny powód, dla którego ten artykuł w ogóle powstał.
Potrzebujesz znaczników czasu, nie tylko tekstu
Plik napisów to nie transkrypt. Transkrypt to słowa. Plik napisów to słowa plus synchronizacja czasowa. Każdy blok napisów mówi: "wyświetl tę linię od 00:01:04 do 00:01:07". Ta synchronizacja to sedno całego zadania. Dzięki niej odtwarzacz wideo pokazuje właściwe słowa na ekranie dokładnie w odpowiedniej sekundzie.
Większość narzędzi "zamiany mowy na tekst" — włącznie z naszym — daje Ci wyłącznie słowa. Wklejają czysty akapit w miejsce kursora i na tym kończą. Generator napisów z audio musi zrobić więcej. Dzieli mowę na krótkie fragmenty odpowiedniej długości, synchronizuje każdy fragment z zegarem audio i zapisuje to wszystko w ściśle określonym formacie pliku, który odtwarzacz potrafi odczytać. Jeśli Twoim efektem końcowym jest plik do wgrania na YouTube, do edytora wideo lub na platformę kursów, potrzebujesz znaczników czasu. Jeśli Twoim efektem jest tekst w dokumencie — nie potrzebujesz, i nie powinieneś płacić za narzędzie do napisów, żeby go uzyskać.
Jak wygenerować napisy z pliku audio w trzech krokach

Przepływ pracy jest niemal identyczny w każdym narzędziu — przeglądarkowym i offline.
Wgraj plik audio lub wskaż jego lokalizację. Większość narzędzi obsługuje MP3, WAV, M4A i FLAC — wideo nie jest wymagane. VEED przyjmuje MP3, WAV, nagrania podcastów, audio z wywiadów i notatki głosowe. Jeśli masz tylko wideo, narzędzie samo wyodrębni z niego dźwięk.
Pozwól, żeby transkrybowało i synchronizowało mowę. Narzędzie przepuszcza audio przez model mowy, tnie wynik na linie odpowiedniej długości i przypisuje każdej z nich czas początku i końca. Wersja ręczna zajmuje wielokrotność długości nagrania. Wersja maszynowa trwa mniej więcej tyle, co sam plik.
Przejrzyj i wyeksportuj plik. Przeczytaj transkrypt raz (wynik modelu jest dobry, ale nie bezbłędny), popraw błędnie rozpoznane nazwy własne, a następnie wyeksportuj. Tu wybierasz format: SRT, VTT lub zwykły TXT.
Tyle i aż tyle. Różnice między narzędziami sprowadzają się do ceny, obsługiwanych języków, miejsca, w które trafia Twoje audio, oraz tego, czy trzeci krok jest bezpłatny.
SRT vs VTT vs TXT: którego pliku potrzebujesz
W każdym menu eksportu pojawiają się trzy formaty, a ludzie nagminnie wybierają zły.
- SRT (SubRip) to domyślny format pliku napisów. Jest to zwykły plik tekstowy złożony z ponumerowanych bloków — każdy zawiera zakres czasowy i jedną lub dwie linie tekstu. Odczytują go YouTube, większość edytorów wideo i niemal każdy odtwarzacz. Jeśli nie wiesz, co wybrać — wybierz SRT.
- VTT (WebVTT) to webowy kuzyn SRT. Ten sam pomysł, nieco inna składnia, plus obsługa stylowania i pozycjonowania. Użyj VTT, gdy platforma internetowa lub odtwarzacz HTML5 wyraźnie o niego prosi.
- TXT to same słowa, bez znaczników czasu. Ten format wybierasz, gdy piszesz artykuł, tworzysz streszczenie lub cytujesz wywiad. To również jedyny z trzech formatów, który zwykłe narzędzie do dyktowania jest w stanie Ci dać.
Moja zasada kciuka: SRT do wideo, TXT do dokumentów, VTT gdy platforma webowa tego wymaga. Większość narzędzi eksportuje wszystkie trzy: VEED, Kapwing i Descript.
Narzędzia, które zamieniają audio na pliki napisów
Oto przegląd narzędzi przeglądarkowych — opisy możliwości pochodzą bezpośrednio ze stron każdego z nich.
- VEED to generator napisów działający w przeglądarce i aplikacji mobilnej, który transkrybuje z pliku wyłącznie dźwiękowego i pozwala pobrać wynik jako SRT, VTT lub TXT. Użytkowanie jest bezpłatne na start. Pobieranie pliku napisów i dodawanie napisów do dłuższych filmów wymaga przejścia na płatny plan.
- Kapwing reklamuje "99% dokładności napisów, generowanych w sekundy". To własna liczba marketingowa Kapwing, nie niezależny test porównawczy. Narzędzie przyjmuje dowolny plik wideo lub audio — w tym MP3, potrafi tłumaczyć napisy na ponad 100 języków i eksportuje SRT, VTT oraz TXT. Darmowe konta mają limit 10 minut napisów i znak wodny; plan Pro usuwa znak wodny.
- Descript generuje napisy w ponad 22 językach, przyjmuje pliki wyłącznie dźwiękowe i eksportuje miękkie napisy jako SRT lub VTT — przez Publish, następnie Export, następnie Subtitles. Działa w modelu freemium z bezpłatnym progiem jednej godziny mediów miesięcznie.
Oto jak te cztery narzędzia wypadają pod względem parametrów, które możesz sprawdzić przed podjęciem decyzji. Bez liczb dotyczących dokładności ani szybkości, bo nikt nie porównał ich na tym samym materiale audio:
| Narzędzie | Platforma | Lokalnie lub w chmurze | Działa offline | Model cenowy | Języki | Najlepsze do |
|---|---|---|---|---|---|---|
| VEED | Web, mobile | Chmura | Nie | Darmowy start, eksport płatny | Ponad 40 opcji, bez podanego łącznego limitu | Szybka obróbka w przeglądarce z możliwością pobrania |
| Kapwing | Web | Chmura | Nie | Plan darmowy (znak wodny), Pro | Tłumaczy na ponad 100 języków | Szybkie napisy i tłumaczenie w jednym |
| Descript | Web | Chmura | Nie | Freemium, jedna godzina mediów za darmo | 22+ | Jednoczesna edycja audio i napisów |
| OpenAI Whisper CLI | Windows, macOS, Linux | Lokalne | Tak | Darmowe, open source | 99 wielojęzycznych, 1 dla wariantów .en | Za darmo, prywatnie, bez wgrywania pliku |
Wszystkie trzy narzędzia przeglądarkowe wysyłają Twoje audio na cudzy serwer. Do klipu marketingowego — spoko. Do nagranej rozmowy z klientem lub czegokolwiek, w czym padają widełki wynagrodzenia — czytaj dalej.
Te narzędzia mają zbliżony interfejs, który wygląda mniej więcej tak:
Wgraj, kliknij generuj, wybierz format, pobierz. Ten pasek — nie nasz — to właśnie wygląd generatora napisów z audio.
Za darmo i offline: generowanie SRT z open-source'owym Whisper

Jeśli wolisz nic nie wgrywać, narzędzie wiersza poleceń OpenAI Whisper open-source zapisuje pliki napisów na Twoim własnym komputerze — za darmo. Flaga --output_format przyjmuje wartości txt, vtt, srt, tsv, json lub all, a domyślnie ustawiona jest na all. Jedno polecenie — whisper interview.mp3 --model turbo — produkuje plik .srt offline, bez konta i bez wysyłania czegokolwiek.
Warto być precyzyjnym: open-source Whisper to inny projekt niż Whisper by Remskill. To narzędzie wiersza poleceń OpenAI, które działa na Twoim komputerze i generuje zsynchronizowane pliki napisów. Dostępne jest w sześciu rozmiarach modelu (tiny, base, small, medium, large i turbo), z wariantami wyłącznie anglojęzycznymi dla czterech mniejszych. Modele wielojęzyczne obsługują 99 języków; warianty .en — tylko angielski.
Powiem wprost i stanę przy tym zdaniu: dla wszystkiego, co wrażliwe, audio nigdy nie powinno opuszczać Twojego laptopa. Nagrana ocena pracownicza, podyktowane notatki lekarza, zeznanie prawne — żadna z tych rzeczy nie należy do logów przetwarzania u zewnętrznego dostawcy tylko dlatego, że potrzebowałeś znaczników czasu.
Byłem świadkiem, jak jeden zespół w ciągu jednego kwartału nabił rachunek cloud-AI o pięciocyfrowej wartości za transkrypcję nagrań ze standupów. Reakcja CFO na kolejnym przeglądzie nie brzmiała: "zoptymalizujmy prompt". Brzmiała: "dlaczego w ogóle wysyłamy dźwięk ze spotkań na serwer". Twój laptop ma już procesor i mikrofon. Do materiałów prywatnych — offline Whisper CLI to odpowiedź, i nie kosztuje nic.
Istnieje szybszy lokalny port o nazwie whisper.cpp — prosta implementacja Whisper w C/C++ bez żadnych zależności, działająca wyłącznie na CPU na otwartej licencji. Użytkownicy donoszą, że potrafi też generować pliki napisów, choć do sprawdzonej ścieżki .srt odsyłam do oficjalnego OpenAI Whisper CLI, a whisper.cpp traktuję jako ulepszenie szybkości dla tych, którzy już opanowali podstawy.
Kiedy Whisper by Remskill jest złym narzędziem do tego zadania
To fragment, który większość blogów produktowych pomija. Jeśli Twoim zadaniem jest plik .srt lub .vtt do pobrania, nasza aplikacja to złe narzędzie — i wolę powiedzieć Ci to teraz, niż zmarnować Twój czas na pobieranie.
Whisper by Remskill jest przede wszystkim narzędziem do dyktowania. Przytrzymujesz skrót klawiszowy (Ctrl+Space na Windows, Command+Option na macOS), mówisz, puszczasz i transkrypcja wkleja się w miejscu kursora — w dowolnej otwartej aplikacji. Nie tnie mowy na bloki napisów, nie synchronizuje tekstu z zegarem audio i nie zapisuje zsynchronizowanego pliku napisów. Wrzuć wywiad i dostaniesz czysty akapit, nie plik SRT. Budowałem w głowie menu eksportu dziesiątki razy i nigdy go nie wysłałem, bo zsynchronizowane napisy to osobny produkt, a robienie go byle jak nikomu nie służy.
Do plików napisów używaj narzędzi opisanych powyżej. Po naszą aplikację sięgaj do sąsiedniego zadania: zamiany własnej mowy w tekst dokładnie wtedy, gdy go potrzebujesz. E-mail, szkic, opis, który ręcznie wkleisz do posta w mediach społecznościowych. Działa na dwóch silnikach napisanych w czystym Rust — OpenAI Whisper i NVIDIA Parakeet — bez Pythona i bez wgrywania czegokolwiek. Inne zadanie, inne narzędzie. Wybranie właściwego to sedno tego artykułu.
Zanim cokolwiek otworzysz, odpowiedz sobie na pytanie, które decyduje o wszystkim: czy Twoim efektem jest plik, czy słowa? Plik oznacza znaczniki czasu, a to oznacza prawdziwy generator napisów. VEED lub Kapwing do szybkiej pracy w przeglądarce, Whisper CLI za darmo i prywatnie. Słowa oznaczają transkrypt — i to jest inne narzędzie. Zbudowałem aplikację do dyktowania i nadal wyślę Cię gdzie indziej, kiedy gdzie indziej jest właściwe miejsce. Moja siedmiolatka zapytała mnie w zeszłym tygodniu, co robię w pracy, a uczciwa odpowiedź brzmi: pomagam ludziom przestać pisać — co uznała za głęboko nieciekawe. Popołudnie, które zaoszczędzisz, to to, które ja spędziłem na ręcznym dodawaniu napisów do podcastu, po trzy sekundy na raz.
Wolisz tę drugą połowę — dyktowanie?
Jeśli Twoim zadaniem są słowa w miejscu kursora, a nie plik napisów, Whisper zamienia Twoją mowę w tekst dokładnie wtedy, gdy go potrzebujesz — w pełni offline.
Darmowe dyktowanie lokalne dla każdego zalogowanego użytkownika. Do plików napisów użyj narzędzi powyżej.



