Autor: Denys Medvediev20 maja 2026

Poradnik

Jak zamienić mp3 na tekst

Aby zamienić mp3 na tekst, przepuść plik przez narzędzie zamiany mowy na tekst. Bezpłatna i prywatna droga to lokalna aplikacja open source, taka jak Buzz albo wiersz poleceń OpenAI Whisper, które transkrybują na Twoim własnym komputerze. Szybsza w starcie droga to konwerter internetowy, do którego wgrywasz plik.

Ostatnia aktualizacja: czerwiec 2026

Ekran komputera pokazujący przebieg fali dźwiękowej nagrania w programie do edycji audio

Masz więc plik mp3 i potrzebujesz słów, które się w nim kryją. Nagrany wywiad, notatka głosowa, odcinek podcastu, wykład zgrany z telefonu. Zadanie za każdym razem jest takie samo: weź dźwięk, otrzymaj tekst, który da się edytować.

Dobra wiadomość jest taka, że w 2026 roku to problem już rozwiązany, a większość sposobów na jego załatwienie jest bezpłatna. Lekko irytująca wiadomość jest taka, że narzędzia mają nazwy brzmiące tak samo, więc pozwól, że je uporządkuję.

Są trzy uczciwe drogi. Uruchom bezpłatne narzędzie lokalnie na własnym komputerze (najbardziej prywatne, bez wgrywania, nic nie kosztuje). Skorzystaj z aplikacji na Maca stworzonej do tego zadania. Albo wgraj plik do usługi internetowej, która przetranskrybuje go na serwerze — to najszybsze w starcie, choć dźwięk opuszcza Twój komputer. To, która droga jest właściwa, zależy od tego, czy bardziej zależy Ci na prywatności, czy na wygodzie, i jak technicznie nastawiony czujesz się dzisiaj.

Powiem to niewygodne wcześnie, bo zatajanie tego byłoby nieuczciwe. Aplikacja, którą tworzy mój zespół, Whisper by Remskill, nie zamienia plików mp3. To narzędzie do dyktowania na żywo. Przytrzymujesz skrót klawiszowy, mówisz, a Twoje słowa pojawiają się tam, gdzie akurat piszesz. Zupełnie inne zadanie. Wyjaśnię, gdzie się to przydaje, blisko końca, ale jeśli trafiłeś tu, żeby zamienić istniejące nagranie, to narzędzia poniżej są tymi, których szukasz.

Bezpłatna i prywatna droga to lokalne narzędzie open source

Jeśli nie chcesz, żeby Twoje nagranie leżało na cudzym serwerze, uruchom transkrypcję na własnym komputerze. Silnik, którego używają do tego niemal wszyscy, to OpenAI Whisper, wydany na licencji MIT, darmowy w użyciu, darmowy do wglądu, darmowy do uruchomienia. To ta sama rodzina modeli, która napędza wiele płatnych aplikacji widzianych w reklamach.

Można go faktycznie użyć na kilka sposobów, od „dobrze czuję się w terminalu” po „proszę, dajcie mi przycisk do kliknięcia”.

OpenAI Whisper (wiersz poleceń w Pythonie)

Zainstaluj go przez pip, zainstaluj narzędzie ffmpeg, od którego zależy, a potem wskaż mu swój plik: whisper recording.mp3 --model turbo. Odczyta plik mp3, przetranskrybuje go i zapisze plik tekstowy. Jest sześć rozmiarów modeli, od malutkiego i szybkiego po duży i dokładny, więc możesz wymienić szybkość na dokładność. Jest wielojęzyczny, a nawet potrafi tłumaczyć dźwięk z innych języków na angielski. Haczyk tkwi w konfiguracji. pip i ffmpeg nie są trudne, ale to też nie jest nic. Kiedyś spędziłem dwadzieścia minut, naprawiając ścieżkę ffmpeg na świeżym laptopie. Mam tytuł magistra.

whisper.cpp

Ten sam model Whisper, przepisany w czystym C i C++, więc działa szybko bez Pythona i bez ciężkich zależności. Działa na samym procesorze i jest mocno zoptymalizowany pod Maki z Apple Silicon. Również na licencji MIT. Budujesz go ze źródeł i uruchamiasz z wiersza poleceń, więc jest to opcja zdecydowanie dla osób czujących się dobrze w terminalu. To wariant lekki, jeśli masz do przerobienia mnóstwo plików.

Buzz

To narzędzie, do którego kieruję osoby nietechniczne. Buzz to zwykła aplikacja desktopowa ze zwykłym oknem. Otwierasz ją, wybierasz swój plik mp3, a ona transkrybuje offline na Twoim komputerze. Jest zbudowana na OpenAI Whisper, potrafi transkrybować i tłumaczyć oraz działa na macOS, Windows i Linux. Na licencji MIT i bezpłatna. Bez terminala, bez pip, bez mocowania się z ffmpeg. Jeśli masz jeden plik i chcesz to załatwić z minimum zachodu, oto odpowiedź.

Whisper Desktop (Const-me)

Aplikacja na Windows dla osób z kartą graficzną. Transkrybuje pliki audio i wykorzystuje GPU, żeby zrobić to szybko, co ma znaczenie, gdy plik jest długi. Jest open source na licencji MPL-2.0. Tylko Windows. Jeśli pracujesz na pececie z przyzwoitym GPU i masz dwugodzinne nagranie, to szybki pas.

Kod i otwarty terminal wiersza poleceń na ekranie laptopa na uprzątniętym biurku

Na Macu dedykowana aplikacja oszczędza Ci konfiguracji

Jeśli pracujesz na Macu, a wiersz poleceń to nie Twój pomysł na dobry wieczór, MacWhisper jest stworzony właśnie do tego. Przeciągasz do niego plik audio lub wideo, a on transkrybuje na urządzeniu, więc nic nie opuszcza Twojego komputera. Działa na tych samych modelach OpenAI Whisper, plus silnik Parakeet od NVIDII, i dobrze radzi sobie z transkrypcją plików. Eksportuje też do formatów, których faktycznie potrzebujesz, na przykład plików napisów do wideo.

MacWhisper z założenia stawia plik na pierwszym miejscu: nagrania na wejściu, tekst na wyjściu. O to w nim cały chodzi i robi to dobrze. Wskazuję go konkretnie, bo to najbliższe odpowiednika rozwiązania „jeden klik na Macu” dla dokładnie tego, czego szukałeś.

Konwerter internetowy jest najszybszy w starcie, ale Twój dźwięk opuszcza komputer

Druga droga nie wymaga żadnej instalacji. Mnóstwo usług internetowych pozwala wgrać plik mp3, poczekać minutę i pobrać transkrypcję. Bez konfiguracji, bez modelu do pobrania, działa z telefonu czy pożyczonego laptopa. Przy szybkim, jednorazowym zadaniu ta wygoda jest realna i nie będę udawać, że jest inaczej.

Oto jedna mocna opinia w tym artykule, którą poprę oczywistym powodem, a nie machaniem rękami. Kiedy wgrywasz nagranie do konwertera internetowego, dźwięk opuszcza Twój komputer i ląduje na cudzym serwerze. W przypadku podcastu, który i tak zaraz opublikujesz, kogo to obchodzi. Ale w przypadku nagranej rozmowy z działem kadr, notatki lekarskiej albo spotkania z klientem, podczas którego na głos pada kwota wynagrodzenia lub nazwisko pacjenta, podejmujesz decyzję dotyczącą prywatności, często bez przeczytania strony, która mówi, jak długo plik jest przechowywany. Lokalne narzędzie robi to samo zadanie, a dźwięk nigdzie nie wędruje. Transkrypcja wyłącznie w chmurze to, w przypadku wrażliwych nagrań, katastrofa prywatności czekająca na to, by ją przetranskrybować.

Jeśli konwerter internetowy naprawdę jest dla Ciebie właściwym wyborem, warto przyjrzeć się krajobrazowi usług transkrypcyjnych. Pisałem o tym gronie gdzie indziej. Zacznij od przewodnika po szybkiej transkrypcji oraz poradnika o konwerterach audio na tekst, które oba omawiają drogę z wgrywaniem i lokalną obok siebie.

Wybieraj dokładność i język modelem, nie marketingiem

Niezależnie od tego, na które narzędzie się zdecydujesz, dokładność sprowadza się głównie do dwóch rzeczy, które kontrolujesz: rozmiaru modelu i mikrofonu, na którym nagrano dźwięk. Większe modele są wolniejsze i dokładniejsze. Mniejsze są szybsze i lżejsze. Większość powyższych narzędzi lokalnych pozwala wybierać, bo wszystkie pod spodem uruchamiają te same modele Whisper pod różnymi przyciskami.

Nudna prawda, której nikt sprzedający Ci „inteligentny konwerter AI” nie chce powiedzieć na głos: czyste nagranie na tanim mikrofonie USB pobije zamglone przepuszczone przez największy model. Narzędzie nie cofnie tego, że usłyszało klimatyzację. Jeśli Twój plik mp3 nagrano z drugiego końca pokoju na mikrofonie laptopa, zarządzaj swoimi oczekiwaniami i jeśli wciąż możesz, może nagraj ponownie.

Gdzie pasuje Whisper by Remskill, a gdzie nie

Teraz uczciwa część, którą obiecałem. Whisper by Remskill nie bierze Twojego pliku mp3 i nie zamienia go w tekst. Jest zbudowany na inną chwilę.

To narzędzie do dyktowania na żywo. Naciskasz skrót klawiszowy (domyślnie Ctrl+Space na Windowsie, z możliwością zmiany), mówisz, a Twoje słowa są wpisywane prosto do aplikacji, w której akurat jesteś: do maila, do dokumentu, do wiadomości na Slacku, do komentarza w kodzie. Transkrypcja dzieje się lokalnie, w trakcie mówienia, a tekst ląduje przy kursorze chwilę po tym, jak skończysz. Bez pliku, bez wgrywania, bez pętli nagraj-a-potem-przekonwertuj.

Pasted

Wdrożona nakładka po dyktowaniu — dyktowanie na żywo kończące się przy Twoim kursorze, a nie plik poddawany konwersji.

Kiedy więc jest to narzędzie, którego faktycznie chcesz? Wtedy, gdy słowa, których potrzebujesz, jeszcze nie istnieją jako nagranie, bo wciąż są w Twojej głowie. Jeśli Twoim prawdziwym celem nigdy nie było „przekonwertuj ten plik”, tylko „szybko przelej moje własne wypowiedziane słowa do dokumentu”, pomijasz nagrywanie w całości. Myślisz to, mówisz to, jest wpisane. Cały lokalny proces jest bezpłatny i działa na Windows oraz Mac (Apple Silicon). Kiedyś podyktowałem maila do nauczyciela, listę zakupów i odpowiedź siostrze w czasie, w jakim zagotowała się woda w czajniku, a potem zapomniałem faktycznie nalać herbatę. Narzędzie zadziałało. Ja nie.

Whisper

Działająca aplikacja Whisper by Remskill — pasek boczny, panel transkrypcji i karty instrukcji AI. To prawdziwy interfejs, a nie zrzut ekranu.

Pełny obraz tego, jak działa pod maską transkrypcja na żywo, offline, zgłębia przewodnik po offline'owej zamianie mowy na tekst. Ale jeśli akurat teraz w folderze pobierania leży Ci nagranie, wróć wyżej na stronę. To, czego chcesz, to Buzz albo wiersz poleceń Whisper, a nie my.

Jeśli potrzebujesz tego tylko raz

Jeden plik, jeden raz, bez planów na powtórkę? Otwórz Buzz, wrzuć swój plik mp3, pozwól mu działać. Jest darmowy, działa offline i nie zainstalujesz niczego, co trzeba będzie utrzymywać. To cała rekomendacja. Zostaw narzędzia terminalowe na dzień, gdy będziesz mieć pięćdziesiąt plików zamiast jednego.

Najszybszy sposób na zamianę mp3 to nie mieć mp3. Ale przy nagraniu, które już masz, bezpłatne lokalne narzędzie doprowadzi Cię do celu, nie wysyłając go nigdzie.

Whisper by Remskill jest do dyktowania na żywo, nie do konwersji plików

Jeśli Twoim celem jest przelanie własnych wypowiedzianych słów do dokumentu bez pisania, zobacz, jak działa dyktowanie na żywo. Do konwersji nagrania, które już masz, Buzz jest darmową odpowiedzią powyżej.

Zobacz, jak działa dyktowanie na żywo Jak to działa

Bezpłatny lokalny proces. Windows i Mac (Apple Silicon).

Denys Medvediev

To ja czytam naszego maila wsparcia, najprawdopodobniej dyktując odpowiedzi.

Dalsza lektura

Najczęściej zadawane pytania

Skorzystaj z bezpłatnego narzędzia lokalnego. Buzz jest najłatwiejszy: aplikacja desktopowa, którą otwierasz, wskazujesz jej swój plik mp3 i pozwalasz transkrybować offline. Jest zbudowana na OpenAI Whisper i działa na Windows, Mac oraz Linux. Jeśli dobrze czujesz się w terminalu, wiersz poleceń OpenAI Whisper i whisper.cpp także są darmowe i open source. Żadne z nich nic nie pobiera ani nie wgrywa Twojego pliku.

Autor: Denys Medvediev20 maja 2026

Poradnik

Jak zamienić mp3 na tekst

Ostatnia aktualizacja: czerwiec 2026

Bezpłatna i prywatna droga to lokalne narzędzie open source

Można go faktycznie użyć na kilka sposobów, od „dobrze czuję się w terminalu” po „proszę, dajcie mi przycisk do kliknięcia”.

OpenAI Whisper (wiersz poleceń w Pythonie)

whisper.cpp

Buzz

Whisper Desktop (Const-me)

Na Macu dedykowana aplikacja oszczędza Ci konfiguracji

Konwerter internetowy jest najszybszy w starcie, ale Twój dźwięk opuszcza komputer

Wybieraj dokładność i język modelem, nie marketingiem

Gdzie pasuje Whisper by Remskill, a gdzie nie

Teraz uczciwa część, którą obiecałem. Whisper by Remskill nie bierze Twojego pliku mp3 i nie zamienia go w tekst. Jest zbudowany na inną chwilę.

Pasted

Wdrożona nakładka po dyktowaniu — dyktowanie na żywo kończące się przy Twoim kursorze, a nie plik poddawany konwersji.

Whisper

Działająca aplikacja Whisper by Remskill — pasek boczny, panel transkrypcji i karty instrukcji AI. To prawdziwy interfejs, a nie zrzut ekranu.

Jeśli potrzebujesz tego tylko raz

Najszybszy sposób na zamianę mp3 to nie mieć mp3. Ale przy nagraniu, które już masz, bezpłatne lokalne narzędzie doprowadzi Cię do celu, nie wysyłając go nigdzie.

Whisper by Remskill jest do dyktowania na żywo, nie do konwersji plików

Zobacz, jak działa dyktowanie na żywo Jak to działa

Bezpłatny lokalny proces. Windows i Mac (Apple Silicon).

Denys Medvediev

To ja czytam naszego maila wsparcia, najprawdopodobniej dyktując odpowiedzi.

Jak zamienić mp3 na tekst

Bezpłatna i prywatna droga to lokalne narzędzie open source

OpenAI Whisper (wiersz poleceń w Pythonie)

whisper.cpp

Buzz

Whisper Desktop (Const-me)

Na Macu dedykowana aplikacja oszczędza Ci konfiguracji

Konwerter internetowy jest najszybszy w starcie, ale Twój dźwięk opuszcza komputer

Wybieraj dokładność i język modelem, nie marketingiem

Gdzie pasuje Whisper by Remskill, a gdzie nie

Jeśli potrzebujesz tego tylko raz

Whisper by Remskill jest do dyktowania na żywo, nie do konwersji plików

Dalsza lektura

Najczęściej zadawane pytania

Pisanie głosem w Wordzie

Skrót do pisania głosem w każdym systemie

Alternatywa dla pisania głosem Google: dyktuj wszędzie

Jak zamienić mp3 na tekst

Bezpłatna i prywatna droga to lokalne narzędzie open source

OpenAI Whisper (wiersz poleceń w Pythonie)

whisper.cpp

Buzz

Whisper Desktop (Const-me)

Na Macu dedykowana aplikacja oszczędza Ci konfiguracji

Konwerter internetowy jest najszybszy w starcie, ale Twój dźwięk opuszcza komputer

Wybieraj dokładność i język modelem, nie marketingiem

Gdzie pasuje Whisper by Remskill, a gdzie nie

Jeśli potrzebujesz tego tylko raz

Whisper by Remskill jest do dyktowania na żywo, nie do konwersji plików

Dalsza lektura

Najczęściej zadawane pytania

Pisanie głosem w Wordzie

Skrót do pisania głosem w każdym systemie

Alternatywa dla pisania głosem Google: dyktuj wszędzie

Jak zamienić mp3 na tekst

Bezpłatna i prywatna droga to lokalne narzędzie open source

OpenAI Whisper (wiersz poleceń w Pythonie)

whisper.cpp

Buzz

Whisper Desktop (Const-me)

Na Macu dedykowana aplikacja oszczędza Ci konfiguracji

Konwerter internetowy jest najszybszy w starcie, ale Twój dźwięk opuszcza komputer

Wybieraj dokładność i język modelem, nie marketingiem

Gdzie pasuje Whisper by Remskill, a gdzie nie

Jeśli potrzebujesz tego tylko raz

Whisper by Remskill jest do dyktowania na żywo, nie do konwersji plików

Dalsza lektura

Najczęściej zadawane pytania

Czytaj dalej

Pisanie głosem w Wordzie

Skrót do pisania głosem w każdym systemie

Alternatywa dla pisania głosem Google: dyktuj wszędzie

Jak zamienić mp3 na tekst

Bezpłatna i prywatna droga to lokalne narzędzie open source

OpenAI Whisper (wiersz poleceń w Pythonie)

whisper.cpp

Buzz

Whisper Desktop (Const-me)

Na Macu dedykowana aplikacja oszczędza Ci konfiguracji

Konwerter internetowy jest najszybszy w starcie, ale Twój dźwięk opuszcza komputer

Wybieraj dokładność i język modelem, nie marketingiem

Gdzie pasuje Whisper by Remskill, a gdzie nie

Jeśli potrzebujesz tego tylko raz

Whisper by Remskill jest do dyktowania na żywo, nie do konwersji plików

Dalsza lektura

Najczęściej zadawane pytania

Czytaj dalej

Pisanie głosem w Wordzie

Skrót do pisania głosem w każdym systemie

Alternatywa dla pisania głosem Google: dyktuj wszędzie