Poradnik
Jak zamienić mp3 na tekst
Aby zamienić mp3 na tekst, przepuść plik przez narzędzie zamiany mowy na tekst. Bezpłatna i prywatna droga to lokalna aplikacja open source, taka jak Buzz albo wiersz poleceń OpenAI Whisper, które transkrybują na Twoim własnym komputerze. Szybsza w starcie droga to konwerter internetowy, do którego wgrywasz plik.
Ostatnia aktualizacja: czerwiec 2026

Aby zamienić mp3 na tekst, przepuść plik przez narzędzie zamiany mowy na tekst. Bezpłatna i prywatna droga to lokalna aplikacja open source, taka jak Buzz albo wiersz poleceń OpenAI Whisper, które transkrybują na Twoim własnym komputerze. Szybsza w starcie droga to konwerter internetowy, do którego wgrywasz plik. Obie zamieniają dźwięk w edytowalny tekst.
Masz więc plik mp3 i potrzebujesz słów, które się w nim kryją. Nagrany wywiad, notatka głosowa, odcinek podcastu, wykład zgrany z telefonu. Zadanie za każdym razem jest takie samo: weź dźwięk, otrzymaj tekst, który da się edytować.
Dobra wiadomość jest taka, że w 2026 roku to problem już rozwiązany, a większość sposobów na jego załatwienie jest bezpłatna. Lekko irytująca wiadomość jest taka, że narzędzia mają nazwy brzmiące tak samo, więc pozwól, że je uporządkuję.
Są trzy uczciwe drogi. Uruchom bezpłatne narzędzie lokalnie na własnym komputerze (najbardziej prywatne, bez wgrywania, nic nie kosztuje). Skorzystaj z aplikacji na Maca stworzonej do tego zadania. Albo wgraj plik do usługi internetowej, która przetranskrybuje go na serwerze — to najszybsze w starcie, choć dźwięk opuszcza Twój komputer. To, która droga jest właściwa, zależy od tego, czy bardziej zależy Ci na prywatności, czy na wygodzie, i jak technicznie nastawiony czujesz się dzisiaj.
Powiem to niewygodne wcześnie, bo zatajanie tego byłoby nieuczciwe. Aplikacja, którą tworzy mój zespół, Whisper by Remskill, nie zamienia plików mp3. To narzędzie do dyktowania na żywo. Przytrzymujesz skrót klawiszowy, mówisz, a Twoje słowa pojawiają się tam, gdzie akurat piszesz. Zupełnie inne zadanie. Wyjaśnię, gdzie się to przydaje, blisko końca, ale jeśli trafiłeś tu, żeby zamienić istniejące nagranie, to narzędzia poniżej są tymi, których szukasz.
Bezpłatna i prywatna droga to lokalne narzędzie open source
Jeśli nie chcesz, żeby Twoje nagranie leżało na cudzym serwerze, uruchom transkrypcję na własnym komputerze. Silnik, którego używają do tego niemal wszyscy, to OpenAI Whisper, wydany na licencji MIT, darmowy w użyciu, darmowy do wglądu, darmowy do uruchomienia. To ta sama rodzina modeli, która napędza wiele płatnych aplikacji widzianych w reklamach.
Można go faktycznie użyć na kilka sposobów, od „dobrze czuję się w terminalu” po „proszę, dajcie mi przycisk do kliknięcia”.
OpenAI Whisper (wiersz poleceń w Pythonie)
Zainstaluj go przez pip, zainstaluj narzędzie ffmpeg, od którego zależy, a potem wskaż mu swój plik: whisper recording.mp3 --model turbo. Odczyta plik mp3, przetranskrybuje go i zapisze plik tekstowy. Jest sześć rozmiarów modeli, od malutkiego i szybkiego po duży i dokładny, więc możesz wymienić szybkość na dokładność. Jest wielojęzyczny, a nawet potrafi tłumaczyć dźwięk z innych języków na angielski. Haczyk tkwi w konfiguracji. pip i ffmpeg nie są trudne, ale to też nie jest nic. Kiedyś spędziłem dwadzieścia minut, naprawiając ścieżkę ffmpeg na świeżym laptopie. Mam tytuł magistra.
whisper.cpp
Ten sam model Whisper, przepisany w czystym C i C++, więc działa szybko bez Pythona i bez ciężkich zależności. Działa na samym procesorze i jest mocno zoptymalizowany pod Maki z Apple Silicon. Również na licencji MIT. Budujesz go ze źródeł i uruchamiasz z wiersza poleceń, więc jest to opcja zdecydowanie dla osób czujących się dobrze w terminalu. To wariant lekki, jeśli masz do przerobienia mnóstwo plików.
Buzz
To narzędzie, do którego kieruję osoby nietechniczne. Buzz to zwykła aplikacja desktopowa ze zwykłym oknem. Otwierasz ją, wybierasz swój plik mp3, a ona transkrybuje offline na Twoim komputerze. Jest zbudowana na OpenAI Whisper, potrafi transkrybować i tłumaczyć oraz działa na macOS, Windows i Linux. Na licencji MIT i bezpłatna. Bez terminala, bez pip, bez mocowania się z ffmpeg. Jeśli masz jeden plik i chcesz to załatwić z minimum zachodu, oto odpowiedź.
Whisper Desktop (Const-me)
Aplikacja na Windows dla osób z kartą graficzną. Transkrybuje pliki audio i wykorzystuje GPU, żeby zrobić to szybko, co ma znaczenie, gdy plik jest długi. Jest open source na licencji MPL-2.0. Tylko Windows. Jeśli pracujesz na pececie z przyzwoitym GPU i masz dwugodzinne nagranie, to szybki pas.

Na Macu dedykowana aplikacja oszczędza Ci konfiguracji
Jeśli pracujesz na Macu, a wiersz poleceń to nie Twój pomysł na dobry wieczór, MacWhisper jest stworzony właśnie do tego. Przeciągasz do niego plik audio lub wideo, a on transkrybuje na urządzeniu, więc nic nie opuszcza Twojego komputera. Działa na tych samych modelach OpenAI Whisper, plus silnik Parakeet od NVIDII, i dobrze radzi sobie z transkrypcją plików. Eksportuje też do formatów, których faktycznie potrzebujesz, na przykład plików napisów do wideo.
MacWhisper z założenia stawia plik na pierwszym miejscu: nagrania na wejściu, tekst na wyjściu. O to w nim cały chodzi i robi to dobrze. Wskazuję go konkretnie, bo to najbliższe odpowiednika rozwiązania „jeden klik na Macu” dla dokładnie tego, czego szukałeś.
Konwerter internetowy jest najszybszy w starcie, ale Twój dźwięk opuszcza komputer
Druga droga nie wymaga żadnej instalacji. Mnóstwo usług internetowych pozwala wgrać plik mp3, poczekać minutę i pobrać transkrypcję. Bez konfiguracji, bez modelu do pobrania, działa z telefonu czy pożyczonego laptopa. Przy szybkim, jednorazowym zadaniu ta wygoda jest realna i nie będę udawać, że jest inaczej.
Oto jedna mocna opinia w tym artykule, którą poprę oczywistym powodem, a nie machaniem rękami. Kiedy wgrywasz nagranie do konwertera internetowego, dźwięk opuszcza Twój komputer i ląduje na cudzym serwerze. W przypadku podcastu, który i tak zaraz opublikujesz, kogo to obchodzi. Ale w przypadku nagranej rozmowy z działem kadr, notatki lekarskiej albo spotkania z klientem, podczas którego na głos pada kwota wynagrodzenia lub nazwisko pacjenta, podejmujesz decyzję dotyczącą prywatności, często bez przeczytania strony, która mówi, jak długo plik jest przechowywany. Lokalne narzędzie robi to samo zadanie, a dźwięk nigdzie nie wędruje. Transkrypcja wyłącznie w chmurze to, w przypadku wrażliwych nagrań, katastrofa prywatności czekająca na to, by ją przetranskrybować.
Jeśli konwerter internetowy naprawdę jest dla Ciebie właściwym wyborem, warto przyjrzeć się krajobrazowi usług transkrypcyjnych. Pisałem o tym gronie gdzie indziej. Zacznij od przewodnika po szybkiej transkrypcji oraz poradnika o konwerterach audio na tekst, które oba omawiają drogę z wgrywaniem i lokalną obok siebie.
Wybieraj dokładność i język modelem, nie marketingiem
Niezależnie od tego, na które narzędzie się zdecydujesz, dokładność sprowadza się głównie do dwóch rzeczy, które kontrolujesz: rozmiaru modelu i mikrofonu, na którym nagrano dźwięk. Większe modele są wolniejsze i dokładniejsze. Mniejsze są szybsze i lżejsze. Większość powyższych narzędzi lokalnych pozwala wybierać, bo wszystkie pod spodem uruchamiają te same modele Whisper pod różnymi przyciskami.
Nudna prawda, której nikt sprzedający Ci „inteligentny konwerter AI” nie chce powiedzieć na głos: czyste nagranie na tanim mikrofonie USB pobije zamglone przepuszczone przez największy model. Narzędzie nie cofnie tego, że usłyszało klimatyzację. Jeśli Twój plik mp3 nagrano z drugiego końca pokoju na mikrofonie laptopa, zarządzaj swoimi oczekiwaniami i jeśli wciąż możesz, może nagraj ponownie.
Gdzie pasuje Whisper by Remskill, a gdzie nie
Teraz uczciwa część, którą obiecałem. Whisper by Remskill nie bierze Twojego pliku mp3 i nie zamienia go w tekst. Jest zbudowany na inną chwilę.
To narzędzie do dyktowania na żywo. Naciskasz skrót klawiszowy (domyślnie Ctrl+Space na Windowsie, z możliwością zmiany), mówisz, a Twoje słowa są wpisywane prosto do aplikacji, w której akurat jesteś: do maila, do dokumentu, do wiadomości na Slacku, do komentarza w kodzie. Transkrypcja dzieje się lokalnie, w trakcie mówienia, a tekst ląduje przy kursorze chwilę po tym, jak skończysz. Bez pliku, bez wgrywania, bez pętli nagraj-a-potem-przekonwertuj.
Kiedy więc jest to narzędzie, którego faktycznie chcesz? Wtedy, gdy słowa, których potrzebujesz, jeszcze nie istnieją jako nagranie, bo wciąż są w Twojej głowie. Jeśli Twoim prawdziwym celem nigdy nie było „przekonwertuj ten plik”, tylko „szybko przelej moje własne wypowiedziane słowa do dokumentu”, pomijasz nagrywanie w całości. Myślisz to, mówisz to, jest wpisane. Cały lokalny proces jest bezpłatny i działa na Windows oraz Mac (Apple Silicon). Kiedyś podyktowałem maila do nauczyciela, listę zakupów i odpowiedź siostrze w czasie, w jakim zagotowała się woda w czajniku, a potem zapomniałem faktycznie nalać herbatę. Narzędzie zadziałało. Ja nie.
Pełny obraz tego, jak działa pod maską transkrypcja na żywo, offline, zgłębia przewodnik po offline'owej zamianie mowy na tekst. Ale jeśli akurat teraz w folderze pobierania leży Ci nagranie, wróć wyżej na stronę. To, czego chcesz, to Buzz albo wiersz poleceń Whisper, a nie my.
Jeśli potrzebujesz tego tylko raz
Jeden plik, jeden raz, bez planów na powtórkę? Otwórz Buzz, wrzuć swój plik mp3, pozwól mu działać. Jest darmowy, działa offline i nie zainstalujesz niczego, co trzeba będzie utrzymywać. To cała rekomendacja. Zostaw narzędzia terminalowe na dzień, gdy będziesz mieć pięćdziesiąt plików zamiast jednego.
Najszybszy sposób na zamianę mp3 to nie mieć mp3. Ale przy nagraniu, które już masz, bezpłatne lokalne narzędzie doprowadzi Cię do celu, nie wysyłając go nigdzie.
Whisper by Remskill jest do dyktowania na żywo, nie do konwersji plików
Jeśli Twoim celem jest przelanie własnych wypowiedzianych słów do dokumentu bez pisania, zobacz, jak działa dyktowanie na żywo. Do konwersji nagrania, które już masz, Buzz jest darmową odpowiedzią powyżej.
Bezpłatny lokalny proces. Windows i Mac (Apple Silicon).



