Autor: Denys Medvediev

Wyjaśnienie

Czy Whisper jest darmowy?

Tak — Whisper od OpenAI jest open-source na licencji MIT, więc model można pobrać i używać bezpłatnie, nawet komercyjnie. Haczyk tkwi w uruchomieniu: konfiguracja, zależności i własny sprzęt. Łatwiejsze, darmowe wyjście to uruchomienie Whispera lokalnie przez aplikację desktopową.

Ostatnia aktualizacja: czerwiec 2026

Otwarta kłódka leżąca na klawiaturze laptopa — nawiązanie do open-source i wolnego oprogramowania

Whisper jest darmowy. OpenAI udostępniło zarówno kod, jak i wagi modelu na permisywnej licencji MIT, więc każdy może pobrać, uruchomić i nawet komercyjnie używać tego modelu zamiany mowy na tekst bez żadnych opłat. Jedyny haczyk to konfiguracja: samodzielne uruchomienie Whispera wymaga Pythona, ffmpeg i własnego sprzętu. Aplikacja desktopowa zdejmuje ten ciężar.

Ludzie pytają „czy Whisper jest darmowy” i spodziewają się haczyka — bo w 2026 roku prawie nic wartościowego naprawdę nie jest za darmo. Zanim więc pojawią się zastrzeżenia, powiedzmy wprost: tak. OpenAI wydało Whispera na licencji MIT — zarówno kod, jak i wagi modelu — a to jedna z najbardziej permisywnych licencji, jakie istnieją. Możesz go pobrać, uruchomić, zmodyfikować, wbudować we własny produkt, pobierać za niego pieniądze, a OpenAI nie poprosi Cię ani o grosz, ani o wzmiankę.

To jest nagłówek i jest prawdziwy. Część, którą nagłówek pomija, to różnica między „model jest darmowy” a „korzystanie z modelu jest darmowe”. To nie jest to samo zdanie. Model to plik. Zamienienie tego pliku w słowa na ekranie wymaga konfiguracji, trochę cierpliwości przy wierszu poleceń i komputera zdolnego do wykonania obliczeń. Nic z tego nie jest ukryte — to po prostu praca, i to jest prawdziwa cena wersji open-source.

Oto co większość stron goniących za tym słowem kluczowym miesza w jedno. W tej rozmowie są dwa Whispery. Pierwszy to model open-source, który OpenAI opublikowało na GitHubie — darmowy, MIT, do uruchomienia na własnym komputerze. Drugi to hostowane API transkrypcji OpenAI, które używa tej samej rodziny modeli, ale rozlicza Cię za minutę. Ta sama nazwa, zupełnie inny rachunek.

Dlatego „czy Whisper jest darmowy” ma trzy uczciwe odpowiedzi. Sam model: darmowy, bez wyjątków. Uruchomienie go samodzielnie: darmowe w złotówkach, ale płacisz konfiguracją i własnym sprzętem. Pozwolenie komuś na hostowanie go dla Ciebie: to kosztuje — czy to API OpenAI, czy płatny poziom chmury w aplikacji. Ten przewodnik omawia wszystkie trzy opcje, pokazuje łatwą, darmową ścieżkę i mówi wprost o tym, co naprawdę nie jest darmowe.

Czym właściwie jest Whisper

Fala dźwiękowa na ekranie obok mikrofonu — mowa zamieniana w tekst

Whisper to model zamiany mowy na tekst, który OpenAI wydało pod koniec 2022 roku. Podajesz mu audio, on zwraca tekst. I robi to dobrze — wytrenowany na ogromnym zbiorze wielojęzycznego audio, radzi sobie z akcentami, szumem tła i dziesiątkami języków lepiej niż oprogramowanie do dyktowania, na które klęliśmy przez lata. Potrafi też tłumaczyć mowę w innych językach na tekst angielski — sztuczka, której starsze narzędzia nigdy nie opanowały porządnie.

Ważne słowo to „model”. Whisper nie jest aplikacją, którą się klika dwa razy. To mózg — plik z wytrenowanymi wagami i kod do ich uruchomienia. Sam w sobie nie ma okna, przycisku ani podpięcia do mikrofonu. To silnik, nie samochód. Wiele produktów, które znasz, to po cichu tylko Whisper z warstwą lakieru na wierzchu — co jest zupełnie w porządku, ale warto wiedzieć, że silnik pod spodem jest w każdym z nich taki sam i taki sam bezpłatny.

To właśnie ta różnica sprawia, że pytanie jest mylące. Gdy ktoś mówi „Whisper kosztuje 30 dolarów miesięcznie”, nie ma na myśli modelu — ma na myśli jakąś aplikację, która owinęła model i pobiera za to opakowanie. Gdy ktoś mówi „Whisper jest darmowy”, ma na myśli silnik, który OpenAI oddało bezpłatnie. Oba stwierdzenia są prawdziwe jednocześnie, tylko o różnych rzeczach — i właśnie dlatego szukałeś prostej odpowiedzi.

Tak, licencja MIT sprawia, że jest naprawdę darmowy

To nie jest „darmowy” w stylu marketingowym, gdzie „za darmo” oznacza próbę, która się kończy, albo poziom, który nie daje spokoju. OpenAI udostępniło kod Whispera i wagi modelu na licencji MIT. Licencja MIT to permisywna, dobrze rozumiana licencja open-source: pozwala na używanie, kopiowanie, modyfikowanie i dystrybucję oprogramowania — w tym komercyjną — z jednym warunkiem: zachowaj informację o prawach autorskich. Żadnych opłat, tantiem, kosztów na użytkownika, żadnego pytania o pozwolenie.

W praktyce: możesz pobrać Whispera do użytku osobistego, uruchomić go w firmie, wbudować w produkt, który sprzedajesz, i transkrybować podcast dla klienta — wszystko bez płacenia OpenAI. Wagi modelu — wytrenowana część, której wyprodukowanie jest kosztowne — też są darmowe, a nie tylko kod opakowujący. To właśnie ta część zaskakuje, bo firmy zwykle trzymają wytrenowane wagi za kluczem. OpenAI tutaj tego nie zrobiło.

Cancel
Whisper uruchomiony lokalnie: nakładka nagrywania pojawia się podczas mówienia, bez licznika za minutę tykającego w tle.

Jedno uczciwe zastrzeżenie, żeby nikt nie cytował mnie błędnie. „Darmowy na MIT” dotyczy licencji, a nie obietnicy, że nic nie kosztuje w eksploatacji. Prąd nie jest darmowy. Komputer nie jest darmowy. Twój czas nie jest darmowy. Ale oprogramowanie i model — te części, za które firma zwykle pobiera abonament — są naprawdę, trwale, bez gwiazdki darmowe. (Rodzaj darmowego, przy którym czytasz licencję dwa razy, bo jesteś pewien, że coś przegapiłeś. Nie przegapiłeś.)

Haczyk tkwi w samodzielnym uruchomieniu

Tu darmowa wersja zyskuje swoją cenę — płaconą czasem zamiast pieniędzmi. Uruchomienie Whispera w surowej, open-source'owej formie oznacza pracę z wierszem poleceń. Standardowa instalacja to pakiet Pythona, więc najpierw potrzebujesz poprawnie skonfigurowanego Pythona. Whisper wymaga też ffmpeg — osobnego narzędzia audio zainstalowanego na ścieżce systemowej. Na niektórych maszynach będziesz potrzebować też Rusta, żeby zbudowała się zależność tokenizerów. Dla programisty to nic niezwykłego. Dla wszystkich innych — to popołudnie z życia.

A potem jest jeszcze sprzęt. Whisper wykonuje poważne obliczenia, a większe, dokładniejsze modele wykonują ich dużo. Na zwykłym CPU duży model może transkrybować nagranie dłużej, niż ono trwa. Żeby uzyskać prędkość, potrzeba przyzwoitego GPU, którego większość laptopów nie ma. Uczciwy koszt darmowej wersji to więc nie pieniądze — to środowisko Pythona, które trzeba utrzymywać, polecenie uruchamiane ręcznie dla każdego pliku i komputer wystarczająco szybki, żeby nie zmuszać do czekania. (Widziałem, jak osoba niebędąca programistką próbowała wykonać instrukcję „5-minutowa instalacja Whispera”. To nie zajęło pięciu minut. To zajęło sobotę i telefon do mnie.)

I jeszcze jedna rzecz, której surowa wersja nie daje: dyktowanie na żywo. Whisper z wiersza poleceń transkrybuje plik, który już nagrałeś. Nie siedzi w tle, nie czeka na skrót klawiszowy i nie wkleja tekstu przy kursorze, gdy mówisz. Do tego — czyli do tego, czego większość ludzi szuka, gdy tego szuka — potrzebujesz nakładki na model. Dobra wiadomość: najlepsza nakładka też jest darmowa. O tym jest następna sekcja.

Darmowa i łatwa droga: uruchom Whispera w aplikacji

Możesz zachować całą „darmowość” modelu open-source i pominąć całą „samodzielną konfigurację”. Po to właśnie zbudowaliśmy Whisper by Remskill — uruchamia ten sam model open-source Whisper lokalnie na Twoim komputerze, bez Pythona, bez ffmpeg, bez wiersza poleceń. Cały lokalny pipeline jest darmowy dla każdego zalogowanego konta, bez pytania o metodę płatności przy rejestracji. Dostajesz silnik open-source bez open-source'owej pracy domowej. Oto jak to skonfigurować.

Krok 1 — Zainstaluj aplikację i zaloguj się.

Pobierz ze strony pobierania, zainstaluj i utwórz darmowe konto. Bez karty. Lokalny pipeline transkrypcji otwiera się od razu — bez Pythona, bez ffmpeg, bez niczego.

Wiedz, że zadziałało, gdy ikona w zasobniku pojawi się, a kreator konfiguracji zaproponuje wybór modelu.

Krok 2 — Wybierz lokalny model.

Aplikacja nie wybiera za Ciebie. Dla trybu lokalnego masz do dyspozycji Whispera (8 modeli, 99 języków, tłumaczenie na angielski) lub Parakeet (szybszy, angielski plus 24 europejskie języki). Model pobiera się raz i działa w całości na Twoim komputerze.

Wiedz, że zadziałało, gdy model zakończy pobieranie i pojawi się jako gotowy.

Krok 3 — Potwierdź swój skrót klawiszowy.

Na Windows domyślnie to Ctrl+Space, na Macu Command+Option przytrzymane jako push-to-talk. Na Macu przyznaj uprawnienie Accessibility gdy zostaniesz o to poproszony, bo inaczej wklejanie przy kursorze nie dosięgnie innych aplikacji.

Wiedz, że zadziałało, gdy testowe nagranie wklei się do dowolnego pola tekstowego.

Krok 4 — Ustaw kursor gdziekolwiek i mów.

Kliknij w dowolne pole tekstowe — e-mail, dokument, pasek wyszukiwania — przytrzymaj skrót, wypowiedz zdanie, puść. Transkrypt pojawia się tam, gdzie jest kursor, transkrybowany przez Whispera, na Twoim komputerze, za darmo.

Wiedz, że zadziałało, gdy Twoje wypowiedziane zdanie jest w polu jako tekst.

Whisper
Prawdziwa aplikacja Whisper by Remskill na ekranie ustawień z otwartymi panelami Transkrypcja i AI.

Jedyne wolne miejsce to jednorazowe pobieranie modelu, a nie żaden rytuał konfiguracji. Po tym ten sam model open-source, który wymagał środowiska Python i polecenia na każdy plik, po prostu siedzi w zasobniku i wkleja tekst po naciśnięciu klawisza. Jeśli rozważasz opcje dyktowania na Windows lub Macu, to jest ta wersja, w której Whisper w końcu czuje się jak aplikacja, a nie projekt do skonfigurowania.

Lokalny Whisper jest darmowy, chmura to ta płatna część

Tu odpowiedź na „czy jest darmowy” wymaga jednej wyraźnej linii podziału. Uruchamianie Whispera lokalnie jest darmowe — Twój komputer, Twój CPU, żaden serwer, żaden rachunek za minutę. Płatna część to chmura: hostowane API transkrypcji OpenAI pobiera opłaty za minutę, a każda aplikacja z poziomem chmury przekazuje ten koszt dalej. W naszej aplikacji cały lokalny pipeline jest darmowy; tylko warstwa chmury jest za Whisper Pro. Oto jak rzeczywiście różnią się te trzy ścieżki — bo masz wybór:

  • Lokalny Parakeet — darmowySilnik TDT od NVIDIA, około 600 MB, najszybsza opcja lokalna — 5 do 10 razy szybsza niż Whisper na CPU. Obsługuje angielski plus 24 inne języki europejskie, łącznie 25. Brak tłumaczenia na angielski. Jeśli mówisz głównie po angielsku i chcesz prędkości na skromnym sprzęcie, to szybki, w pełni offline i bezkosztowy wybór.
  • Lokalny Whisper — darmowyprawdziwy model open-source Whisper, działający na Twoim komputerze za nic. Wielojęzyczne wersje obsługują 99 języków i mogą tłumaczyć na angielski; wersje tylko po angielsku — wyłącznie angielski. Wolniejszy niż Parakeet na tym samym sprzęcie, ale właściwy wybór do chińskiego, japońskiego, koreańskiego lub jakiejkolwiek pracy tłumaczeniowej. Domyślny model angielski to około 480 MB.
  • Chmura (OpenAI, BYOK) — płatna za minutęnajlepsza dokładność i dostęp do internetu na żywo, przy użyciu własnego klucza OpenAI rozliczanego bezpośrednio przez OpenAI — transkrypcja działa domyślnie przez gpt-4o-mini-transcribe. To jest ta część, która kosztuje pieniądze, rozliczana za minutę przez OpenAI, nie przez nas. Wymaga internetu. Warstwa chmury to jedyna rzecz w Whisper Pro.

Nudna prawda jest taka, że do codziennego dyktowania lokalny Whisper lub Parakeet w zupełności wystarczy — i to jest darmowa ścieżka od początku do końca. Oba działają w całości na Twoim komputerze, bez wysyłania czegokolwiek na serwer. Chmura zarabia na swoim koszcie za minutę tylko wtedy, gdy potrzebujesz najwyższej dokładności przy trudnym nagraniu albo chcesz, żeby model wyciągnął fakt z internetu w trakcie zdania. Jeśli Twoje pytanie brzmiało ściśle „czy Whisper jest darmowy”, odpowiedź, która ma znaczenie, to: lokalna ścieżka jest, zaczną od niej.

Modele, dokładność i porządkowanie surowego tekstu

Darmowy model to nie jeden model — to cała rodzina, a wybór odpowiedniego to prawdziwa dźwignia dokładności. Mniejsze modele są szybkie i lekkie; duży wielojęzyczny model jest najdokładniejszy i najcięższy. W open-source'owej wersji wiersza poleceń sam wybierasz rozmiar modelu i żyjesz z wynikającą z tego prędkością. W aplikacji wybierasz z listy, a model pobiera się raz. Ważniejsza konkluzja: na dokładność wpływa model i mikrofon o wiele bardziej niż cokolwiek, za co płacisz. Mikrofon USB za 80 zł robi więcej dla Twoich transkryptów niż jakikolwiek upgrade.

Bez względu na to, który model uruchomisz, surowe dyktowanie wychodzi jako jedna wielka ściana tekstu. Mówisz „okej więc model jest darmowy na MIT ale żeby uruchomić go samemu trzeba pythona i ffmpeg” i to jest nieprzerywany strumień słów, który zwróci Ci każdy silnik mowy. Jego posprzątanie to osobny krok. Whisper by Remskill może przepuścić transkrypt przez przebieg AI: powiedz frazę aktywacyjną „Hey whisper” i tekst zostanie ulepszony zanim trafi do celu — wypełniacze usunięte, interpunkcja naprawiona. Na lokalnym modelu działa to przez Ollama za darmo; w trybie chmury domyślnie przez gpt-5-mini.

Thinking...
Surowy

okay so the model is free under mit but running it yourself needs python and ffmpeg and um a decent computer otherwise its slow

Poprawiony

Okay, so the model is free under MIT, but running it yourself needs Python and ffmpeg, and a decent computer — otherwise it's slow.

Pytanie o dokładność ma więc dwie darmowe dźwignie i jedną płatną. Darmowe: wybierz model pasujący do Twojego sprzętu i podaj mu czyste audio z przyzwoitego mikrofonu. Płatna: transkrypcja w chmurze, która kupuje Ci najnowsze hostowane modele, gdy lokalna jakość nie wystarcza. Dla zdecydowanej większości dyktowań to właśnie darmowe dźwignie mają znaczenie. Nikt obiecujący „perfekcyjne transkrypty bez wysiłku” nie mówi Ci całej prawdy — model jest darmowy, ale dobre wejście nadal wykonuje większość pracy.

Ten sam przepływ mów-potem-popraw opłaca się wszędzie, nie tylko tu — możesz dyktować czysty tekst do dowolnej aplikacji jednym skrótem klawiszowym, więc długa wiadomość staje się kilkoma wypowiedzianymi zdaniami zamiast akapitu wystukiwanego na klawiaturze.

Kiedy płacenie za Whispera naprawdę ma sens

Waga szalkowa ważąca dwie opcje — ilustracja tego, kiedy darmowe wystarczy, a kiedy warto zapłacić

Skoro cały artykuł mówi „jest darmowy”, winien Ci jestem uczciwe drugą stronę medalu: są sytuacje, gdy zapłacenie to właściwy wybór, i udawanie inaczej byłoby sprzedażową gadką, a nie odpowiedzią. Jeśli darmowa lokalna ścieżka Ci wystarcza, bierz ją i zamknij tę kartę — większość ludzi kończy tu. Ale kilka sytuacji naprawdę uzasadnia płatny poziom.

Płać za chmurę, gdy dokładność przy trudnym nagraniu jest ważniejsza niż pieniądze — gęsty akcent w wywiadzie, nagranie w hałaśliwym terenie, transkrypt prawny, gdzie jedno złe słowo coś kosztuje. Hostowane modele OpenAI wygrywają z lokalnymi przy trudnym materiale, i płacisz OpenAI za minutę dokładnie za tę przewagę. Płać też wtedy, gdy chcesz, żeby asystent wyciągnął żywy fakt z internetu w trakcie zdania — lokalny model po prostu tego nie zrobi offline. I jeśli naprawdę potrzebujesz zerowej konfiguracji na maszynie, której nie kontrolujesz — zablokowanym służbowym laptopie, gdzie nie możesz zainstalować Pythona ani pobrać modelu — hostowana usługa może być jedynym wyjściem. Poza tymi przypadkami darmowa lokalna ścieżka to nie gorsza wersja. To ten sam model open-source robiący tę samą robotę za darmo.

Sięgaj po płatną wersję, gdy wbudowana darmowa ścieżka zaczyna dokuczać: najwyższa dokładność przy trudnym audio, wyszukiwanie w internecie na żywo albo maszyna, na której nic nie możesz uruchomić lokalnie. Poniżej tej granicy darmowy model na własnym sprzęcie to właściwa odpowiedź — i nie będę Ci mówić, żebyś płacił za to, co OpenAI już dało. Darmowa wersja istnieje, działa i ma ten sam silnik pod spodem.

A jeśli Twoim powodem do chcenia darmowego, lokalnego Whispera jest prywatność — trzymanie głosu z dala od cudzego serwera — warto przeczytać o w pełni offline zamianie mowy na tekst, bo to dokładnie to, co daje uruchamianie modelu na własnym komputerze.

Podsumowując: czy Whisper jest darmowy? Model jest, naprawdę, na licencji MIT i do uruchomienia przez Ciebie. Korzystanie z niego za darmo oznacza albo popołudnie przy wierszu poleceń, albo aplikację, która to popołudnie przepracowała za Ciebie. Płatna część to zawsze i tylko chmura — hosting, którego do codziennego dyktowania ściśle nie potrzebujesz. Większość tego tekstu podyktowałem do pola tekstowego, lokalnym darmowym modelem robiącym całą robotę, na laptopie, który ani razu nie poprosił mnie o kartę kredytową do transkrybowania zdania. To jest cała odpowiedź, i rzadko się zdarza móc takiej udzielić.

Uruchom darmowego Whispera bez konfiguracji

Przytrzymaj skrót, mów, puść. Model open-source transkrybuje na Twoim komputerze, za darmo, i wkleja tekst tam, gdzie jest kursor.

Darmowy tryb lokalny dla każdego zalogowanego konta. Bez karty na start.

Zdjęcie Denysa Medvedjeva

Denys Medvediev

To ja czytam maile do naszej obsługi — najpewniej dyktując odpowiedzi.

Więcej do poczytania