Poradnik
OpenAI Whisper na Windows
OpenAI Whisper to darmowy model zamiany mowy na tekst o otwartym kodzie, dostępny na licencji MIT. Na Windowsie zwykle uruchamia się go przez Pythona i wiersz poleceń, by transkrybować pliki audio. Whisper by Remskill pakuje te modele w aplikację desktopową, dzięki czemu zamiast tego możesz dyktować na żywo do dowolnej aplikacji.
Ostatnia aktualizacja: czerwiec 2026

OpenAI Whisper to darmowy model zamiany mowy na tekst o otwartym kodzie, wydany na licencji MIT. Na Windowsie zwykle uruchamia się go przez Pythona i wiersz poleceń, transkrybując pliki audio, które mu wskażesz. Whisper by Remskill pakuje te modele w aplikację desktopową, dzięki czemu zamiast tego możesz dyktować na żywo do dowolnej aplikacji.
OpenAI Whisper to darmowy model o otwartym kodzie. Na świeżo zainstalowanym Windowsie oficjalna wersja wymaga Pythona, ffmpeg i wiersza poleceń, żeby transkrybować pliki. Jeśli masz gotowy plik, poradzą sobie z nim darmowe narzędzia z interfejsem, takie jak Buzz czy Whisper Desktop. Jeśli chcesz po prostu mówić i patrzeć, jak słowa pojawiają się w miejscu kursora w dowolnej aplikacji, Whisper by Remskill pakuje te same modele tak, że nie trzeba niczego kompilować, i daje darmowy lokalny plan.
Co ludzie mają na myśli, mówiąc „OpenAI Whisper na Windows”
Mało ekscytująca prawda jest taka, że „OpenAI Whisper” to dwie różne rzeczy noszące tę samą nazwę, a wyniki wyszukiwania codziennie je ze sobą mylą.
Pierwsza rzecz to model. Whisper to model rozpoznawania mowy, który OpenAI udostępniło na otwartej licencji MIT, więc zarówno kod, jak i wytrenowane wagi można pobrać i wykorzystać za darmo. Dostępny jest w sześciu rozmiarach (tiny, base, small, medium, large i turbo), z których cztery mają wariant tylko angielski, oferując wymianę szybkości na dokładność. Jest wielojęzyczny i potrafi tłumaczyć mowę na angielski jedną flagą. To naprawdę robi wrażenie i jest naprawdę darmowe.
Druga rzecz to sposób, w jaki faktycznie się go uruchamia. Oficjalny Whisper to pakiet Pythona. Instalujesz go przez pip, obok instalujesz narzędzie ffmpeg działające z wiersza poleceń, a potem podajesz mu plik audio z terminala. Jeśli „terminal”, „pip” i „ffmpeg” brzmią już jak sobota, której nie planowałeś tak spędzić, to właśnie znalazłeś lukę, o której jest ten cały artykuł. Wiersz poleceń to narzędzie, w którym wpisujesz komputerowi komendy, zamiast klikać. Większość użytkowników Windowsa nigdy nie otworzyła go celowo.
Więc gdy ktoś wpisuje w Google „OpenAI Whisper na Windows”, zazwyczaj chce jednej z dwóch odpowiedzi. Albo: jak sprawić, żeby ten darmowy model transkrybował moje pliki, bez dyplomu z informatyki? Albo: chcę po prostu mówić i widzieć, jak pojawiają się moje słowa, czy ta rzecz to potrafi? To różne potrzeby i wymagają różnych narzędzi. Odpowiem na obie i będę szczery co do tego, które narzędzie wygrywa w każdym przypadku.
Darmowy model jest świetny. Haczyk tkwi w konfiguracji.
Oto fragment, który strony produktowe pomijają. Whisper jako model nie kosztuje nic. Whisper jako doświadczenie, na świeżo zainstalowanym Windowsie, kosztuje cię całe popołudnie.
Żeby uruchomić oficjalny OpenAI Whisper, instalujesz Pythona, potem instalujesz pakiet Whisper, potem instalujesz ffmpeg i upewniasz się, że Windows go znajdzie, a następnie otwierasz terminal i uruchamiasz komendę dla każdego pliku. Nic z tego nie jest trudne dla programisty. Wszystko to jest murem dla każdego innego: dla pisarza, prawnika, studenta, handlowca, dla mojej własnej mamy, która zgodziła się spróbować dyktowania przy trzecim pokazie, a zgodziłaby się na dokładnie zero pokazów zawierających zwrot „dodaj ffmpeg do swojej zmiennej PATH”.
Istnieją przyjaźniejsze drogi na skróty i warto je znać. Whisper.cpp to zwykły port tego samego modelu w C/C++: na licencji MIT, szybki, działający tylko na CPU, całkowicie bez Pythona. Ale i tak budujesz go ze źródeł albo uruchamiasz z wiersza poleceń. To piękny kawałek inżynierii wymierzony prosto w ludzi, którzy lubią kompilatory. Reszta tego artykułu jest dla tych, którzy ich nie lubią.
Kiedy zamiast tego chcesz Whispera z wiersza poleceń (albo narzędzia do transkrypcji plików)
Teraz odeślę cię gdzie indziej, bo to jest ta szczera część.
Jeśli to, co faktycznie masz, to plik audio (nagrany wywiad, odcinek podcastu, zapisana rozmowa z Teams, notatka głosowa), to nasza aplikacja jest niewłaściwym narzędziem i wolę ci to powiedzieć, niż wciskać coś, co nie pasuje. My zajmujemy się dyktowaniem na żywo: mówisz, a słowa pojawiają się w miejscu kursora. Nie bierzemy istniejącego pliku i go nie transkrybujemy. Inne zadanie.
Do tego zadania trzy darmowe narzędzia są naprawdę dobre i są stworzone dokładnie pod to:
- Buzz transkrybuje i tłumaczy pliki audio offline, napędzany przez Whispera od OpenAI, na licencji MIT, i działa na Windowsie. Jeśli chcesz prawdziwego okna z przyciskami zamiast terminala, zacznij tutaj.
- Whisper Desktop (Const-me) to aplikacja z interfejsem na Windows. Rozpakowujesz ją, uruchamiasz WhisperDesktop.exe, wskazujesz plik, a ona transkrybuje, używając twojej karty graficznej przez DirectCompute. Jest na licencji MPL-2.0 i szybka na przyzwoitej karcie graficznej.
- whisper.cpp to oszczędna opcja, jeśli czujesz się swobodnie w wierszu poleceń i chcesz czystej szybkości bez Pythona.
To nie jest dyplomacja dla samej dyplomacji. Odsyłanie cię do właściwego narzędzia, gdy nie jest nim nasze, to cały powód, dla którego powinieneś uwierzyć w resztę. Jeśli masz plik, użyj Buzza. Jeśli masz mikrofon i zdanie w głowie, czytaj dalej.
Co Whisper by Remskill naprawdę robi na Windowsie
Wzięliśmy te same modele Whisper o otwartym kodzie, plus drugi silnik, i opakowaliśmy je w aplikację na Windows tak, że nie trzeba niczego budować ani nic wpisywać w terminalu.
Instalujesz jedną aplikację, około 25 MB. Logujesz się. Naciskasz skrót, którym domyślnie jest Ctrl + Space i który można dowolnie zmieniać. Mówisz. Puszczasz. Tekst pojawia się w miejscu kursora w dowolnej aplikacji, w której już byłeś: Word, Outlook, przeglądarka, Slack, edytor kodu, pole wyszukiwania. Żadnego pliku, żadnego terminala, żadnej karty graficznej; cała lokalna transkrypcja działa na twoim CPU.
Pod maską wybierasz spośród trzech dróg, bo to nie my wybieramy za ciebie model:
- Lokalny Whisper (8 modeli) to Whisper o otwartym kodzie, po który tu przyszedłeś, dołączony i gotowy do użycia. Zoptymalizowane pod angielski, od Base (~140 MB) aż po Medium (~1,5 GB), plus wersje wielojęzyczne do Large v3 (~3 GB). Wersje wielojęzyczne obejmują 99 języków i potrafią tłumaczyć na angielski.
- Parakeet (NVIDIA TDT, ~600 MB) to osobny silnik, od 5 do 10 razy szybszy od Whispera na CPU, obsługujący angielski plus 24 inne języki europejskie. Bez tłumaczenia na angielski. Wybierz go, jeśli zależy ci na szybkości i pracujesz głównie po angielsku.
- Chmura (OpenAI, własny klucz) pozwala podłączyć własny klucz OpenAI, by uzyskać najwyższą dokładność i wyszukiwanie w sieci; nie pobieramy z tego prowizji. To jedna funkcja w planie Pro.
Lokalny pipeline (każdy model Whisper, Parakeet, czyszczenie przez AI za pomocą Ollama, historia, presety, własny skrót, pobieranie modeli) jest darmowy dla każdego zalogowanego użytkownika, bez karty przy rejestracji. Droga przez Chmurę to płatny plan Pro; liczby zobaczysz na stronie z cennikiem.
Dlaczego prawdziwa aplikacja do dyktowania na Windows jest trudniejsza niż pip install
Oto rzecz, przed którą nikt cię nie ostrzega, gdy mówi „po prostu opakuj Whispera w interfejs”.
Model to łatwa część. Sprawienie, żeby skrót klawiszowy zachowywał się poprawnie na Windowsie, już nie. Pierwsza wersja naszego kodu obsługującego skróty odpalała callback kończący nagrywanie sześć razy na jedno prawdziwe naciśnięcie klawisza. Na Macu działała idealnie. Na czystej instalacji Windows działała idealnie. Rozpadała się na prawdziwych komputerach klientów, tych z włączoną metodą wprowadzania języka, która na Windowsie generuje fantomowe zdarzenia zwolnienia Ctrl + Space w nieprzewidywalnych momentach. Zajęło to dni analizy telemetrii, potem 50 ms debounce'u, który nie wystarczył, a potem 300 ms debounce'u, który w końcu zadziałał. Dowiedziałem się o frameworku metod wprowadzania w Windowsie więcej, niż jakikolwiek człowiek powinien, a mam tytuł magistra. Werdykt mojej starszej córki, gdy jej to wyjaśniłem: „to dlatego pisanie maili zajmuje tacie wieki”.
Na tym polega różnica między modelem a produktem. Darmowy Whisper daje ci transkrypcję pliku. Aplikacja do dyktowania musi przetrwać prawdziwy pulpit Windows, w prawdziwych aplikacjach, podczas gdy ty robisz coś innego. Model nigdy nie widzi tej walki. My ją widzimy i najpierw przez jakiś tydzień ją przegrywaliśmy.
Kiedy wbudowane narzędzie Windows to wszystko, czego potrzebujesz
Powiedz ludziom, kiedy nie kupować twojej rzeczy, a być może uwierzą ci w resztę. Więc: jeśli tylko od czasu do czasu dyktujesz krótką notatkę, możesz nie potrzebować niczego z tego. Windows 11 ma wbudowane narzędzie do pisania głosem, które otwierasz skrótem Win + H. Jest darmowe i w zupełności wystarcza do paru linijek, choć kieruje twoje audio do rozpoznawania mowy w chmurze Microsoftu, zamiast działać na twoim komputerze. Do szybkiej odpowiedzi w Teams to całkowicie wystarcza.
Zaczynamy być warci instalacji mniej więcej w momencie, gdy redagujesz prawdziwy tekst (długie maile, pisma, streszczenia wykładów, komentarze w kodzie, warianty marketingowe) i chcesz, żeby został na twoim komputerze, w 99 językach, z tym samym skrótem wszędzie. Jeśli twój dzień to dwulinijkowe czaty, to tyle. Jeśli twój dzień to pisanie, zostaw aplikację.
Dalsza lektura
OpenAI Whisper to darmowy model o otwartym kodzie, a na Windowsie zwykle wymaga Pythona, ffmpeg i terminala, żeby transkrybować pliki. Jeśli masz plik, Buzz albo Whisper Desktop zrobią to za darmo, w prawdziwym oknie. Jeśli to, czego naprawdę chcesz, to mówić i patrzeć, jak słowa pojawiają się w miejscu kursora w dowolnej aplikacji, bez kompilowania, bez wiersza poleceń, działając lokalnie na twoim CPU, to właśnie to stworzyliśmy.
Po pełniejsze omówienie krajobrazu darmowych kontra płatnych rozwiązań zajrzyj do zamiana mowy na tekst na Windows. Aby wybrać między naszymi dwoma lokalnymi silnikami, zobacz Whisper kontra Parakeet.
Podyktuj swoje pierwsze zdanie w około minutę
Pobierz Whisper by Remskill na Windows, zaloguj się bez podawania karty, naciśnij Ctrl + Space i mów. Lokalny pipeline jest darmowy tak długo, jak go używasz.
Darmowa lokalna transkrypcja na zawsze. Bez metody płatności przy rejestracji. Plan Chmura to jedyna płatna funkcja.



