Poradnik
Aplikacje do transkrypcji wykładów, wyjaśnione
Nagrywanie na żywo lub dyktowanie własnych notatek — skąd pochodzi dźwięk i dlaczego studenci powinni poważniej rozważyć wybór między przetwarzaniem lokalnym a chmurą.
Ostatnia aktualizacja: czerwiec 2026

Aplikacja do transkrypcji wykładów zamienia mówione zajęcia w tekst, który można przeszukiwać — albo rejestrując dźwięk na żywo, albo transkrybując nagranie po fakcie. Jedne narzędzia przesyłają nagrania do chmury. Inne, jak Whisper, transkrybują to, co dyktuje użytkownik, lokalnie na urządzeniu, za pomocą klawisza push-to-talk. Właściwy wybór zależy od tego, czyj głos chcesz uchwycić i gdzie przetwarzany jest dźwięk.
Zeszłej wiosny pewien student przesłał mi nagranie 90-minutowego wykładu z chemii organicznej i zapytał, dlaczego jego aplikacja zamieniła słowo „enancjomer” w „an anti-mom”. Słuszne pytanie. Szczera odpowiedź jest taka, że większość aplikacji do wykładów zmaga się z tym samym trudnym zadaniem: zamienianiem hałaśliwego pokoju z jednym cichym profesorem w czytelny tekst. Różnią się tym, dokąd wędruje dźwięk i kto może go zachować. 90-minutowy wykład to najgorszy scenariusz dla nagrań audio: odległość, echo, żargon i mikrofon zaprojektowany do rozmów wideo.
Studenci od lat chcą niezawodnej transkrypcji wykładów, a wbudowane aplikacje do notatek przez długi czas były niewiele warte nawet przy krótkich nagraniach. W 2026 roku ta luka się zamknęła. Kilka aplikacji potrafi teraz zamienić pełny wykład w przeszukiwany transkrypt wraz z podsumowaniem, a część działa na własnym laptopie bez przesyłania czegokolwiek na zewnątrz. Ten artykuł omawia różnicę między nagrywaniem zajęć na żywo a dyktowaniem własnych notatek, wyjaśnia skąd pochodzi dźwięk oraz dlaczego studenci powinni poważniej zastanowić się nad wyborem między lokalnym przetwarzaniem a chmurą. Czytam większość e-maili od studentów przychodzących do nas z prośbą o pomoc i nudna prawda jest taka, że lwia część pochodzi od osób, które od razu wybrały zły rodzaj aplikacji. Ta sterta zgłoszeń jest, pośrednio, powodem powstania tego artykułu.
Po aplikację do transkrypcji wykładów sięgają trzy rodzaje studentów: ten, któremu po 20 minutach pisania boli ręka, ten, który odpływa myślami i chce mieć zabezpieczenie, oraz ten, który uczy się w języku innym niż ojczysty. Wszyscy troje rozwiązują ten sam problem — nadążanie za mówiącym człowiekiem — i wszyscy troje zaraz się dowiedzą, że „aplikacja do transkrypcji” oznacza dwie różne rzeczy.
Nagraj wykład, otrzymaj czysty tekst. Na tym polega cała robota.
Jeśli odrzeć je z marketingu, każda aplikacja do transkrypcji wykładów robi jedno: pobiera dźwięk czyjejś mowy i zwraca tekst, który można przeszukiwać, cytować i na jego podstawie się uczyć. Profesor mówi, aplikacja słucha, słowa lądują na stronie. Różnice między narzędziami wynikają z tego samego: czy dźwięk jest nagrywany na żywo czy po fakcie, czy jest przetwarzany na serwerze czy na lokalnym komputerze i jak aplikacja czyści wynik.
Whisper by Remskill obsługuje stronę dyktowania w tej pracy. Przytrzymujesz klawisz, mówisz, a transkrypt jest wklejany przy kursorze w dowolnej aplikacji, w której piszesz — czy to Notion, Word, Google Doc, czy e-mail. Na Windows domyślny skrót to Ctrl+Space. Na macOS to akord push-to-talk Command+Option: przytrzymaj, żeby nagrać, puść, żeby zatrzymać. Po puszczeniu mikrofon pozostaje otwarty przez 500-milisekundowy bufor końcowy, żeby ostatnie słowo się nie ucinało. Nie ma kroku „dołącz do spotkania” ani czekania na upload. Mówisz i po chwili masz tekst.
To rozróżnienie ma większe znaczenie przy wykładach niż w większości przypadków — co wyjaśniam dalej.
Nagrywanie na żywo i dyktowanie własnych notatek to nie to samo

Tu jest podział, który myli większość studentów. Jedne aplikacje są stworzone do nagrywania zajęć na żywo: rejestrują salę lub dołączają do rozmowy na Zoomie i transkrybują głos profesora za ciebie. Inne są zaprojektowane tak, żebyś dyktował własnym głosem notatki i podsumowania, które chcesz zapisać. Obie dają transkrypt. Nie są jednak wymienne.
Whisper należy do drugiej grupy. Transkrybuje to, co słyszy jego mikrofon, gdy mówisz. Świetnie sprawdza się przy tej części nauki, która następuje po wykładzie: dyktowaniu podsumowania, kiedy masz je jeszcze świeże w głowie, omawianiu zadania, nagrywaniu własnego wytłumaczenia jakiegoś pojęcia albo pisaniu e-maila do grupy. To nie jest bot, który siedzi w sali i nagrywa za ciebie profesora. Jeśli chcesz bez nadzoru rejestrować czyjś wykład na żywo, lepszym narzędziem będzie dedykowany rejestrator — o konkretnych aplikacjach wspomnę w szczerym rozdziale dalej.
Nudna prawda jest taka, że najdokładniejszy transkrypt wykładu otrzymasz wtedy, gdy mówienie odbywa się blisko dobrego mikrofonu. Gdy dyktujemy własne notatki, usta masz 20 centymetrów od mikrofonu. Gdy nagrywasz profesora, jego usta są 20 metrów dalej, za mównicą, w walce z klimatyzacją. To samo oprogramowanie — dwa zupełnie różne światy wyników.
Skąd pochodzi dźwięk wykładu

Każdy transkrypt zaczyna się od mikrofonu, a sala wykładowa to miejsce, gdzie dobre mikrofony przechodzą prawdziwą próbę. Dźwięk może pochodzić z trzech źródeł. Pierwsze to wbudowany mikrofon laptopa, dostrojony do osoby siedzącej tuż przed nim: dobry do dyktowania własnych notatek, słaby przy profesorze w 200-osobowej auli. Drugie to pętla zwrotna systemu — dźwięk wychodzący przez głośniki, który uchwyciłbyś podczas transmisji na żywo przez Zooma albo nagranego kursu online. Trzecie to dedykowany mikrofon zewnętrzny umieszczony blisko źródła.
Ustawienie mikrofonu to największa dźwignia wpływająca na dokładność — a nie model transkrypcji. Mikrofon USB za 80 zł robi więcej dla jakości transkryptu niż przesiadka na większy model. Widziałem studentów, którzy godzinami analizowali, która aplikacja jest „najdokładniejsza”, dyktując do wbudowanego mikrofonu laptopa w kawiarni. Aplikacja nie była problemem. Problem był z dźwiękiem.
W przypadku zajęć online lub wykładu przez Zooma przechwytywanie pętli zwrotnej działa, bo mowa przychodzi już przez czyste kanały cyfrowe. W dużej sali na żywo realistyczną odpowiedzią jest nagrywanie blisko źródła: usiądź z przodu lub użyj mikrofonu przypinowego i transkrybuj potem. Żadna aplikacja nie zamieni rozmazanego nagrania z sali w perfekcyjny transkrypt. Zamieniają dobry dźwięk w świetny tekst — i zły dźwięk w „an anti-mom”.
Lokalne i chmurowe transkrypcje wyznaczają granicę prywatności, którą studenci powinni dostrzec
Większość porównań aplikacji do wykładów pomija ten punkt, a dla mnie jako studenta byłby to najważniejszy. Gdzie jest przetwarzany dźwięk? Dwie odpowiedzi. Narzędzia chmurowe wysyłają nagranie na serwer, tam je transkrybują i odsyłają tekst. Narzędzia lokalne robią to wszystko na laptopie — nic nie opuszcza urządzenia.
Między nami: chmurowa transkrypcja wykładu to decyzja o prywatności, którą ludzie podejmują, nie zdając sobie sprawy, że ją podejmują. Nagranie profesora — jego słowa, nieopublikowane badania, uwaga o nadchodzącym egzaminie — siedzące w logach dostawcy to drobnostka, dopóki nie przestaje nią być. Lokalnie albo wcale. To mocniejsze stwierdzenie niż zazwyczaj sobie pozwalam, ale je uzasadnię: kiedy nagranie istnieje tylko na twoim laptopie, żaden wyciek danych z serwera go nie ujawni, żadna zmiana regulaminu nie nada dostawcy prawa do trenowania modeli na twoich danych, żadne zapomniane konto nie zostawia po sobie śladów.
Whisper uruchamia lokalną transkrypcję w czystym Rust, bez sidecara w Pythonie, korzystając z dwóch silników do wyboru. Lokalny Whisper oferuje kilka rozmiarów modeli — od modelu Base ważącego około 140 MB do wielojęzycznego Large v3 o rozmiarze około 3 GB — a warianty wielojęzyczne obsługują 99 języków z tłumaczeniem na angielski. NVIDIA Parakeet to jeden model o rozmiarze około 600 MB, obsługuje angielski i 24 języki europejskie (25 łącznie) i działa 5 do 10 razy szybciej niż Whisper na procesorze, ale nie tłumaczy ani nie obsługuje języków azjatyckich. Jeśli chcesz najwyższej jakości i dostępu do sieci, dostępny jest też tryb chmurowy korzystający z własnego klucza OpenAI. Cały lokalny pipeline jest bezpłatny dla każdego zalogowanego użytkownika, bez karty przy rejestracji; Cloud to płatny dodatek. Całość działa też bez dostępu do internetu — jeśli to twoja główna potrzeba, znajdziesz szerszy opis w naszym przewodniku po mowie na tekst offline.
Inne aplikacje do wykładów, które warto znać
Whisper jest narzędziem do dyktowania, nie botem nagrywającym salę, dlatego uczciwie wskażę aplikacje stworzone do nagrywania na żywo. Oto jak różnią się popularne opcje — z prawdziwymi liczbami tam, gdzie podało je pierwotne źródło.
| Aplikacja | Do czego służy | Gdzie przetwarzany jest dźwięk | Bezpłatny plan | Języki |
|---|---|---|---|---|
| Whisper by Remskill | Dyktowanie własnych notatek i podsumowań | Lokalnie (Whisper lub Parakeet) lub chmura z własnym kluczem | Pełny lokalny pipeline bezpłatnie, bez karty | 99 w wielojęzycznym Whisper; 25 w Parakeet |
| Otter | Nagrywanie i podsumowywanie spotkań/zajęć na żywo | Chmura | 300 min/miesiąc, limit 30 min na nagranie | Nie podano w źródle |
| Apple Voice Memos | Nagrywanie wykładu, a następnie odczytanie transkryptu | Apple (wbudowane) | Wbudowane w macOS | Nie podano w źródle |
| Notta | Chmurowy asystent notatek AI do spotkań/zajęć | Chmura | Cena nie zweryfikowana | Dziesiątki, według własnych danych Notta |
Kilka pozycji w tej tabeli wymaga słowa komentarza. Bezpłatny plan Basic Otter daje 300 minut transkrypcji miesięcznie z limitem 30 minut na nagranie — oznacza to, że jeden 90-minutowy wykład nie zmieści się w jednym bezpłatnym nagraniu. Apple Voice Memos potrafi nagrać dźwięk, a następnie wyświetlić jego transkrypcję, więc dla użytkowników Maca jest to prawdziwa opcja „nagraj zajęcia, przeczytaj potem” — już zainstalowana na urządzeniu. Notta deklaruje obsługę dziesiątek języków, choć nie udało mi się otworzyć strony z cennikiem, by zweryfikować limity minut, więc szczegóły planu potraktuj jako „sprawdź przed zakupem”.
Kiedy Whisper nie jest odpowiednim wyborem do wykładów
Jeśli naprawdę potrzebujesz postawić narzędzie przed żywym profesorem i odejść z gotowym transkryptem jego słów — nie wybieraj Whisper. Transkrybujemy to, co dyktuje użytkownik, nie to, co mówi ktoś po drugiej stronie sali. Do samodzielnego nagrywania na żywo sięgnij po rejestrator do tego stworzony. Na Macu Apple Voice Memos nagrywa otoczenie i pokazuje transkrypcję bezpłatnie — już zainstalowane. Jeśli chcesz nagrywać spotkania na żywo z oznaczeniem głosów i podsumowaniami, do tego stworzony jest Otter. Jego bezpłatny plan obsługuje 300 minut miesięcznie, choć limit 30 minut na nagranie oznacza, że pełny wykład wymagałby płatnego planu. Używaj Whisper do nauki, która następuje po zajęciach: podsumowania, które dyktuje się gdy jest jeszcze świeże, zadania, które omawiasz na głos, e-maila wysyłanego przy okazji kolacji.
Lokalne transkrypcje bezpłatnie, Pro dla warstwy chmurowej
To część, o którą studenci pytają najczęściej: koszt. Cała lokalna część Whisper — oba silniki, ulepszanie AI przez lokalny model, historia, niestandardowy skrót, pobieranie modeli — jest bezpłatna dla każdego zalogowanego użytkownika, bez konieczności podania metody płatności przy rejestracji. To celowe. Lokalna transkrypcja działa na procesorze własnego laptopa. Pobieranie miesięcznej opłaty za moc obliczeniową, za którą już zapłaciłeś, nigdy nam nie leżało.
Płatny plan, Whisper Pro, dodaje warstwę chmurową: transkrypcję w chmurze OpenAI, ulepszanie AI w chmurze i wyszukiwanie internetowe sterowane głosem. Ta część generuje koszty po stronie OpenAI i wymaga serwera w pętli, więc stoi za subskrypcją z krótkim trialing Cloud. Dokładne ceny znajdziesz na stronie cennika. Do czystego dyktowania notatek z wykładów większość studentów nigdy nie wychodzi poza bezpłatny lokalny plan. O to właśnie chodzi.
Pewnego wtorkowego wieczoru pod koniec semestru, pakując śniadaniówki (kanapka, owoc, jogurt, którego młodsza córka nie chce jeść) musiałem odpisać nauczycielce na temat wycieczki szkolnej. Wziąłem laptopa jedną ręką, przytrzymałem klawisz i podyktowałem e-maila między krojeniem ogórka: chwila przerwy, żeby zapytać jak się pisze nazwisko nauczycielki, kolejna przerwa gdy młodsza zapytała, dlaczego księżyc czasem go nie ma na niebie, i dalej. E-mail poszedł. Śniadaniówki zostały spakowane. Moje pismo, notabene, nie pozwoliłoby osiągnąć żadnego z tych celów. Taka właśnie transkrypcja pasuje do prawdziwego życia — nie bot w auli, ale głos, który nadąża, gdy masz zajęte ręce. Wybierz narzędzie pasujące do zadania, a potem idź się uczyć. Zobacz, jak działa Whisper.
Chcesz wypróbować na kolejnej sesji nauki?
Pobierz Whisper, przytrzymaj klawisz i podyktuj podsumowanie wykładu, kiedy masz je jeszcze świeże. Pełny lokalny pipeline jest bezpłatny.
Bezpłatna lokalna transkrypcja dla każdego zalogowanego konta — bez karty przy rejestracji.



