Autor: Denys Medvediev

Poradnik

Zamiana mowy na tekst w Evernote: na żywo czy z nagrania

Evernote nie ma własnego silnika dyktowania na żywo. Na komputerze pisanie wykonuje dyktowanie macOS albo wpisywanie głosowe w Windows; na telefonie to mikrofon klawiatury. Własna funkcja Evernote AI Transcribe obsługuje nagrane audio po fakcie. Ten przewodnik rozdziela te dwie ścieżki.

Ostatnia aktualizacja: czerwiec 2026

Otwarty notatnik i długopis obok laptopa na drewnianym biurku — przestrzeń do robienia notatek przez dyktowanie do Evernote

Zamiana mowy na tekst w Evernote działa na dwa różne sposoby, a większość poradników je myli. Evernote nie ma własnego silnika dyktowania na żywo — na komputerze pisanie wykonuje dyktowanie macOS albo wpisywanie głosowe w Windows, a na telefonie mikrofon klawiatury. Własna funkcja Evernote AI Transcribe obsługuje nagrane audio po fakcie.

Kiedyś spędziłem dwadzieścia minut, szukając „przycisku dyktowania w Evernote”, zanim pogodziłem się z tym, że on nie istnieje. Nie ma żadnego ukrytego ustawienia. Mikrofon, który dotykasz na komputerze, należy do systemu operacyjnego, a Evernote to tylko pole tekstowe, na które jest on skierowany. To nie zarzut wobec Evernote. To aplikacja do notatek, nie silnik mowy. Ale oznacza to, że dyktowanie na żywo, którego naprawdę chcesz — mówisz, patrzysz, jak słowa się pojawiają, mówisz dalej — zależy w całości od tego, co daje ci system, a na komputerze jest to działanie z ciągłym zatrzymywaniem i wznawianiem.

Dlatego ten przewodnik dzieli sprawę na dwie części. Jeśli chcesz dyktować na żywo do notatki w trakcie myślenia, to jedna ścieżka: system albo narzędzie działające w całym systemie, takie jak Whisper, które trzyma skrót klawiszowy i wkleja tekst w miejscu kursora. Jeśli masz już nagrane spotkanie albo notatkę głosową i chcesz mieć z nich tekst, to ścieżka własnej funkcji Evernote AI Transcribe — i ona naprawdę dobrze radzi sobie z tym zadaniem. Większość zamieszania w sieci bierze się z traktowania tych dwóch rzeczy jako jednej funkcji. Nią nie są.

Sytuacja głosowa Evernote, szczerze

Mikrofon i laptop ustawione na biurku do nagrywania dźwięku — kontrast między dołączonym audio a dyktowaniem na żywo

Oto nudna prawda. Evernote nie dostarcza żadnego własnego, stale aktywnego silnika dyktowania na żywo. Nawet własna pomoc Evernote kieruje cię do twojego urządzenia: włącz rozpoznawanie mowy w systemie, a potem użyj mikrofonu. To system robi całą robotę.

Na komputerze „zamiana mowy na tekst w Evernote” oznacza jedno z dwóch narzędzi systemu operacyjnego. Na Macu jest to dyktowanie w macOS, które transkrybuje krótkimi seriami — zatrzymuje się po dłuższej chwili ciszy i trzeba je uruchomić ponownie, więc długie dyktowanie to ciąg startów i zatrzymań. W Windows jest to wpisywanie głosowe (Win+H) albo dostęp głosowy — darmowe i wbudowane, piszące wprost w aktywne pole Evernote.

Na telefonie jest jeszcze prościej, niż ludzie myślą. „Zamiana mowy na tekst w Evernote”, którą widzisz na iPhonie albo Androidzie, to mikrofon dyktowania w twojej klawiaturze — mikrofon klawiatury iOS albo mikrofon Gboard. Evernote to pole tekstowe; transkrypcję robi klawiatura.

A potem jest jeszcze ta część, która faktycznie należy do samego Evernote: nagrywanie dźwięku plus AI Transcribe. Ta zasługuje na osobny rozdział, bo to właśnie ją ludzie najczęściej mylą z dyktowaniem na żywo.

Co Evernote naprawdę daje: nagraj, potem transkrybuj

Evernote ma prawdziwą funkcję audio. W edytorze notatki możesz wybrać Wstaw (+) > Nagranie audio, użyć menu „...” na pasku bocznym albo wpisać polecenie /audio. Możesz pisać i nagrywać jednocześnie; wstrzymanie, wznowienie i zatrzymanie zapisuje klip w notatce jako załącznik.

Po zapisaniu klipu pojawia się przycisk Transcribe, a Evernote AI Transcribe wstawia tekstową transkrypcję do notatki. Konwertuje też przesłane pliki audio, wideo i obrazów na tekst. Limit to 100 MB lub 60 minut na nagranie.

Przeczytaj tę kolejność jeszcze raz, bo w niej tkwi cały sens. Nagrywasz załącznik, a potem go transkrybujesz. To jest nagraj-potem-transkrybuj. To nie to samo, co słowa pojawiające się przy kursorze, gdy mówisz. Obie rzeczy są przydatne. Rozwiązują różne problemy. Nagrany wywiad potrzebuje AI Transcribe. Notatka, którą piszesz właśnie teraz, potrzebuje dyktowania na żywo.

Luka jest więc taka: dyktowanie na żywo w miejscu kursora na komputerze — to, co system robi w trybie start-stop, a czego Evernote nie robi w ogóle. To właśnie tę lukę wypełnia skrót klawiszowy działający w całym systemie.

Dyktuj do dowolnej notatki w Evernote jednym skrótem klawiszowym

Cancel
Nakładka nagrywania: niewielka kapsułka, która pojawia się, gdy mówisz, więc wiesz, że Whisper słucha.

Tu właśnie wkracza Whisper. Whisper to aplikacja na komputery z Windows i macOS, która umieszcza dyktowanie pod jednym globalnym skrótem klawiszowym. Przytrzymaj klawisz, mów, puść — i tekst trafia w miejsce kursora, w dowolnym polu, w które kliknąłeś.

Domyślny skrót to Ctrl+Space w Windows i Command+Option w macOS — przytrzymaj jak przycisk „naciśnij i mów”, puść, żeby zatrzymać. Ponieważ działa na poziomie systemu operacyjnego, wkleja tekst do aplikacji Evernote tak samo, jak wkleja go do Slack, Gmail czy twojego edytora: jeden skrót, każda aplikacja, bez konfiguracji dla poszczególnych aplikacji. Whisper to natywna aplikacja desktopowa, nie rozszerzenie przeglądarki, więc dyktuje do aplikacji Evernote na komputerze, nie tylko do Evernote w karcie.

Jedno uczciwe zastrzeżenie. Whisper wkleja do jednego aktywnego pola, po jednym polu naraz — tytuł notatki albo jej treść, tam, gdzie jest twój kursor. Nie wypełnia całego układu notatki jednym ruchem. Klikasz tam, gdzie mają trafić słowa, i mówisz. Tyle.

Test pudełka na lunch to ten, który przekonał mnie do mojego własnego narzędzia — co jest dziwnym zdaniem do napisania. Wtorkowy wieczór, robię pudełka na lunch dla dwójki dzieci, a szkoła przysłała zgodę, na którą trzeba było odpowiedzieć do ósmej. Złapałem laptopa jedną ręką, wcisnąłem skrót między krojeniem ogórka i podyktowałem notatkę wprost — łącznie z fragmentem, gdzie przerwałem, żeby zapytać, jak się pisze nazwisko nauczycielki, i fragmentem, gdzie młodsze dziecko spytało, dlaczego księżyca czasem nie ma. Notatka powstała. Pudełka na lunch też. Dokładnie to wcześniej zajmowało piętnaście minut pisania jedną ręką.

Nie musisz wierzyć mi na słowo co do tego przepływu. Poniżej osadzona jest prawdziwa aplikacja desktopowa. Wybierz język, obejrzyj ustawienia, zobacz dokładnie, co dostaniesz po instalacji — bez rejestracji, bez zrzutu ekranu czegoś, co może odpowiadać produktowi, a może nie.

Whisper
Prawdziwa aplikacja Whisper na komputer — wybierz język, obejrzyj ustawienia, zobacz dokładnie, co dostaniesz po instalacji.

Obsługuje ponad 90 języków w trybie lokalnym i w chmurze, a wielojęzyczna linia modeli sięga ponad 99 wraz z automatycznym wykrywaniem (warianty modeli tylko po angielsku obsługują dokładnie jeden język — angielski — i nic więcej). Dla większości osób dyktujących notatki do Evernote liczba języków nie jest czynnikiem rozstrzygającym. Dyktowanie systemowe i AI Transcribe w Evernote też obsługują mnóstwo języków. Różnica, która ma znaczenie, to: na żywo, w całym systemie i na urządzeniu.

Automatyczne czyszczenie dyktowania

Thinking...

Surowa mowa ma wypełniacze. „Yyy”, rozpoczynanie od nowa, fragment, gdzie przez pomyłkę powiedziałeś „przecinek” na głos. Whisper może uruchomić opcjonalny przebieg czyszczenia AI na surowej transkrypcji, dzięki czemu to, co trafia do twojej notatki, czyta się jak tekst pisany, a nie jak zapis twojego myślenia.

W darmowej konfiguracji lokalnej to czyszczenie działa na twoim własnym komputerze. W wersji Pro działa przez twój własny klucz API do chmury, co dodaje też odpowiedzi z sieci. Tak czy inaczej jest opcjonalne — wyłącz je, a dostaniesz dosłowną transkrypcję. Ja zostawiam je włączone do maili, a wyłączone do cytatów, które potrzebuję słowo w słowo.

Offline i prywatnie: twoje notatki zostają na twoim laptopie

Laptop z ikoną kłódki bezpieczeństwa na stole — ilustracja prywatnej transkrypcji na urządzeniu

Oto jedna opinia, przy której zostanę: dyktowanie tylko w chmurze to katastrofa prywatności czekająca na transkrypcję. Twój arkusz z wynagrodzeniem, mail do szkoły twojego dziecka, notatka dla klienta, którą piszesz — nic z tego nie powinno przechodzić przez logi dostawcy tylko dlatego, że chciałeś pisać głosem.

Tryb lokalny Whispera działa całkowicie offline. Podczas transkrypcji internet nie jest potrzebny; dźwięk nigdy nie opuszcza komputera. Połączenia wymaga jedynie jednorazowe pobranie modelu, gdzieś między 140 MB a 3 GB, w zależności od tego, który model wybierzesz. Potem każde słowo, które podyktujesz do notatki w Evernote, jest przetwarzane na twoim własnym procesorze, bez żadnej aktywności sieciowej.

To strukturalny kontrast z Evernote AI Transcribe i narzędziami do transkrypcji w chmurze opisywanymi przy tym temacie — one wysyłają twój dźwięk na serwer, żeby odzyskać go jako tekst. Do podcastu, który i tak publikujesz, w porządku. Do twoich notatek ze spotkania ja zostałbym przy wersji lokalnej. Jeśli chcesz szerszego uzasadnienia szybkiego dyktowania na urządzeniu, napisałem o tym w jak pisać szybciej głosem.

Lokalny tryb jest darmowy dla zalogowanych użytkowników, bez wymaganej karty przy rejestracji. Funkcje chmurowe są w ramach Whisper Pro — opcje możesz porównać na stronie cennika, zamiast brać tu jakąś liczbę ode mnie.

Kiedy odpuścić Whispera i użyć Evernote AI Transcribe

Otwarty notatnik z długopisem obok laptopa i kubka w przytulnej scenerii — porównanie wbudowanych narzędzi do notatek

Whispera odpuściłbym przy jednym częstym zadaniu. Jeśli to, co naprawdę masz, to nagranie — spotkanie, które nagrałeś, notatka głosowa, wykład uchwycony na telefonie — i chcesz mieć z tego tekst, użyj własnej funkcji Evernote AI Transcribe. Nagrywasz klip do notatki (albo przesyłasz plik), klikasz Transcribe, a Evernote wstawia tekst. Obsługuje audio do 100 MB lub 60 minut na nagranie. To właściwe narzędzie do nagraj-potem-transkrybuj i mieszka w aplikacji, której już używasz.

Podział jest czysty. Nagrane audio, z którego chcesz mieć tekst po fakcie, wewnątrz Evernote → AI Transcribe. Słowa pojawiające się na żywo, gdy piszesz notatkę, offline, za darmo, jednym skrótem klawiszowym w każdej aplikacji → Whisper. Jeśli twoja potrzeba to naprawdę ta pierwsza, nie instaluj drugiego narzędzia. Evernote ma cię już zabezpieczonego.

Evernote nie ukrywa przed tobą silnika dyktowania. Na komputerze część na żywo wykonuje twój system w seriach start-stop, na telefonie robi to klawiatura, a AI Transcribe zajmuje się nagraniami, które już zrobiłeś. To, czego żadne natywne narzędzie nie wypełnia czysto, to dyktowanie na żywo, offline, jednym skrótem klawiszowym, prosto do notatki, którą piszesz właśnie teraz. To jest ta luka. Zbudowałem do niej narzędzie, dyktuję nim zgody między krojeniem ogórka, a działa też w każdej innej aplikacji. Zobacz, jak działa Whisper albo pobierz go i podyktuj swoją następną notatkę zamiast ją pisać. W sąsiednich aplikacjach to samo podejście obejmuje zamianę mowy na tekst w OneNote, dyktowanie w Obsidian oraz wpisywanie głosowe na Macu.

Podyktuj swoją następną notatkę w Evernote

Kliknij w notatkę, przytrzymaj klawisz, mów, puść. Transkrypcja trafia tam, gdzie jest twój kursor — w Evernote i w każdej innej aplikacji.

Darmowy tryb lokalny dla każdego zalogowanego konta. Bez karty na start.

Zdjęcie Denysa Medvedieva

Denys Medvediev

To ja czytam nasze maile do wsparcia, najprawdopodobniej dyktując odpowiedzi.