작성자: Denys Medvediev

튜토리얼

Evernote의 음성-텍스트 변환: 실시간 받아쓰기와 녹음 변환

Evernote에는 자체 실시간 받아쓰기 엔진이 없습니다. 데스크톱에서는 macOS Dictation이나 Windows 음성 입력이 타이핑을 대신하고, 휴대폰에서는 키보드의 마이크가 그 역할을 합니다. Evernote 자체 AI Transcribe는 이미 녹음된 오디오를 나중에 변환해 줍니다. 이 가이드는 이 두 가지 경로를 분리해서 설명합니다.

마지막 업데이트: 2026년 6월

나무 책상 위 노트북 옆에 펼쳐진 공책과 펜, Evernote에 받아쓰기를 하기 위한 메모 작업 공간

Evernote의 음성-텍스트 변환은 서로 다른 두 가지 방식으로 작동하지만, 대부분의 가이드는 이 둘을 뒤섞어 설명합니다. Evernote에는 자체 실시간 받아쓰기 엔진이 없습니다. 데스크톱에서는 macOS Dictation이나 Windows 음성 입력이 타이핑을 대신하고, 휴대폰에서는 키보드의 마이크가 그 역할을 합니다. Evernote 자체 AI Transcribe는 이미 녹음된 오디오를 나중에 변환해 줍니다.

한번은 "Evernote 받아쓰기 버튼"을 찾느라 20분을 허비한 끝에 그런 건 존재하지 않는다는 사실을 받아들였습니다. 숨겨진 설정 같은 건 없습니다. 데스크톱에서 누르는 마이크는 운영체제의 것이고, Evernote는 그저 마이크가 가리키는 텍스트 상자일 뿐입니다. 이건 Evernote를 깎아내리려는 말이 아닙니다. Evernote는 메모 앱이지 음성 엔진이 아니니까요. 다만 그렇기 때문에, 여러분이 진짜로 원하는 실시간 받아쓰기 경험, 즉 말하면 단어가 나타나고 계속 이어가는 그 흐름은 전적으로 운영체제가 무엇을 제공하느냐에 달려 있고, 데스크톱에서는 그게 끊겼다 이어지는 식입니다.

그래서 이 가이드는 질문을 둘로 나눕니다. 생각하면서 메모에 실시간으로 받아쓰기를 하고 싶다면, 그건 하나의 경로입니다. 운영체제를 쓰거나, 단축키를 눌러 커서 위치에 붙여 넣는 Whisper 같은 시스템 전역 도구를 쓰는 거죠. 이미 녹음해 둔 회의나 음성 메모가 있고 그걸 글로 받아 보고 싶다면, 그건 Evernote 자체 AI Transcribe의 영역이고, 이 작업은 정말 잘 해냅니다. 온라인에서 벌어지는 혼란의 대부분은 이 둘을 같은 기능으로 취급하는 데서 옵니다. 둘은 같지 않습니다.

Evernote의 음성 상황, 솔직하게

오디오 녹음을 위해 책상에 놓인 마이크와 노트북, 첨부 오디오와 실시간 받아쓰기를 대비하는 모습

지루하지만 사실은 이렇습니다. Evernote에는 자체 개발한, 항상 켜져 있는 실시간 받아쓰기 엔진이 없습니다. Evernote의 자체 도움말 문구조차도 여러분의 기기를 가리킵니다. 시스템의 음성 인식을 켠 다음 마이크를 사용하라고 안내하죠. 실제 작업은 운영체제가 합니다.

데스크톱에서 "Evernote의 음성-텍스트 변환"이란 두 가지 운영체제 도구 중 하나를 뜻합니다. Mac에서는 macOS Dictation이며, 짧은 단위로 끊어서 받아씁니다. 한참 침묵이 이어지면 멈추기 때문에 다시 켜야 하고, 그래서 긴 글을 받아쓰는 건 시작과 멈춤의 연속이 됩니다. Windows에서는 음성 입력(Win+H)이나 Voice Access이며, 무료로 기본 내장되어 있고 포커스가 가 있는 Evernote 필드에 곧바로 타이핑됩니다.

모바일에서는 사람들이 생각하는 것보다 더 단순합니다. iPhone이나 Android에서 보이는 "Evernote 음성-텍스트 변환"은 키보드의 받아쓰기 마이크, 즉 iOS 키보드 마이크나 Gboard 마이크입니다. Evernote는 텍스트 필드이고, 변환은 키보드가 합니다.

그리고 정말로 Evernote 자체의 영역인 부분이 있습니다. 바로 오디오 녹음과 AI Transcribe입니다. 이건 별도의 섹션을 둘 만한 가치가 있는데, 사람들이 가장 자주 실시간 받아쓰기와 혼동하는 부분이기 때문입니다.

Evernote가 실제로 제공하는 것: 먼저 녹음하고, 그다음 변환

Evernote에는 진짜 오디오 기능이 있습니다. 메모 편집기에서 삽입(+) > 오디오 녹음을 누르거나, 사이드바의 "..." 메뉴를 쓰거나, /audio 슬래시 명령을 입력하면 됩니다. 타이핑과 녹음을 동시에 할 수 있고, 일시정지·재개·정지를 거치면 클립이 첨부 파일로 메모에 저장됩니다.

클립이 저장되면 Transcribe 버튼이 나타나고, Evernote AI Transcribe가 변환된 텍스트를 메모에 넣어 줍니다. 업로드한 오디오, 영상, 이미지 파일도 텍스트로 변환합니다. 녹음당 상한은 100MB 또는 60분입니다.

그 순서를 다시 한번 읽어 보세요. 그게 핵심이니까요. 먼저 첨부 파일을 녹음하고, 그다음에 변환합니다. 녹음 후 변환이라는 흐름이죠. 이건 말하는 동안 커서 위치에 단어가 나타나는 것과는 다릅니다. 둘 다 유용합니다. 다만 서로 다른 문제를 풉니다. 녹음된 인터뷰에는 AI Transcribe가 어울리고, 지금 작성 중인 메모에는 실시간 받아쓰기가 어울립니다.

그렇다면 빈틈은 데스크톱에서의 실시간 커서 받아쓰기입니다. 운영체제는 끊겼다 이어지는 식으로 하고, Evernote는 아예 하지 않는 그 일이죠. 바로 그 빈틈을 시스템 전역 단축키가 채웁니다.

단축키로 어떤 Evernote 메모든 받아쓰기

Cancel
녹음 오버레이: 말하는 동안 나타나는 작은 캡슐로, Whisper가 듣고 있다는 걸 알려 줍니다.

여기서 Whisper가 등장합니다. Whisper는 Windows와 macOS용 데스크톱 앱으로, 받아쓰기를 단 하나의 전역 단축키 뒤에 둡니다. 키를 누른 채로 말하고 손을 떼면, 여러분이 클릭해 둔 필드에 텍스트가 커서 위치로 들어옵니다.

기본 단축키는 Windows에서 Ctrl+Space, macOS에서 Command+Option입니다. 누르고 있으면 말하기 모드(push-to-talk)이고, 손을 떼면 멈춥니다. 운영체제 수준에서 작동하기 때문에, Slack이나 Gmail, 편집기에 붙여 넣는 것과 똑같은 방식으로 Evernote 데스크톱 앱에도 붙여 넣습니다. 단축키 하나면 모든 앱에서, 앱별 설정 없이 됩니다. Whisper는 브라우저 확장이 아니라 네이티브 데스크톱 앱이므로, 탭으로 열린 Evernote만이 아니라 Evernote 데스크톱 앱에도 받아쓰기를 합니다.

솔직한 단서 하나. Whisper는 포커스가 가 있는 단일 필드에, 한 번에 하나의 필드에만 붙여 넣습니다. 메모 제목이든 본문이든, 커서가 있는 곳이죠. 한 번에 메모 전체 레이아웃을 채우지는 않습니다. 단어가 들어갈 곳을 클릭한 다음 말하면 됩니다. 그게 전부입니다.

도시락 테스트는 제가 만든 도구에 제 스스로 확신을 갖게 된 사건인데, 이걸 글로 쓰려니 어색하네요. 어느 화요일 저녁, 두 아이 도시락을 싸고 있었는데 학교에서 8시까지 답을 줘야 하는 동의서가 왔습니다. 한 손으로 노트북을 집어 들고, 오이를 썰다 말고 단축키를 눌러 메모를 곧바로 받아썼습니다. 선생님 이름 철자를 어떻게 쓰는지 잠깐 멈춰 물어본 대목도, 막내가 왜 달이 어떤 날은 안 보이냐고 물어본 대목도 함께요. 메모는 작성됐고, 도시락도 다 쌌습니다. 똑같은 일을 예전엔 한 손으로 타이핑하느라 15분이 걸렸죠.

그 흐름을 제 말만 믿으실 필요는 없습니다. 아래 임베드는 실제 데스크톱 앱입니다. 언어를 골라 보고, 설정을 살펴보고, 설치 후 무엇을 얻게 될지 정확히 확인해 보세요. 가입도 없고, 출시된 제품과 일치할지 모를 스크린샷도 아닙니다.

Whisper
실제 Whisper 데스크톱 앱 — 언어를 고르고, 설정을 살펴보고, 설치 후 무엇을 얻게 될지 정확히 확인해 보세요.

로컬 모드와 클라우드 모드 모두에서 90개 이상의 언어를 지원하며, 다국어 모델 계열은 자동 감지를 포함해 99개 이상까지 다룹니다(영어 전용 모델 변형은 딱 한 가지 언어, 영어만 하고 그 외에는 아무것도 안 합니다). Evernote에 메모를 받아쓰는 대부분의 사람에게 언어 개수는 결정적 요인이 아닙니다. Evernote의 운영체제 받아쓰기와 AI Transcribe도 많은 언어를 다루니까요. 정작 중요한 차이는 실시간이라는 점, 시스템 전역이라는 점, 그리고 기기 안에서 처리된다는 점입니다.

받아쓴 내용을 자동으로 다듬기

Thinking...

다듬지 않은 말에는 군더더기가 있습니다. "음" 같은 말, 말을 다시 시작한 부분, 실수로 "쉼표"라고 소리 내어 말한 대목 같은 거죠. Whisper는 원본 받아쓰기 위에 선택적인 AI 다듬기 과정을 한 번 돌릴 수 있어서, 메모에 들어가는 글이 생각을 받아 적은 기록이 아니라 다듬어진 문장처럼 읽히게 합니다.

무료 로컬 설정에서는 그 다듬기가 여러분의 컴퓨터에서 실행됩니다. Pro에서는 여러분 본인의 클라우드 API 키를 통해 실행되며, 여기에 웹 답변까지 더해집니다. 어느 쪽이든 선택 사항입니다. 끄면 말 그대로의 받아쓰기를 얻게 되죠. 저는 이메일에는 켜 두고, 한 글자도 다르면 안 되는 인용문에는 꺼 둡니다.

오프라인이면서 비공개: 메모가 여러분의 노트북 안에 머뭅니다

탁자 위에서 보안 자물쇠 아이콘을 띄운 노트북, 기기 내에서 비공개로 이뤄지는 변환을 표현한 모습

여기 제가 깃발을 꽂을 의견 하나가 있습니다. 클라우드 전용 받아쓰기는 받아쓰여지기를 기다리는 프라이버시 재앙입니다. 여러분의 연봉 스프레드시트, 아이 학교에 보내는 이메일, 지금 작성 중인 고객 메모, 그중 어떤 것도 단지 음성으로 타이핑하고 싶었다는 이유만으로 어느 업체의 로그를 거쳐 가서는 안 됩니다.

Whisper의 로컬 모드는 완전히 오프라인으로 작동합니다. 변환 중에는 인터넷이 필요 없고, 오디오는 컴퓨터를 절대 떠나지 않습니다. 연결이 필요한 유일한 순간은 일회성 모델 다운로드뿐인데, 어떤 모델을 고르느냐에 따라 140MB에서 3GB 사이입니다. 그 후로는 Evernote 메모에 받아쓰는 모든 단어가 네트워크 활동 없이 여러분 자신의 CPU에서 처리됩니다.

이게 Evernote AI Transcribe 및 이 주제와 관련된 클라우드 변환 도구들과의 구조적 차이입니다. 그것들은 텍스트를 돌려받기 위해 여러분의 오디오를 서버로 보내죠. 어차피 공개할 팟캐스트라면 괜찮습니다. 하지만 회의 메모라면 저는 로컬에 두겠습니다. 빠른 기기 내 받아쓰기에 대한 더 큰 그림이 궁금하다면, 음성으로 더 빠르게 타이핑하는 법에서 정리해 두었습니다.

로컬 파이프라인은 로그인한 사용자에게 무료이며, 가입 시 카드가 필요하지 않습니다. 클라우드 기능은 Whisper Pro에 속합니다. 제가 여기서 숫자를 말씀드리는 대신, 요금제 페이지에서 직접 옵션을 비교해 보세요.

Whisper를 건너뛰고 Evernote의 AI Transcribe를 쓸 때

아늑한 분위기 속 노트북과 머그잔 옆에 펜과 함께 펼쳐진 공책, 내장 메모 도구를 저울질하는 모습

흔한 작업 하나에는 저도 Whisper를 건너뜁니다. 정작 가진 것이 녹음, 즉 녹음한 회의, 음성 메모, 휴대폰으로 담은 강의이고 그걸 글로 받아 보고 싶다면, Evernote 자체 AI Transcribe를 쓰세요. 클립을 메모에 녹음하거나(또는 파일을 업로드하고) Transcribe를 누르면, Evernote가 텍스트를 넣어 줍니다. 녹음당 최대 100MB 또는 60분까지 처리합니다. 녹음 후 변환에 딱 맞는 도구이고, 여러분이 이미 쓰고 있는 앱 안에 들어 있습니다.

구분은 명확합니다. 녹음된 오디오를 사후에 Evernote 안에서 글로 받아 보고 싶다면 → AI Transcribe. 메모를 작성하는 동안 오프라인으로, 무료로, 모든 앱에서 단축키 하나로 단어가 실시간으로 나타나길 원한다면 → Whisper. 여러분의 필요가 정말로 첫 번째라면, 두 번째 도구를 굳이 설치하지 마세요. Evernote가 이미 다 해 줍니다.

Evernote가 여러분에게서 받아쓰기 엔진을 숨기고 있는 게 아닙니다. 데스크톱에서는 운영체제가 끊겼다 이어지는 식으로 실시간 부분을 처리하고, 모바일에서는 키보드가, 그리고 AI Transcribe는 이미 만들어 둔 녹음을 다룹니다. 어떤 기본 도구도 깔끔하게 채우지 못하는 부분은, 지금 작성 중인 메모에 대고 하는 실시간, 오프라인, 단축키 하나짜리 받아쓰기입니다. 바로 그게 빈틈입니다. 저는 그걸 위한 도구를 만들었고, 오이를 썰다 말고 그걸로 동의서를 받아쓰며, 다른 모든 앱에서도 잘 작동합니다. Whisper가 어떻게 작동하는지 보기를 누르거나, 다운로드해서 다음 메모를 타이핑하는 대신 받아써 보세요. 인접한 앱들에 대해서도 같은 방식이 적용됩니다. OneNote의 음성-텍스트 변환, Obsidian 받아쓰기, 그리고 Mac에서 음성 타이핑도요.

다음 Evernote 메모를 받아쓰세요

메모를 클릭하고, 키를 누른 채로 말한 뒤, 손을 떼세요. 받아쓴 글이 커서가 있는 곳에 들어옵니다. Evernote에서도, 다른 모든 앱에서도요.

로그인한 계정이라면 누구나 로컬 모드 무료. 시작하는 데 카드가 필요 없습니다.

Denys Medvediev 사진

Denys Medvediev

저는 우리 지원 이메일을 읽는 사람이고, 답장도 십중팔구 받아쓰기로 합니다.