작성자: Denys Medvediev

가이드

작가를 위한 실시간 받아쓰기 앱

작가를 위한 실시간 받아쓰기 앱은 문장을 말하면 잠시 후 커서 위치에 텍스트가 나타납니다. Whisper는 핫키를 누른 채로 말하고 손을 떼면, 로컬 모델 기준 약 1.5초 만에 지금 작업 중인 문서에 바로 붙여넣기 됩니다.

최종 업데이트: 2026년 6월

어두운 책상 위에 키보드와 열린 문서 옆에 놓인 작가의 손. 음성으로 초안을 작성하는 분위기를 담은 이미지

작가를 위한 실시간 받아쓰기 앱은 커서 위치에서 음성을 텍스트로 빠르게 변환합니다. Whisper는 푸시투토크 방식입니다. 핫키를 누른 채 문장을 말하고 손을 떼면, 화면의 편집기에 텍스트가 붙여넣기 됩니다. 로컬 모델 기준 키를 놓은 순간부터 텍스트까지 약 1.4초. 오프라인에서 무료로, 어떤 데스크톱 앱에서도 작동합니다.

저는 타이핑이 글쓰기에서 가장 느린 부분이었기 때문에 Whisper를 만들었습니다. 생각하는 것도, 편집하는 것도 아닌, 이미 머릿속에서 완성한 문장을 손가락이 따라가는 그 행위 자체가 문제였습니다. 음성이 이를 해결합니다. 말하는 속도는 분당 약 145단어, 타이핑 속도는 기껏해야 40단어입니다. 이 차이가 핵심입니다.

하지만 '실시간'이라는 말은 오해를 부르기 쉽고, 대부분의 받아쓰기 앱 홍보 페이지는 잘못된 기대를 심어 줍니다. 그래서 다운로드하기 전에, 여기서 말하는 실시간이 실제로 무엇을 의미하는지, 지연이 어떻게 느껴지는지, 그리고 이 앱이 장문의 산문, 블로그 게시물, 소설, 계속 미뤄왔던 이메일 같은 실제 초안 작업에 어떻게 맞는지를 솔직하게 말씀드리고 싶습니다.

대부분의 마케팅 페이지가 건너뛰는 솔직한 버전입니다. Whisper는 푸시투토크 방식입니다. 핫키를 누른 채로 한 문장 또는 몇 문장을 말하고 나서 손을 뗍니다. 텍스트는 손을 뗀 순간 커서 위치에 붙여넣기 됩니다. 법정 속기사 화면처럼 말하는 도중 단어가 하나씩 나타나는 방식이 아닙니다. 단위는 음절이 아니라 발화 전체입니다.

이 차이는 올바른 기대치를 설정하는 데 중요합니다. 입과 동시에 화면에 글자가 흘러내리는 장면을 상상하셨다면, 그것은 라이브 캡션으로 전혀 다른 도구입니다. Whisper가 작가에게 주는 것은 실제로 그보다 빠릅니다. 하나의 생각을 말하면 나타나고, 다음 생각을 말합니다. 로컬 모델 기준 왕복 시간은 약 1.4초입니다. 의식하지 않고 그냥 쓰기 시작할 만큼 충분히 빠릅니다.

작가에게 '실시간'이 실제로 의미하는 것

노트북 옆에 노트가 놓인 책상에서 타이핑하는 작가. 음성이 대체하는 초안 작성 흐름을 보여주는 이미지

작가들이 받아쓰기에 손을 뻗는 이유는 저와 같습니다. 초안은 머릿속에 있는데 키보드가 그 사이를 가로막고 있기 때문입니다. 첫 번째 초안은 빠르고 거칠어야 합니다. 그런데 키보드는 그것을 느리고 깔끔하게 만드는데, 이것은 완전히 거꾸로입니다. 말로 하면 생각하는 속도로 지저분한 버전을 내려놓을 수 있고, 손가락이 진짜 필요한 편집은 그다음에 옵니다.

그래서 작가가 '실시간 받아쓰기'를 검색할 때 원하는 것은 보통 이것입니다. 문장을 말하고, 다음 문장을 잃기 전에 그것이 나타나는 것. 그것이 진짜 기준입니다. 글자 하나하나가 스트리밍되는 것이 아니라, 2초 미만의 간격으로 생각이 증발하기 전에 단어가 거기 있는 것. Whisper는 그것을 달성합니다. M1 Air의 로컬 모델에서 핫키를 놓는 순간부터 문서에 텍스트가 나타날 때까지 약 1.4초이고, 더 큰 모델을 쓰는 중급형 Windows 머신에서는 2초를 조금 넘습니다. (지연이 2초를 넘어가면 흐름이 끊기는 걸 직접 봤습니다. 뇌가 다시 화면에 관여하면서 맥락을 잃게 됩니다. 그래서 저는 이 숫자에 집착합니다.)

작가들이 원하는 또 한 가지는 문서를 절대 떠나지 않는 것입니다. 긴 초안은 몰입 상태이고, 몰입은 별도의 받아쓰기 창을 열고, 녹음을 시작하고, 기다리고, 복사하고, 다시 붙여넣기 하는 과정을 버티지 못합니다. Whisper는 지금 열려 있는 앱의 커서 위치에 바로 붙여넣기 합니다. Scrivener, Word, 브라우저의 Google Docs, 일반 텍스트 편집기, CMS 어디서든 마찬가지입니다. 창을 전환할 필요가 없습니다. 키를 누르고 계속 씁니다. 엄밀히 말하면 손을 뗄 때 붙여넣기 되지만, 그것이 실시간처럼 느껴지게 만드는 부분입니다.

핫키를 누르고, 말하고, 손을 떼면 — 텍스트가 알아서 붙여넣기 됩니다

작동 방식은 단순합니다. 이것이 소프트웨어에게 줄 수 있는 가장 높은 칭찬입니다. 핫키를 누르고, 말하고, 손을 떼면 포커스가 있는 곳의 커서 위치에 텍스트가 붙여넣기 됩니다. Whisper는 손을 뗀 후 250밀리초의 여유를 두므로 마지막 단어가 잘리지 않습니다. 운영 체제 커서 위치에 붙여넣기 되기 때문에 원고는 그냥 '텍스트 상자'입니다. Scrivener, Final Draft, Word, 브라우저의 Substack 초안 모두 동일하게 작동하며 앱별 설정이 필요 없습니다.

말하는 동안 작은 캡슐이 나타나 듣고 있음을 알려주고, 단어가 나타나기 직전에 짧은 변환 단계를 보여줍니다. 이것이 전체 루프입니다. Alt-Tab으로 이동할 별도 앱 창도 없고, 찾아야 할 녹음 버튼도 없고, 내보낼 파일도 없습니다. 커서가 문단에 있으면 말하는 즉시 문장이 그 문단에 나타납니다.

Cancel
녹음 오버레이: 말하는 동안 나타나는 작은 캡슐로, Whisper가 듣고 있음을 알려줍니다.

핫키는 처음부터 제대로 설정할 가치가 있는 유일한 항목입니다. Windows에서는 Ctrl+Space이고, Mac에서는 말하는 동안 누르고 있는 푸시투토크 수정키인 Command+Option입니다. 둘 다 설정에서 변경할 수 있는데, 많은 글쓰기 앱이 자체 단축키로 키를 선점하기 때문에 작가에게는 이 부분이 중요합니다. (어린 딸이 드로잉 앱에서 핫키가 '작동하지 않는다'고 말한 적이 있습니다. 버그가 아니라 충돌이었는데, 그 덕분에 일반 사용자는 핫키 충돌이 뭔지조차 모른다는 걸 깨달았습니다. 그래서 이제 모든 핫키는 변경 가능합니다.) Windows에서 받아쓰기를 또는 Mac에서 설정해 본 적이 있다면, 같은 근육 기억이 이제 글쓰기 앱을 향합니다.

2분 안에 설정하기 (Windows 또는 Mac)

Apple Silicon Mac 또는 Windows 10 이상 PC, 작동하는 마이크, 그리고 쓰고 있는 편집기가 열려 있으면 됩니다. 로컬 파이프라인 전체는 로그인한 계정이라면 누구에게나 무료이며, 가입 시 결제 수단을 요구하지 않습니다. 순서는 다음과 같습니다.

1단계 — Whisper 설치 및 로그인.

다운로드 페이지에서 다운로드하고 설치한 뒤 무료 계정을 만드세요. 카드 불필요. 로컬 변환 파이프라인 전체가 즉시 열립니다.

앱의 트레이 아이콘이 나타나고 설정 마법사에서 모델을 선택하라는 안내가 뜨면 성공입니다.

2단계 — 변환 경로 선택.

앱이 대신 선택해 주지 않습니다. 세 가지 옵션이 있습니다. Cloud (OpenAI, 본인 키 사용), 로컬 Parakeet, 또는 로컬 Whisper입니다. 개인적으로 산문을 작성할 때는 로컬로 시작하세요. 어떤 것을 선택할지는 두 섹션 후에 더 설명합니다.

모델 다운로드가 완료되고 준비 상태로 표시되면 성공입니다.

3단계 — 핫키 확인.

Windows 기본값은 Ctrl+Space, Mac은 Command+Option을 누른 채로 푸시투토크 방식으로 사용합니다. Mac에서는 프롬프트가 표시될 때 손쉬운 사용 권한을 허용하세요. 이 권한이 없으면 커서 위치 붙여넣기가 글쓰기 앱에 접근하지 못합니다.

테스트 녹음이 아무 텍스트 필드에 붙여넣기 되면 성공입니다.

4단계 — 커서를 초안에 놓고 말하기.

문서를 열고 다음 문장을 넣을 위치를 클릭한 다음, 핫키를 누른 채 말하고 손을 뗍니다. 텍스트가 커서 위치, 즉 문단 중간이라도 그 자리에 나타납니다.

말한 문장이 초안에 텍스트로 들어와 있으면 성공입니다.

Whisper
설정 화면을 보여주는 실제 Whisper 데스크톱 앱. 변환 및 AI 패널이 열려 있습니다.

느린 부분은 설치가 아니라 모델 다운로드입니다. 나머지는 위의 네 단계가 전부입니다. 한번 실행되면 문장을 페이지에 올리는 일이 타이핑 작업이 아닌 말하기 작업이 됩니다. 긴 초안에서 이것은 오후 한나절과 저녁 전체의 차이입니다.

Windows에서 음성을 텍스트로 · Mac에서

초안을 받아쓰는 실제 느낌

산문을 받아쓰는 요령은 완벽한 문장을 받아쓰려는 시도를 멈추는 것입니다. 초보 작가들은 쉼표와 단락 나눔까지 말하려다 타이핑보다 느려집니다. 빠른 방법은 생각 단위로 말하는 것입니다. 친구에게 말하듯 문장을 말하고, 손을 떼고, 다음 문장을 말합니다. 첫 번째 패스는 거칠어도 됩니다. 활자를 조판하는 게 아니라 초안을 잡는 중입니다. 타이핑으로 90분 걸리는 1,500단어 블로그 게시물을 말로 하면 절반 정도 걸리는데, 대부분의 절감은 문장 도중에 수정을 멈추지 않는 것에서 옵니다.

푸시투토크 리듬은 작가들이 실제로 생각하는 방식에 맞습니다. 하나의 아이디어를 위해 키를 누르고, 손을 떼고, 나온 결과를 보고, 다음 문장을 결정하고, 다시 누릅니다. 키를 누르는 사이의 멈춤은 생각하는 시간이지 낭비되는 시간이 아닙니다. 장면이 어디로 가는지 벽을 바라보며 고민하는 동안 '어'나 '음' 같은 소리가 녹음되지 않습니다. 특히 소설에서는 이 방식이 타이핑보다 머릿속 대화 소리에 훨씬 가깝습니다. 대사를 연기하듯 말하면 페이지에 올라와 있고, 그다음 편집하면 됩니다.

긴 세션을 위한 두 가지 실용적인 조언입니다. 첫째, 한 번에 전체 문단이 아닌 한두 문장 단위로 받아쓰세요. 짧게 끊으면 붙여넣기가 빠르고, 단어가 잘못 나왔을 때 수정하기도 쉽습니다. 둘째, 마이크가 생각보다 훨씬 중요합니다. 20달러짜리 USB 마이크가 어떤 모델 업그레이드보다 정확도를 더 높여줍니다. 모델이 실제로 작업하는 것은 깨끗한 오디오이기 때문입니다. 이것이 'AI 정확도'를 파는 쪽에서 절대 먼저 말하지 않는 지루한 진실입니다. 단어가 이렇게 빠르게 나오면 음성으로 초안 전체를 작성하고 키보드는 편집 도구로 활용할 수 있습니다. 키보드가 원래 더 잘하는 역할이기도 합니다.

로컬 vs 클라우드: 실무 작가에게 맞는 모드

초안 작업에는 먼저 로컬 모드를 써보세요. 진행 중인 원고, 아직 보내지 않은 제안서, 일기 — 이것들은 텍스트가 되기 위해 노트북을 떠날 필요가 없습니다. Mac이 Apple Silicon이거나 PC가 최근 몇 년 내 제품이라면, 로컬은 일상적인 받아쓰기를 문제없이 처리하고, 클라우드는 기본값이 아닌 비상용이 됩니다. 앱이 선택을 요구하니, 세 가지 경로가 어떻게 다른지 설명합니다.

  • 로컬 ParakeetNVIDIA의 TDT 엔진으로 약 600MB이며, 가장 빠른 로컬 옵션입니다. CPU 기준으로 Whisper보다 5~10배 빠릅니다. 영어 포함 24개 유럽 언어, 총 25개 언어를 지원합니다. 영어 번역 기능은 없습니다. 영어나 유럽 언어로 글을 쓴다면, 이것이 빠르고 완전한 오프라인 선택이며 지연 시간을 낮게 유지합니다.
  • 로컬 Whisper같은 기기에서 Parakeet보다 느리지만, 다국어 빌드는 99개 언어를 지원하고 영어로 번역할 수 있습니다. 영어 전용 빌드는 영어만 지원하며 99개 언어가 아닙니다. 한국어, 중국어, 일본어로 글을 쓰거나 (Parakeet은 이를 지원하지 않음), 번역이 필요하거나, 인물 이름이나 조어에 대한 핫워드 바이어싱이 필요한 경우에 선택하세요. 기본 영어 모델은 약 480MB입니다.
  • Cloud (OpenAI, BYOK)최고의 정확도와 웹 접근을 제공하며, 본인의 OpenAI 키를 사용하고 OpenAI에 직접 청구됩니다. 변환은 기본적으로 gpt-4o-mini-transcribe로 실행됩니다. 인터넷이 필요하므로 데이터가 기기를 떠나는 유일한 경로이며, Whisper Pro의 일부입니다.

지루한 진실은, 대부분의 산문에는 로컬로 충분하다는 것입니다. 두 로컬 엔진 모두 서버에 아무것도 보내지 않고 기기에서 완전히 실행됩니다. 클라우드는 까다로운 녹음에서 최고 수준의 정확도를 원하거나 문장 중간에 웹에서 사실을 가져와야 할 때 가치를 발휘합니다. 또한 클라우드는 좋은 연결에서 약 1.1초로 가장 낮은 지연 시간을 제공합니다. 느린 노트북에서는 네트워크 왕복이 로컬 연산보다 빠르기 때문입니다. 로컬로 시작하고, 로컬이 부족할 때만 클라우드에 손을 뻗으세요.

제가 확신하는 한 가지 의견: 클라우드 전용 받아쓰기는 언제 터질지 모르는 프라이버시 위험입니다. 내부 팀이 한 분기 동안 5자리 수 클라우드 요금을 낸 적을 직접 봤습니다. 대부분은 '스마트 재시도' 루프가 같은 녹음을 네 번 다시 변환한 탓이었습니다. CFO가 분기 검토 중에 대시보드를 열었고, 회의실이 매우 조용해졌습니다. 첫 번째 초안이 텍스트가 되기 위해 벤더의 로그에 살 필요는 없습니다. 노트북에는 이미 마이크와 CPU가 있습니다.

말한 초안을 깔끔한 산문으로 바꾸기

날것의 받아쓰기는 쭉 이어진 문장으로 나옵니다. '아 그러니까 챕터는 기차역에서 시작되는데 그녀는 늦었고 연결 편을 놓쳤으며 음 그것으로부터 모든 것이 시작됩니다'라고 말하면, 어떤 음성 엔진이든 구두점 없이 이 덩어리를 돌려줍니다. 초안으로서는 괜찮습니다. 어차피 편집할 것이기 때문입니다. 하지만 읽기 좋게 만드는 더 빠른 경로가 있습니다.

Windows 음성 입력은 말하는 도중 구두점을 추가하고, macOS 받아쓰기는 '쉼표'나 '마침표'라고 말하면 기본 처리를 합니다. 더 깊은 정리 — '음', '어' 제거, 이어진 문장 수정, 말한 문단을 유지하고 싶은 형태로 변환 — 를 위해 Whisper는 AI 패스를 실행할 수 있습니다. 활성화 문구 'Hey whisper'를 말하면 텍스트가 나타나기 전에 보정됩니다. 로컬 모델에서는 Ollama를 통해, 클라우드 모드에서는 기본적으로 gpt-5-mini로 실행됩니다.

Thinking...
원문

아 그러니까 챕터는 기차역에서 시작되는데 그녀는 늦었고 연결 편을 놓쳤으며 음 그것으로부터 모든 것이 시작됩니다

정리됨

그러니까, 챕터는 기차역에서 시작됩니다. 그녀는 늦었고 — 연결 편을 놓쳤으며 — 그것으로부터 모든 것이 시작됩니다.

특히 작가들이 들어야 할 주의 사항이 있습니다. AI 정리는 구두점 및 필러 워드 패스이지 공동 저자가 아닙니다. 문법을 고치는 것이지 여러분의 목소리를 다시 쓰지 않으며, 그렇게 해서도 안 됩니다. 소설이나 뚜렷한 문체가 있는 글에서 저는 첫 번째 초안에 가벼운 로컬 보정을 쓰거나 완전히 건너뛰고 나중에 손으로 편집합니다. 빠르게 받아쓰는 핵심은 거친 초안이 내 것이라는 데 있기 때문입니다. 정리 기능은 메모를 읽기 좋게 만드는 데 사용하세요. 실제 글쓰기는 직접 하세요.

이 말하고 정리하는 흐름은 텍스트를 저장하는 모든 곳에서 작동합니다. 제가 초안 세션 사이에 메모를 받아쓰고 아이디어를 포착하는 방식이기도 합니다. 연구 아이디어나 플롯 힌트가 말한 순간 흐름을 끊지 않고 깔끔한 한 줄이 됩니다.

실시간 받아쓰기 앱이 맞지 않는 경우

두 방향을 가리키는 화살표가 포장도로에 분필로 그려진 모습. 도구 선택의 갈림길을 표현한 이미지

때로는 다른 것이 필요하다는 것이 솔직한 답이고, 저는 잘못된 것을 파는 것보다 그냥 말하는 편을 택합니다. Whisper는 지금 글쓰기 중인 앱에 바로 붙여넣기 하는 푸시투토크 받아쓰기입니다. 라이브 캡션이 아니고, 인터뷰 전사가 아니며, 모바일 도구도 아닙니다.

말하는 동안 화면에 단어가 실시간으로 흐르는 것이 진짜 필요하다면 — 라이브 강연 캡션, 스트리밍 중 자막, 접근성 캡션 트랙 — 그것은 연속 스트리밍을 위해 설계된 별도 범주인 라이브 캡션 도구가 맞습니다. 누르고 떼는 받아쓰기가 아닙니다. 녹음된 인터뷰나 두 시간짜리 회의를 전사해야 한다면, 그것은 화자 레이블이 있는 파일 전사로 Otter나 Rev 같은 서비스가 받아쓰기 핫키보다 훨씬 적합합니다. 다른 범주이니 글쓰기 도구에게 전사 작업을 시키지 마세요. 그리고 외출 중에 30단어짜리 메모만 받아쓴다면, 스마트폰 키보드의 마이크가 무료이고 이미 주머니에 있습니다. Whisper는 Windows와 macOS를 위한 데스크톱 도구이므로 그 용도로 설치할 앱이 없습니다.

실시간 받아쓰기 앱을 선택할 때는 초안 작성이 목적일 때입니다. 장문의 산문, 블로그 게시물, 챕터, 계속 피하던 이메일 — 책상에서, 이미 쓰는 앱에서, 말하는 것이 타이핑보다 빠르고 1초 후에 커서에 단어가 있기를 원할 때. 그 이하의 용도라면 무료인 것을 사용하세요. 한 줄짜리 문자를 보내기 위해 데스크톱 앱을 실행하라고 하지는 않겠습니다.

제가 듣는 작가들 대부분은 어느 한 플랫폼을 사용하는데, 플랫폼별 상세 안내를 원하신다면 작가를 위해 설계된 받아쓰기 소프트웨어 에서 모델 선택부터 전체 세션 동안 키보드에서 손을 떼는 것까지 워크플로우 전체를 다룹니다.

작가에게 '실시간'은 입과 동시에 글자가 페이지를 기어가는 것을 의미하지 않습니다. 문장을 말하면 다음 생각을 잃기 전에 거기 있다는 것, 약 1.5초 만에, 이미 열려 있는 앱에서, 어디에도 보내지 않고. 그것이 요령이고, 조용한 요령입니다. 저는 이 가이드 대부분을 한 번에 한 문장씩 받아썼습니다. 생각 사이에 키를 놓고, 다음 줄을 생각하면서 단어가 나타나는 것을 지켜보면서. 키보드는 내내 거기 있었지만, 편집할 때만 유용했습니다. 키보드가 있어야 할 정확한 위치입니다.

다음 초안을 목소리로 써보세요

핫키를 누르고, 문장을 말하고, 손을 떼세요. 단어가 약 1.5초 후에 지금 쓰고 있는 곳의 커서 위치에 나타납니다. 어디에도 보내지 않고.

로그인한 계정이라면 누구나 로컬 모드 무료. 시작에 카드 불필요.

Denys Medvediev 사진

Denys Medvediev

지원 이메일을 읽는 사람은 저인데, 아마도 답장을 받아쓰면서 읽을 겁니다.

더 읽어보기