작성자: Denys Medvediev

가이드

구술로 책을 쓰는 방법

구술로 책을 쓰는 방법은 친구에게 이야기를 들려주는 것과 같습니다. 먼저 개요를 잡고, 시스템 전역 단축키를 통해 각 장면을 Word, Scrivener, 또는 Docs에 말로 받아 적으세요. 말하는 동안에는 편집하지 마세요. 다 쓴 후에 다듬으면 됩니다.

최종 업데이트: 2026년 6월

부드러운 빛 아래 원고, 커피, 그리고 노트북이 놓인 작가의 책상

구술로 책을 쓰려면 먼저 개요를 잡은 다음, 시스템 전역 단축키를 통해 각 장을 Word, Scrivener, 또는 Google Docs에 말로 받아 적습니다. 핵심 원칙은 편집을 멈추지 않고 장면 전체를 끝까지 말한 뒤, 나중에 정리 작업을 하는 것입니다. 말하는 속도는 분당 약 145단어로, 타이핑 속도 약 40단어보다 훨씬 빠릅니다.

처음 타이핑 대신 구술을 시도했을 때, 저는 문장이 화면에 올라오는 순간마다 편집하고 있는 제 모습을 발견했습니다. 말하고, 멈추고, 쉼표를 고치고, 다시 말하고. 스무 분이 지나자 깔끔한 문단 네 개와 뻐근한 턱만 남았습니다. 그건 완전히 잘못된 방법이었고, 거의 모든 사람이 그렇게 시작합니다.

책을 구술하는 것은 소프트웨어보다 버려야 할 습관에 더 가깝습니다. 내면의 편집자는 단어가 나타나는 순간 고치고 싶어 합니다. 구술이 빠른 이유는 바로 그 편집자에게 기다리라고 말하는 데 있습니다. 엉망진창이더라도 말하는 속도로 단어를 쏟아낸 다음, 별도의 과정에서 정리하세요. 말하기는 타이핑보다 약 세 배 반 빠르지만, 그 속도를 내보낼 때만 그렇습니다.

대부분의 '소설 구술하기' 페이지가 건너뛰는 부분이 여기 있습니다. 도구는 별로 중요하지 않습니다. Scrivener의 장(章) 하나는 Google Docs나 빈 Word 파일과 똑같은 텍스트 상자입니다. 커서 위치에 붙여넣는 구술 도구는 어떤 앱을 쓰든 신경 쓰지 않습니다.

그래서 진짜 질문은 '음성으로 책을 써주는 앱이 뭔가'가 아닙니다. 책을 대신 써주는 것은 없습니다. 질문은 '말한 내용을 원고에 최대 속도로 넣고 나중에 정리하려면 어떻게 해야 하는가'이고, 그 답은 세 가지입니다. 컴퓨터에 이미 내장된 받아쓰기, 어디서든 작동하는 시스템 전역 단축키, 그리고 단어를 다 쓸 때까지 내면의 편집자를 잠재우는 워크플로우. 셋 다 알려드리고, 2분 안에 설정하는 방법도, 내장 기능만으로 충분한 경우도 말씀드리겠습니다.

작가들이 타이핑 대신 구술을 택하는 이유

숫자부터 보면 간단합니다. 대부분의 사람은 분당 약 40단어를 타이핑하고 약 145단어를 말합니다. 약 세 배 반 빠른 셈이고, 9만 단어짜리 원고라면 초고 작성이 몇 달에서 몇 주로 줄어드는 차이입니다. 하지만 작가들이 구술을 택하는 진짜 이유는 속도만이 아닙니다.

더 큰 이유는 이야기가 이미 머릿속에서 말로 존재한다는 것입니다. 장면을 정렬된 문단으로 떠올리는 사람은 없습니다. 누군가가 이야기를 들려주는 형태로 생각하죠. 구술은 부엌 식탁에서 친구에게 그 장을 설명하듯 초고를 내러레이션할 수 있게 해주고, 다듬는 건 나중에 합니다. 키보드는 생각과 페이지 사이에 한 겹을 끼워 넣습니다. 음성은 지저분한 첫 번째 패스에서 그 층을 없애줍니다. 대부분의 책이 막히는 것도 바로 그 패스에서입니다.

신체적인 이유도 있는데, 12장쯤에서 손목이 아파오기 전까지 아무도 말하지 않습니다. 책 한 권을 초고로 쓰는 것은 엄청난 타이핑입니다. 구조적인 부분을 음성으로 쓰고 세밀한 편집은 키보드에 맡기면 하루의 부담이 분산됩니다. 의학적 주장이 아닌 편의와 생산성의 이야기지만, 몇 시간씩 타이핑하는 것이 발목을 잡고 있다면 때때로 손을 쉬게 하며 구술하는 것은 충분히 시도해 볼 만한 방법입니다.

가장 빠른 방법: 컴퓨터에 이미 받아쓰기 기능이 있습니다

내장 음성 받아쓰기를 암시하듯 마이크가 놓인 책상 위의 노트북

무엇을 설치하기 전에, 여러분의 운영 체제가 이미 이 기능을 무료로 제공한다는 것을 아셔야 합니다. 짧은 세션이라면 충분히 쓸 만합니다. Windows에서는 원고에 커서를 놓고 Windows 키 + H를 누르세요. 음성 입력 창이 열리면 말하기만 하면 커서 위치에, Word든 Scrivener든 브라우저 기반 Google Docs든 어디든, 단어가 입력됩니다. 말하는 동안 자동으로 구두점도 추가됩니다.

Mac에서는 시스템 설정의 키보드에서 받아쓰기를 켜고, 설정한 단축키로 실행하세요. 타이핑할 수 있는 곳이면 어디서든 작동하며, Apple Silicon에서는 음성 모델이 다운로드되면 기기에서 직접 텍스트를 처리할 수 있습니다. '쉼표', '마침표', '새 단락'이라고 말하면 말하는 대로 구두점이 찍힙니다.

책 한 권 전체를 쓰기에는 두 가지 한계가 있습니다. Windows 음성 입력은 Microsoft 서버를 거쳐야 하고 인터넷 연결이 필요해서, 원고를 외부로 보내고 싶지 않을 때는 오프라인 선택지가 될 수 없습니다. 그리고 두 내장 기능 모두 짧은 입력에 맞춰져 있습니다. 문자 하나, 이메일 하나, 문단 하나 정도요. 시간이 지나면 꺼지거나, 낯선 등장인물 이름을 잘못 알아듣거나, 직접 만든 어휘를 학습시킬 방법이 없습니다. 8만 단어짜리 초고에서 이런 작은 불편이 쌓이면 꽤 커집니다. 그 지점에서 전용 도구가 진가를 발휘하기 시작합니다.

2분 안에 Whisper 설정하기 (Windows 또는 Mac)

시스템 전역 받아쓰기 도구는 내장 기능의 두 가지 한계를 한 번에 해결합니다. 오프라인에서도 작동하고, 어떤 글쓰기 앱에서도 똑같이 작동합니다. Apple Silicon Mac 또는 Windows 10 이상의 PC, 작동하는 마이크, 그리고 Word, Scrivener, Google Docs 등 작업 중인 원고가 필요합니다. 로컬 파이프라인 전체는 로그인된 계정이라면 무료이며, 가입 시 결제 수단을 요구하지 않습니다. 순서는 다음과 같습니다.

1단계 — Whisper 설치 및 로그인.

다운로드 페이지에서 다운받아 설치하고 무료 계정을 만드세요. 카드 불필요. 로컬 전사 파이프라인 전체가 바로 열립니다.

앱의 트레이 아이콘이 나타나고 설정 마법사에서 모델을 선택할 수 있으면 성공입니다.

2단계 — 전사 방식 선택.

앱이 대신 선택해 주지 않습니다. 세 가지 옵션이 있습니다. Cloud (OpenAI, 본인 키 사용), 로컬 Parakeet, 또는 로컬 Whisper. 원고의 프라이버시를 위해서라면 로컬로 시작하세요. 두 섹션 뒤에서 자세히 설명합니다.

모델 다운로드가 완료되고 준비 완료 상태로 표시되면 성공입니다.

3단계 — 단축키 확인.

Windows 기본값은 Ctrl+Space, Mac은 Command+Option을 누르고 있는 푸시 투 토크 방식입니다. Mac에서는 안내가 나올 때 손쉬운 사용 권한을 허용하세요. 허용하지 않으면 다른 앱에 커서 위치에 붙여넣기가 작동하지 않습니다. 두 단축키 모두 기존 설정과 충돌하면 설정에서 변경할 수 있습니다.

테스트 녹음이 어느 텍스트 필드에든 붙여넣어지면 성공입니다.

4단계 — 원고에 커서를 놓고 말하세요.

장을 열고 다음 문단이 들어갈 곳을 클릭한 뒤, 단축키를 누른 채 몇 문장을 말하고 떼세요. 전사 내용이 문서의 커서 위치에 나타납니다.

말한 문장이 원고에 텍스트로 들어가 있으면 성공입니다.

Whisper
설정 화면에 있는 실제 Whisper 데스크탑 앱으로, 전사 및 AI 패널이 열려 있습니다.

느린 부분은 설정이 아니라 모델 다운로드입니다. 그 외는 위의 네 단계가 전부입니다. 실행되고 나면 장(章) 초고 쓰기가 타이핑 작업이 아닌 말하기 작업이 됩니다. 그게 바로 핵심입니다.

이전에 Windows에서 받아쓰기를 또는 Mac에서 설정해 본 적이 있다면, 같은 근육 기억을 원고에 그대로 활용하는 것입니다.

먼저 개요 작성, 그다음 장면별 구술

구술은 입을 열기 전에 장면이 어디로 향할지 아는 작가에게 보답합니다. 실제로 효과가 있는 워크플로우는 단조롭고 반복적입니다. 먼저 개요를 잡고, 덩어리씩 책을 말로 풀어내고, 나중에 정리하는 것입니다. 개요 없이 시작하면 초고를 쓰면서 스스로 막다른 골목으로 내러레이션하게 됩니다.

각 세션은 장면에 대한 몇 개의 글머리 기호로 시작하세요. 누가 등장하는지, 무엇이 바뀌는지, 어디서 끝나는지. 이건 구술할 필요 없이 타이핑으로 써도 됩니다. 뼈대니까요. 그런 다음 커서를 다음 빈 줄에 놓고 단축키를 누른 채 장면을 소리 내어 말하듯 내러레이션하세요. 말하는 동안 작은 캡슐이 나타나 듣고 있음을 알려주고, Whisper는 놓을 때 마지막 단어가 잘리지 않도록 짧은 여운을 유지합니다.

Cancel
녹음 오버레이: 말하는 동안 나타나는 작은 캡슐로, Whisper가 듣고 있음을 알려줍니다.

나머지보다 중요한 한 가지 규칙: 말하는 동안 편집하지 마세요. 쉼표를 고치거나 문장을 바꾸려고 멈추는 순간, 장면 속에서 벗어나 편집자 모드로 돌아가게 됩니다. 둘은 같은 기어를 공유하지 않습니다. 장면 하나, 섹션 하나, 비트 하나를 끝까지 말하고 나서야 화면을 보세요. 10분에서 15분씩 앉아서 구술하고, 등장인물과 장소 이름은 매번 같은 방식으로 불러 전사가 일관되게 유지되도록 하고, 이어지는 문장이나 빠진 구두점은 그냥 두세요. 정리 패스는 초고 패스를 빠르고 엉망으로 둘 수 있도록 존재합니다. 말하는 속도로 단어를 쏟아내세요. 다듬는 건 나중에, 다른 글을 쓸 때 음성으로 더 빠르게 타이핑하는 것처럼요.

원고에는 로컬과 클라우드 중 어떤 모드가 맞을까

책 초고라면 먼저 로컬 모드를 써보세요. 원고는 작가들이 가장 신경 쓰는 문서 중 하나입니다. 반쯤 완성된, 미출판의, 때로는 계약이 걸린 작품이죠. 그걸 자기 디스크에 보관하면서 단어를 얻기 위해 음성을 클라우드로 보내는 건 이상한 선택입니다. Mac이 Apple Silicon이거나 PC가 최근 몇 년 안에 구입한 것이라면, 로컬은 전체 초고 세션을 무리 없이 처리하고, 클라우드는 기본값이 아닌 비상 탈출구가 됩니다.

앱에서 직접 선택해야 하니, 세 가지 방식의 차이를 설명드립니다. 제대로 고르시길 바랍니다.

  • 로컬 ParakeetNVIDIA의 TDT 엔진으로 약 600 MB이며, CPU 기준 Whisper보다 5~10배 빠른 가장 빠른 로컬 옵션입니다. 영어를 포함해 유럽 언어 24개, 총 25개 언어를 지원합니다. 영어 번역이나 사용자 정의 어휘는 지원하지 않습니다. 영어나 다른 유럽 언어로 초고를 쓰고 등장인물 이름이 평범하다면, 빠르고 완전한 오프라인 선택지입니다.
  • 로컬 Whisper같은 기기에서 Parakeet보다 느리지만, 다국어 빌드는 99개 언어를 지원하고 영어로 번역할 수 있으며 사용자 정의 어휘를 지원합니다. 직접 만든 이름, 장소, 용어를 올바르게 받아쓰도록 가르칠 수 있어 창작 어휘가 많은 책에 유용합니다. 영어 전용 빌드는 99개 언어가 아닌 영어만 됩니다. 기본 영어 모델은 약 480 MB입니다.
  • Cloud (OpenAI, BYOK)OpenAI에 직접 청구되는 본인 키를 사용해 최고의 정확도와 웹 접근성을 제공합니다. 기본적으로 gpt-4o-mini-transcribe로 전사가 실행됩니다. 인터넷이 필요하므로 기기를 벗어나는 유일한 방식입니다. Cloud 기능은 Whisper Pro의 일부입니다.

솔직한 진실은, 초고를 채우는 산문의 경우 로컬로 충분하다는 것입니다. 두 로컬 엔진 모두 서버에 아무것도 보내지 않고 기기에서 완전히 실행되며, 이는 원고에 딱 맞는 방식입니다. 책에 직접 만든 어휘가 많다면, 판타지 이름, 가상의 장소, 40번이나 쓰는 자작 기술 용어 등, 로컬 Whisper의 사용자 정의 어휘가 결정적인 기능이 됩니다. 같은 이름을 다섯 가지 다른 방식으로 추측하는 것을 막아주기 때문입니다. Cloud는 까다로운 녹음 세션에서 최고의 정확도가 필요할 때 가치를 발휘합니다. 일상적인 초고 작성에는 로컬로 시작하고, 부족함을 느낄 때만 클라우드를 쓰세요.

단어를 다 쓴 후 정리 패스 실행하기

구술 원문은 끊임없이 이어지는 문장으로 나옵니다. '그녀가 방을 가로질렀다 그를 쳐다보지도 않았다 그냥 창문을 열었다 음 그리고 기다렸다'라고 말하면, 그게 어떤 음성 엔진이든 돌려주는 구두점 없는 덩어리입니다. 괜찮습니다. 말하는 속도를 선택한 대가니까요. 정리는 별도의 패스이고, 거기서 초고가 다시 산문이 됩니다.

Windows 음성 입력은 말하는 동안 구두점을 추가하고, macOS 받아쓰기는 '쉼표'나 '마침표'라고 말하면 기본적인 구두점을 처리합니다. 더 무거운 정리, '음' 제거, 이어지는 문장 수정, 구술 단락을 원고에 남길 만한 것으로 바꾸기 등은 Whisper가 AI 패스를 실행할 수 있습니다. 활성화 문구 'Hey whisper'라고 말하면 텍스트가 향상되어 입력됩니다. 로컬 모드에서는 Ollama를 통해 실행되고, 클라우드 모드에서는 기본적으로 gpt-5-mini가 사용됩니다.

Thinking...
원문

she crossed the room she didn't look at him she just opened the window um and waited for the noise from the street to fill the silence

정리 후

She crossed the room. She didn't look at him; she just opened the window and waited for the noise from the street to fill the silence.

솔직한 한계를 하나 말씀드립니다. 작가들은 정반대로 팔리는 경우가 많으니까요. AI 패스는 구두점과 군더더기를 정리합니다. 산문을 다시 쓰거나, 연속성을 고치거나, 장면이 잘 작동하는지 판단하지는 않습니다. 주인공의 눈 색깔이 장마다 바뀌어 있어도 잡아내지 못하고, 잡아내서도 안 됩니다. 그건 여러분의 일이고, 책을 여러분의 것으로 만드는 바로 그 작업이니까요. 정리 패스는 공동 저자가 아닌, 전사 내용을 깔끔하게 정리하는 타이피스트로 대하세요. 음성 작업은 빠른 초고를 안겨주고, 실제 글쓰기, 즉 선택과 구조, 딱 맞는 문장은 여전히 여러분의 몫입니다.

그 말하고 정리하는 리듬은 소설을 넘어서도 통합니다. 장형(長形) 초고 작성 방식은 소설을 쓰든 논문 장(章)을 쓰든 동일합니다. 워크플로우가 같기 때문입니다. 개요 잡고, 멈추지 않고 섹션을 말하고, 별도 패스에서 정리하세요.

내장 기능만으로 충분할 때

도구 선택을 보여주는 이정표에 두 방향을 가리키는 화살표

때로는 이미 컴퓨터에 있는 무료 도구가 정답이고, 그렇지 않다고 꾸미는 건 솔직하지 못한 일입니다. 짧은 구간만 구술한다면, 방금 떠오른 대사 한 줄, 개요에 메모 하나, 회의 사이에 문단 하나, 운영 체제가 공짜로 처리해 줍니다. Windows에서 Windows 키 + H, Mac에서 받아쓰기 단축키. 문장 하나 쓰려고 앱을 설치할 필요는 없습니다.

책 구술처럼 보이지만 다른 작업도 있어서, 잘못된 도구를 고르지 않도록 짚고 넘어갈 필요가 있습니다. 녹음된 오디오 파일을 전사하는 것, 테이프로 녹음한 인터뷰, 산책 중 소리 내어 생각한 음성 메모, 작가 행사 녹화물은 라이브 구술과 다른 작업입니다. 구술은 지금 마이크에 말하는 단어를 입력하는 것이지, 나중에 다중 화자 녹음을 처리하기 위해 만들어진 게 아닙니다. 그런 용도에는 오디오 파일 전사용 서비스를 이용하세요. 라이브 구술과 녹음 오디오 전사는 두 가지 다른 작업이고, 하나에 뛰어난 도구는 보통 다른 하나에서는 평범합니다.

내장 기능이 부족하게 느껴질 때 전용 시스템 전역 도구를 찾으세요. 짧은 구간이 아닌 전체 장을 써야 할 때, 미출판 원고를 위한 오프라인 프라이버시, 일관되게 맞춤법을 지켜야 하는 자작 어휘, 또는 Scrivener, Word, 이메일에서 동일하게 작동하는 단축키 하나가 필요할 때. 그 기준 아래라면 무료인 것을 쓰세요. 장 보기 목록을 구술하려고 소프트웨어를 설치하라고 권하진 않겠습니다.

프로젝트가 소설이 아닌 학술 작업이라면, 논문 구술하기에도 장별 구술 방식이 그대로 적용됩니다. 자작 어휘가 전문 용어로 바뀌고, 프라이버시 논리는 더욱 강해집니다.

어떤 앱도 책을 써주지 않습니다. 영원히 그럴 것이고, 장면이 나오지 않는 날에는 그게 오히려 작은 위안입니다. 탓할 소프트웨어가 없고, 그냥 작업만 있을 뿐이니까요. 구술이 바꾸는 것은 엉망인 첫 번째 패스의 속도입니다. 개요 잡고, 말로 풀어내고, 나중에 정리하세요. 저는 이 가이드의 대부분을 화면을 향해 말하는 방식으로 초고를 썼고, 모든 단어가 내려온 후에야 내용을 봤습니다. 말하는 동안 완성하려 했던 처음 세 문단이 제가 쓴 것 중 가장 나쁜 세 문단으로 남아있습니다.

다음 장을 말로 써 내려가세요

장면 개요를 잡고, 단축키를 누른 채 내러레이션하고, 떼세요. 초고는 커서가 있는 원고 어디에든, 그리고 다른 모든 앱에도 입력됩니다.

로그인된 계정이라면 로컬 모드 무료. 시작 시 카드 불필요.

Denys Medvediev 사진

Denys Medvediev

저는 지원 이메일을 읽는 사람입니다. 아마 답장도 구술로 쓰고 있을 겁니다.

더 읽어보기