작성자: Denys Medvediev

가이드

논문을 받아쓰기로 완성하세요

논문은 너무 길어서 빈 페이지 앞에서 타이핑만으로는 막막합니다. 대신 첫 초안을 말로 써보세요. 단축키를 누르고, 챕터를 말하면, 단어들이 Word, Scrivener, 또는 LaTeX에 바로 입력됩니다. 그다음 편집하면 됩니다. 로컬 모드는 무료이며 오프라인으로 실행됩니다.

최종 업데이트: 2026년 6월

긴 열람대와 제본된 논문이 가득한 서가가 있는 조용한 대학 도서관 열람실

논문을 받아쓰기로 작성하려면 시스템 전체에서 작동하는 받아쓰기 도구를 설치하고, 단축키를 누른 뒤 현재 사용 중인 편집기 — Word, Scrivener, Google Docs, 또는 LaTeX 파일 — 에 초안을 말하면 됩니다. 텍스트는 커서 위치에 그대로 붙여넣어집니다. 로컬 엔진은 완전히 오프라인으로 실행되며, 로그인한 계정이라면 누구나 무료로 사용할 수 있습니다. 그다음 키보드로 편집하면 됩니다.

논문에서 가장 힘든 페이지는 아무것도 없는 첫 페이지입니다. 논문은 읽었고, 머릿속에 논거도 다 정리되어 있는데, 커서만 깜빡이고 있습니다. 머릿속으로 아홉 번이나 고쳐 쓴 첫 문장을 어떻게 시작할지 고민하는 사이에요. 박사 과정을 마치는 친구들이 그 깜빡이는 커서 앞에서 저녁 시간을 통째로 날리는 걸 여러 번 봤습니다. 생각은 다 되어 있었어요. 타이핑이 벽이었을 뿐입니다.

말하기는 그 벽을 넘는 방법입니다. 한 단락을 타이핑하는 시간의 절반 만에 말로 대강 표현할 수 있고, 페이지에 올라온 대강의 버전은 고칠 수 있습니다. 빈 페이지는 고칠 수 없어요. 챕터의 첫 초안을 받아쓰기로 작성하는 건 더 빨리 타이핑하기 위한 게 아닙니다 — 좋은 버전이 싸울 거리를 갖도록 나쁜 버전을 일단 꺼내놓는 겁니다.

대부분의 논문 받아쓰기 관련 글이 건너뛰는 부분이 있습니다. 워드 프로세서는 그냥 텍스트 필드입니다. Scrivener 편집기도, Google Doc도, 코드 편집기의 `.tex` 파일 본문도 마찬가지입니다. 커서 위치에 붙여넣기 하는 받아쓰기 도구는 어느 편집기를 사용하든 상관없이 작동합니다. 레퍼런스 매니저에 연결할 플러그인도 없고, 특별한 "논문 모드"도 없습니다.

그러니 진짜 질문은 "어떤 앱이 받아쓰기를 지원하나"가 아닙니다. "내가 이미 사용하는 앱 위에서 작동하는 받아쓰기 도구가 무엇인가"입니다. 몇 년씩 걸리고 종종 지원도 없는 연구에서는 빠른 이메일보다 두 가지가 훨씬 중요합니다. 오프라인으로 무료 로컬 방식으로 실행될 것, 그리고 내 분야의 용어와 이름을 배울 수 있을 것. 챕터별로 워크플로우를 안내하고, 2분 만에 설정하는 방법을 알려드리겠습니다. 그리고 다른 도구에 맡겨야 할 한 가지 작업도 알려드리겠습니다.

대학원생들이 첫 초안을 말로 쓰는 이유

늦은 밤 논문 작성 중에 펼쳐진 학술서, 인쇄된 논문들, 노트북이 쌓인 책상

목표는 "더 빠르게 타이핑하기"가 아닙니다. "멍하니 바라보기를 멈추기"입니다. 논문 한 챕터는 8천에서 1만 2천 단어인데, 어떻게 쓰든 모든 섹션의 첫 버전은 어설플 수밖에 없습니다. 문제는 오후 내내 말해서 어설픈 초안을 만들 것인가, 아니면 타이핑으로 일주일 동안 깔끔한 초안도 못 만들 것인가입니다. 말하기가 이기는 이유는 완벽주의에 알레르기 반응을 보이기 때문입니다. 타이핑할 때처럼 문장 중간에 수정할 수 없으니, 말은 일단 나오면 나온 대로 남고, 나중에 고치면 됩니다.

두 번째 이유도 있는데, 순전히 신체적인 이유입니다. 논문은 대부분의 사람들이 평생 쓰는 것 중 가장 긴 글이고, 몇 달에 걸친 마라톤 세션이 이어집니다. 손도 그에 대한 의견이 있습니다. 초안의 일부를 받아쓰기로 작성하면 그날 글쓰기의 일부가 손을 키보드에서 뗀 상태로 이루어집니다. 의학적 주장으로 포장하지는 않겠습니다 — 그런 게 아니라 매 시간 일어나는 것과 같은 생산성과 편의 문제입니다. 손목 통증이 특히 걱정된다면 손을 쉬게 하는 방법으로서의 받아쓰기에서 그 생산성 측면을 솔직하게 다루고 있습니다. 논문 자체에 관해서는 더 단순합니다. 손이 타이핑을 거부하는 날에도 계속 초안을 작성할 수 있다는 것입니다.

그리고 지루하지만 사실인 이야기가 있습니다. 논문의 대부분은 우아한 최종 문장이 아닙니다. 뼈대입니다 — "이 챕터에서 나는 주장한다"로 시작하는 문장들, 누군가의 연구 결과를 요약하는 내용, 섹션 사이를 잇는 단락들. 그런 뼈대가 바로 목소리로 자연스럽게 나오는 내용이고, 타이핑한 것보다 나쁘지 않게 읽힙니다. 키보드는 정말 정확해야 하는 문장에 아껴두세요.

단축키를 누르고, 말하면, 편집기에 텍스트가 입력됩니다

작동 방식은 단순합니다. 이게 제가 줄 수 있는 최고의 칭찬입니다. 단축키를 누르고, 말하고, 놓으면 포커스가 있는 곳 어디서든 커서에 텍스트가 붙여넣어집니다 — Word의 제목, Scrivener의 문서, Google Doc의 단락, LaTeX 파일의 주석 블록. Whisper는 키를 놓은 후 잠깐 여운을 잡아두기 때문에 긴 문장의 마지막 단어가 잘리지 않습니다. 운영체제 커서에 붙여넣기 하기 때문에, 편집기는 그냥 "앞에 있는 텍스트 상자"일 뿐입니다.

튜토리얼들이 과도하게 복잡하게 만드는 부분이 바로 이겁니다. Word에 설치할 통합 기능도, Scrivener용 애드온도, 레퍼런스 매니저에 붙여넣을 토큰도 없습니다. 커서가 문서 안에 있고, 말하면, 단어가 나타납니다. 말하는 동안 작은 캡슐이 나타나 받아쓰기 중이라는 것을 알려줍니다:

Cancel
녹음 오버레이: 말하는 동안 나타나는 작은 캡슐로, Whisper가 듣고 있다는 것을 알려줍니다.

긴 세션을 시작하기 전에 제대로 설정할 가치가 있는 한 가지는 단축키입니다. Windows에서는 Ctrl+Space, Mac에서는 말하는 동안 누르고 있다가 멈추면 놓는 푸시-투-토크 방식의 Command+Option입니다. 둘 다 충돌이 생기면 설정에서 변경할 수 있고 — LaTeX 단축키와 레퍼런스 매니저 단축키로 가득한 글쓰기 환경에서는 보통 충돌이 생깁니다. 이전에 Windows에서 받아쓰기를 설정해보거나 Mac에서 설정해본 적 있다면, 이번에는 그 감각을 논문에 적용하는 것입니다.

2분 만에 설정하기 (Windows 또는 Mac)

Apple Silicon Mac 또는 Windows 10 이상의 PC, 작동하는 마이크, 그리고 열려 있는 편집기 — Word, Scrivener, Google Docs가 열린 브라우저 탭, 또는 LaTeX 편집기 — 가 필요합니다. 전체 로컬 파이프라인은 로그인한 계정이라면 누구나 무료이며, 가입 시 결제 수단을 요구하지 않습니다. 이는 몇 년이 걸리고 지원 상황이 불확실한 작업에서 중요한 부분입니다. 순서는 다음과 같습니다.

Step 1 — Whisper를 설치하고 로그인합니다.

다운로드 페이지에서 다운로드하여 설치하고 무료 계정을 만드세요. 카드 불필요. 전체 로컬 전사 파이프라인이 바로 열립니다.

앱의 트레이 아이콘이 나타나고 설정 마법사가 모델 선택을 제안하면 제대로 된 것입니다.

Step 2 — 전사 경로를 선택합니다.

앱이 알아서 선택하지 않습니다. 세 가지 옵션이 있습니다: Cloud (OpenAI, 본인 키 사용), 로컬 Parakeet, 또는 로컬 Whisper. 분야 특화 용어가 있는 긴 오프라인 초안에는 로컬 Whisper를 선택하세요 — 두 섹션 뒤에 이유가 설명됩니다.

모델 다운로드가 완료되어 준비됨 상태로 표시되면 제대로 된 것입니다.

Step 3 — 단축키를 확인합니다.

Windows 기본값은 Ctrl+Space이고, Mac은 푸시-투-토크로 누르고 있는 Command+Option입니다. Mac에서는 요청 시 손쉬운 사용 권한을 허용하세요. 없으면 커서 붙여넣기가 편집기에 접근하지 못합니다.

테스트 녹음이 임의의 텍스트 필드에 붙여넣어지면 제대로 된 것입니다.

Step 4 — 초안에 커서를 두고 말합니다.

챕터를 열고, 다음 단락이 들어갈 위치를 클릭하고, 단축키를 누른 상태로 몇 문장을 말한 뒤 놓으세요. 커서 위치, 문서 안에 텍스트가 나타납니다.

말로 한 단락이 챕터 안에 텍스트로 앉아 있으면 제대로 된 것입니다.

Whisper
설정 화면에서 전사 및 AI 패널이 열려 있는 실제 Whisper 데스크톱 앱.

느린 부분은 설정이 아니라 한 번만 하는 모델 다운로드입니다. 그다음부터는 위의 네 단계입니다. 한번 실행되면 챕터를 여는 것이 "타이핑할 에너지를 찾기"가 아니라 "말할 에너지를 찾기"가 되는데, 피곤한 목요일에는 훨씬 낮은 기준입니다.

Windows에서 음성 텍스트 변환 · Mac에서

목소리로 챕터 초안 잡기, 그리고 전문 용어 학습시키기

장문 작업에서 효과적인 워크플로우는 덩어리로 말하고, 단계적으로 편집하는 것입니다. 처음부터 끝까지 완성된 챕터를 받아쓰려고 하지 마세요 — 그건 마이크를 든 타이핑 마인드셋입니다. 대신 아웃라인을 열고, 제목 아래에 커서를 놓고, 연구실 동료에게 커피 한 잔 마시며 설명하듯 그 섹션의 대략적인 버전을 소리 내어 말하세요. 한 섹션, 몇백 단어, 키를 놓고, 다음 제목으로 이동합니다. 조각상을 조각하는 게 아니라 뼈대를 채우는 겁니다. 조각은 편집이고, 나중에 키보드로 합니다.

학술 받아쓰기를 성패를 가르는 것은 어휘입니다. 논문에는 일반 전사기가 예상하지 못하는 단어들이 가득합니다 — 인용하는 방법론, 분야의 화학물질이나 개념이나 정리, 그중에서도 가장 곤란한 것은 고유명사입니다. "Foucault," "Nyquist," "Bourdieu," 공동 저자의 폴란드어나 한국어 이름을 인용에 필요한 정확한 철자로. 일반 엔진은 추측하고, 한 번도 본 적 없는 이름을 자동 수정이 망가뜨리듯 틀리게 추측합니다. 여기서 로컬 Whisper가 존재 가치를 발휘합니다. 사용자 지정 어휘를 지원하여 자주 사용하는 저자 이름과 분야 용어 목록을 입력하면 정확하게 전사하는 방향으로 편향됩니다. 더 빠른 로컬 엔진인 Parakeet는 핫워드를 지원하지 않으므로, 전문 용어가 많은 초안에는 로컬 선택지로 Whisper를 사용하세요. Cloud 모드도 정확도 면에서 뛰어나지만, 사용자 지정 어휘 기능은 특히 로컬 Whisper만의 기능입니다.

그 목록을 논문 시작 시 한 번 설정해두면 2년 내내 이익을 봅니다. 작업에서 반복되는 20~30개의 용어와 이름을 추가하면, 돌아오는 결과물에서 단락마다 "Burdew"를 찾아 바꾸는 작업이 필요 없어집니다. 여전히 수정은 할 것입니다 — 어떤 도구도 모든 이름을 첫 번에 올바르게 쓰지는 못하니까요 — 하지만 가끔 나오는 오류를 수정하는 것이지, 분야 용어를 매번 다시 입력하는 게 아닙니다.

몇 년짜리 비공개 작업: 로컬 또는 클라우드

논문이라면 저는 로컬에서 시작하겠습니다. 원칙의 문제만이 아닙니다. 미발표 연구, 미완성 논거, 기밀 유지 의무가 있는 인터뷰 자료 — 이 중 어느 것도 목소리로 타이핑하기 위해 누군가의 서버로 전송될 이유가 없습니다. 로컬 엔진은 아무것도 전송하지 않고 완전히 내 기기에서 실행되는데, 이것이 처음부터 비공개 오프라인 음성-텍스트 변환 설정을 선택하는 이유와 같습니다. 분당 비용도 없고 인터넷도 필요 없습니다. 지원도 없이 몇 년 동안 도서관 지하에서 불안정한 Wi-Fi로 글을 써야 할 때 중요한 부분입니다. 앱에서 직접 선택해야 하기 때문에, 세 가지 경로가 어떻게 다른지 설명합니다.

앱이 알아서 선택하지 않으므로, 실제 초안을 기준으로 선택하세요:

  • 로컬 ParakeetNVIDIA의 TDT 엔진으로 약 600 MB이며, 가장 빠른 로컬 옵션입니다 — CPU에서 Whisper보다 5~10배 빠릅니다. 영어와 24개 유럽 언어, 총 25개 언어를 지원합니다. 영어 번역이나 사용자 지정 어휘는 없으므로, 전문 용어가 많은 논문에는 적합하지 않습니다. 일상적인 용어로 빠르게 영어 초안을 작성할 때 적합합니다.
  • 로컬 Whisper동일한 기기에서 Parakeet보다 느리지만, 99개 언어를 지원하고 영어로 번역할 수 있으며, 분야 용어와 인용 이름에 대한 사용자 지정 어휘와 핫워드를 지원합니다. 고유명사와 전문 용어가 많은 논문에는 이 로컬 엔진을 사용하세요. 기본 영어 모델은 약 480 MB이며, 더 큰 모델은 속도와 정확도를 교환합니다.
  • Cloud (OpenAI, BYOK)최고의 원시 정확도와 실시간 웹 접근을 제공하며, OpenAI가 직접 청구하는 본인의 OpenAI 키를 사용합니다. 전사는 기본적으로 gpt-4o-mini-transcribe로 실행됩니다. 인터넷이 필요하므로, 내 기기를 벗어나는 유일한 경로입니다 — 비민감 섹션에는 괜찮지만, 기밀 자료에는 덜 적합합니다. Cloud 기능은 Whisper Pro의 일부입니다.

솔직하게 말하면, 대부분의 논문 작업에는 좋은 어휘 목록을 갖춘 로컬 Whisper로 충분합니다. 비용도 없고 내 노트북에 머뭅니다. Cloud는 어려운 녹음에서 최고 수준의 정확도를 원하거나 문장 도중에 웹에서 정보를 가져와야 할 때 쓸모 있습니다. 몇 년간의 기밀 초안 작업에서는 로컬이 기본이고 클라우드는 가끔 쓰는 비상구입니다.

말로 쓴 챕터를 제출 가능한 문장으로 다듬기

원시 받아쓰기는 연결된 덩어리로 나옵니다. "so this chapter examines how Foucault's notion of discipline maps onto modern workplace surveillance drawing on the empirical work in chapter three"라고 말하면, 음성 엔진은 구두점 없는 덩어리 그대로 돌려줍니다. 괜찮습니다 — 첫 초안이고, 첫 초안은 지저분해야 합니다. 읽기 좋게 만드는 것은 정리 단계에서 합니다.

Windows 음성 입력은 말하는 동안 구두점을 추가하고, macOS 받아쓰기는 "쉼표" 또는 "마침표"라고 말하면 기본 구두점을 처리합니다. 더 본격적인 정리 — "음" 제거, 연결 구문 고치기, 숨 가쁜 하나의 문장을 셋으로 나누기 — 를 위해 Whisper는 텍스트가 입력되기 전에 AI 패스를 실행할 수 있습니다. 활성화 문구 "Hey whisper"를 말하면 텍스트가 개선된 상태로 들어옵니다. Ollama를 통해 실행하는 로컬 모델에서는 완전히 오프라인이며, 클라우드 모드에서는 기본적으로 gpt-5-mini입니다. 기계적인 부분을 정리해주므로 쉼표가 아닌 논거에 편집 시간을 쓸 수 있습니다.

Thinking...
원본

so this chapter examines how foucaults notion of discipline maps onto modern workplace surveillance drawing on the empirical work in chapter three um and the interview data

정리됨

This chapter examines how Foucault's notion of discipline maps onto modern workplace surveillance, drawing on the empirical work in Chapter Three and the interview data.

AI 패스가 하지 않을 일, 그리고 해서도 안 될 일은 학술적 편집입니다. 인용이 주장을 뒷받침하는지 확인하거나, 잘못 기억된 날짜를 고치거나, 4단락이 1단락과 모순된다는 것을 알아차리지 못합니다. 그것은 당신의 일이고, 핵심 작업이며, 받아쓰기는 그런 척하지 않습니다. 솔직한 순서는 이렇습니다. 대강의 초안을 말하고, 정리를 실행해서 문법을 다듬은 다음, 지도교수의 마지막 의견을 열어두고 키보드로 한 줄 한 줄 직접 읽으세요. 도구는 읽을 수 있는 초안을 한 시간 일찍 줍니다. 방어 가능한 논거는 주지 않습니다 — 그 부분은 여전히 당신 몫이고, 그래야 합니다.

그 말하고-정리하는 리듬은 논문 이후에도 이어집니다 — 같은 단축키 하나로 이메일, 연구 지원서, 그리고 결국 취업 시장 자기소개서에서도 목소리로 더 빠르게 타이핑할 수 있습니다.

받아쓰기가 잘못된 도구인 경우

두 방향을 가리키는 나무 이정표 위의 화살표 두 개, 도구 선택을 나타냄

받아쓰기는 당신이 말하는 단어를 초안으로 작성합니다. 다른 사람이 말하는 단어를 위한 전사 서비스가 아니며, 둘을 혼동하면 짜증스러운 오후를 보내게 됩니다. 연구 작업에서 가장 흔한 불일치: 녹음된 인터뷰, 포커스 그룹, 또는 현장 세션을 텍스트로 변환하는 것. 그것은 다른 작업입니다. 거기서는 초안을 잡는 게 아니라 — 겹침, 억양, 화자 레이블과 타임스탬프가 필요한 다중 화자 녹음을 전사하는 것입니다. 그때는 오디오 파일용으로 만들어진 전용 전사 서비스를 사용하세요. 실시간 받아쓰기 단축키는 전혀 다른 형태입니다. 지금 마이크를 듣는 것이지, 지난 화요일에 만든 두 시간짜리 MP3를 듣는 게 아닙니다.

정말 짧은 내용에는 이미 기기에 있는 무료 도구가 적합합니다. 레퍼런스 매니저에 한 줄 메모를 남기거나 공유 문서에 빠른 댓글을 달 때는 운영체제가 해결해줍니다. Windows에서는 Windows 키 + H를 누르면 커서가 있는 곳 어디서나 내장 음성 입력 바가 열립니다. 단점은 Microsoft 서버를 통해 라우팅되고 인터넷이 필요하다는 것입니다. 기밀 연구에서는 평소보다 더 중요한 오프라인 옵션이 아닙니다. Mac에서는 받아쓰기로 타이핑 가능한 곳이면 어디서나 말할 수 있으며, 키보드 아래 시스템 설정에서 설정하고, Apple Silicon에서는 일반 텍스트를 기기에서 처리할 수 있습니다.

내장 기능이 불편해질 때 전용 시스템 전체 도구를 선택하세요. 긴 챕터, 사용자 지정 어휘가 필요한 분야 전문어, 미발표 작업의 오프라인 개인정보 보호, 또는 Word, Scrivener, LaTeX 편집기에서 동일하게 작동하는 단축키 하나를 원할 때입니다. 그 기준 아래라면 무료 도구를 쓰고, 인터뷰 오디오에는 그 목적으로 만들어진 것을 사용하세요. 논문 챕터 받아쓰기에 녹음 전사에 쓸 도구와 같은 걸 쓰라고 하지 않겠습니다 — 그 둘은 서로 다른 작업이고, 하나인 척하는 것이 두 가지 모두에서 실망하는 이유입니다.

어떤 편집기도 "내 논문을 대신 써줘" 버튼을 출시한 적 없습니다. 몇 년간 현장에 있으면 그런 버튼을 기다리는 것을 멈추게 됩니다. 커서가 통합 지점입니다. 문서에 말하고, 대강의 초안을 얻고, 그다음 키보드와 많은 커피로 깔끔한 버전을 만들어가세요. 머릿속에 있는 나쁜 초안을 페이지 위로 꺼내야 싸울 수 있습니다. 싸우는 것이 진짜 작업입니다 — 받아쓰기는 그 싸움에 몇 시간 더 일찍 도달하게 해줄 뿐이고, 페이지가 비어 있는 날에는 그게 전부입니다.

다음 챕터를 말로 써내려가세요

초안을 열고, 제목 아래에 커서를 두고, 단축키를 누른 채 대강의 버전을 소리 내어 말하세요. 그다음 편집하면 됩니다. 빈 페이지가 나쁜 페이지보다 더 어렵습니다.

로그인한 계정이라면 누구나 무료 로컬 모드 사용 가능. 시작하는 데 카드 불필요.

Denys Medvediev의 사진

Denys Medvediev

저는 고객 지원 이메일을 읽는 사람입니다. 아마도 답장은 받아쓰기로 작성하고 있을 겁니다.

추가 자료