작성자: Denys Medvediev

가이드

목소리로 입력하는 방법

음성 입력은 말하면 커서 위치에 바로 텍스트가 나타나는 기능입니다. 운영체제에 기본 제공 방법이 있습니다 — Windows 키 + H 또는 macOS 받아쓰기. Whisper 같은 전용 단축키 도구도 동일한 역할을 하며, 모든 앱에서 오프라인으로 AI 정리 과정까지 지원합니다.

마지막 업데이트: 2026년 6월

조용한 책상에서 노트북을 사용하는 사람 옆에 마이크가 놓여 있는 모습, 타이핑 대신 말하는 상황을 연상시킴

목소리로 입력하려면 기본 받아쓰기 도구를 여세요 — Windows에서는 Windows 키 + H, macOS에서는 시스템 설정의 받아쓰기 — 텍스트 필드에 커서를 놓고 말하면 됩니다. 모든 앱에서 동일하게, 오프라인으로, AI 정리 기능까지 갖춘 받아쓰기가 필요하다면 Whisper 같은 전용 단축키 도구가 커서 위치에 텍스트를 붙여 넣습니다.

대부분의 사람은 분당 약 40단어를 입력합니다. 그런데 말하는 속도는 그 세 배에서 네 배입니다. 그래서 음성 입력의 가능성은 항상 분명했습니다 — 문제는 소프트웨어가 말 속도를 따라잡을 수 있느냐였죠. 약 30년 동안은 따라잡지 못했습니다. 이제는 됩니다. 그리고 신기한 점은 아직도 많은 사람이 자기 컴퓨터에 이 기능이 이미 있다는 걸 모른다는 겁니다.

시작하는 데 아무것도 살 필요 없습니다. Windows와 macOS 모두 커서가 있는 텍스트 상자에 음성으로 입력하는 기능을 기본 제공합니다. 무료이고 이미 설치되어 있으며, 짧은 내용에는 충분히 잘 작동합니다. 많은 분께 그것이 정답이기 때문에 솔직하게 그걸 먼저 보여 드리겠습니다. 그 다음엔 제가 하루 종일 실제로 사용하는 방법과 어떤 점이 앞서는지 알려 드릴게요.

설정을 하나라도 건드리기 전에 이것만 이해하면 됩니다. 음성 입력은 텍스트를 커서 위치에 붙여 넣습니다. 커서가 어느 앱에 있는지는 상관없습니다 — 이메일, 검색창, 문서, 채팅창 모두 그냥 텍스트 필드일 뿐이에요. 이걸 이해하면 전체 주제가 훨씬 단순해집니다.

결국 선택지는 백 가지가 아니라 두 가지입니다. 첫 번째는 운영체제에 이미 내장된 도구입니다. 두 번째는 키를 누르고, 말하고, 놓으면 어디서나 똑같이 동작하고 오프라인으로도 실행되는 전용 누름 말하기 앱입니다. 짧은 내용은 기본 도구로 충분합니다. 하루 종일 사용한다면 전용 도구가 진가를 발휘합니다. 두 가지 모두 설정해 드리고, 어떤 도구든 잘 쓰는 기본 방법을 알려 드리고, 앱 설치를 건너뛰어도 될 때가 언제인지도 말씀드리겠습니다.

음성 입력이란 정확히 무엇인가

키보드 옆에 놓인 데스크톱 마이크, 타이핑 대신 말로 텍스트를 입력하는 모습

음성 입력 — 받아쓰기, 음성 인식, 뭐라 불러도 상관없습니다 — 은 하나의 단순한 아이디어입니다. 말하면 소프트웨어가 오디오를 텍스트로 변환하고, 그 텍스트가 원래 타이핑하던 자리에 나타납니다. 개념은 그게 전부입니다. 새롭게 느껴지는 이유는 컴퓨터 역사 대부분의 시간 동안 쓸 만큼 잘 작동하지 않았기 때문입니다.

기억나는 게 있습니다. 친척 한 명이 Windows 98 데스크톱에 64MB RAM을 꽂고 Dragon NaturallySpeaking을 썼어요. 설정만 45분짜리 훈련 세션이었고, 단어 목록을 소리 내어 읽어서 "보정"을 해야 했습니다. 그 모든 과정을 거쳤는데도 정확도는 70% 언저리에 맴돌았고, 매 문장마다 4초 딜레이가 있었으며, 연하장 한 단락 받아쓰는 데 15분이 걸렸습니다. 헤드셋이 방 저편으로 날아갔습니다. 헤드셋은 살아남았지만 받아쓰기 실험은 그러지 못했죠. 25년 뒤, 제 작은 딸은 훈련도 보정도 없이 처음 시도에서 약 90초 만에 할머니께 완성된 이메일을 받아썼습니다.

그 차이가 이 이야기의 전부입니다. 현대 음성 입력은 대부분의 억양과 언어에서 별도 훈련 없이 바로 작동하고, 생각의 흐름을 놓치지 않을 만큼 빠르게 단어가 나타납니다. 아래 두 가지 방법 모두 그 위에 세워졌습니다. 남은 진짜 선택은 어떤 도구를 고르느냐와 어떻게 말하느냐뿐입니다.

Windows와 Mac의 빠른 기본 방법

주요 운영체제 두 가지 모두 무료로 음성 입력을 제공하며, 여기서 시작하는 것이 맞습니다. Windows에서는 텍스트 상자에 커서를 놓고 Windows 키와 H를 함께 누르세요. 작은 받아쓰기 도구 모음이 열리고 듣기 시작합니다. 말하면 단어가 필드에 들어옵니다. 문장 부호는 직접 말해서 추가합니다 — "쉼표," "마침표," "물음표" — 아니면 도구 모음 설정에서 자동 문장 부호를 켜서 맡길 수도 있습니다. 미리 알아 둘 점이 있습니다. Windows 음성 입력은 인터넷 연결이 필요합니다. 오디오가 Microsoft 서버로 전송되어 텍스트로 돌아오기 때문에 오프라인 모드는 없습니다.

Mac에서는 한 번만 설정하면 됩니다. Apple 메뉴를 열고 시스템 설정을 선택한 뒤, 사이드바에서 키보드를 클릭하고 받아쓰기로 스크롤해서 켜세요 (활성화를 클릭하면 됩니다). 그 후에는 기능 열의 마이크 키, 직접 선택한 단축키, 또는 메뉴 막대의 편집 > 받아쓰기 시작으로 받아쓰기를 시작할 수 있습니다. 텍스트 필드에 대고 말하면 단어가 나타납니다. Apple Silicon Mac에서는 일반 텍스트 받아쓰기가 Apple 서버 대신 기기에서 처리되며, 지원 언어에서 문장 부호를 자동으로 삽입합니다. 말하면서 계속 타이핑할 수도 있는데, 생각보다 훨씬 편리한 기능입니다.

Cancel
녹음 오버레이: 말하는 동안 듣고 있다는 것을 알려 주는 작은 캡슐이 나타납니다.

빠른 문자, 검색, 한 줄짜리 메모라면 이것으로 충분하고 양심 있게 여기서 읽기를 멈춰도 됩니다. 기본 도구는 세 가지 특정 상황에서 불편해집니다. Windows는 오프라인에서 사용할 수 없고, 둘 다 긴 내용에서는 흔들릴 수 있으며, 열 때마다 같은 방식이 유지되지 않습니다. 이게 불편하지 않다면 기기에 이미 있는 무료 도구가 답입니다. 불편하다면 계속 읽으세요.

더 나은 방법: 모든 앱을 위한 단축키 하나

제가 실제로 사용하는 방법은 모든 것 위에 올라앉는 전용 누름 말하기 도구입니다. 키를 누르고, 말하고, 놓으면 텍스트가 커서 위치에 붙여 넣어집니다 — 이메일, 에디터, 채팅창, 커밋 메시지 어디서나 똑같습니다. 오프라인으로 실행되고, 로컬 파이프라인은 로그인한 모든 계정에 카드 없이 무료이며, AI 정리 과정도 실행할 수 있습니다. Apple Silicon Mac 또는 Windows 10 이상의 PC와 마이크만 있으면 됩니다. 설정 방법은 다음과 같습니다.

1단계 — Whisper 설치 및 로그인.

다운로드 페이지에서 다운로드하고 설치한 뒤 무료 계정을 만드세요. 결제 수단은 묻지 않습니다. 로컬 전사 파이프라인 전체가 즉시 열립니다.

앱의 트레이 아이콘이 나타나고 설정 마법사에서 모델을 선택하도록 안내하면 성공입니다.

2단계 — 전사 방법 선택.

앱이 대신 선택하지 않습니다. 세 가지 옵션이 있습니다. Cloud (OpenAI, 직접 키 입력), Local Parakeet, 또는 Local Whisper. 개인 메모에는 로컬로 시작하세요 — 두 섹션 뒤에 자세한 비교가 있습니다.

모델 다운로드가 완료되고 준비 완료로 표시되면 성공입니다.

3단계 — 단축키 확인.

Windows 기본값은 Ctrl+Space이고, Mac은 Command+Option, 즉 말하는 동안 누르고 있는 수정 키 전용 누름 말하기입니다. Mac에서는 메시지가 표시될 때 손쉬운 사용 권한을 허용하세요 — 없으면 커서 위치에 붙여 넣기가 다른 앱에 접근하지 못합니다.

테스트 녹음이 텍스트 필드에 붙여 넣어지면 성공입니다.

4단계 — 커서를 놓고 말하세요.

어느 앱의 텍스트 필드든 클릭한 다음 단축키를 누르고, 문장을 말하고, 손을 놓으세요. 커서 위치에 텍스트가 나타납니다. 손을 놓은 후에도 잠깐 더 녹음이 이어지기 때문에 마지막 단어가 잘리지 않습니다.

말한 문장이 텍스트로 필드에 자리 잡으면 성공입니다.

Whisper
실제 Whisper 데스크톱 앱의 설정 화면, 전사와 AI 패널이 열려 있는 모습.

느린 부분은 설정이 아니라 최초 한 번의 모델 다운로드입니다. 나머지는 위 네 단계가 전부입니다. 실행되고 나면 글 쓰기가 타이핑 작업에서 말하기 작업으로 바뀌고, 단축키는 받은 편지함이든 코드 에디터든 동일한 키입니다.

Windows에서 음성을 텍스트로 · Mac에서

어떤 도구든 잘 쓰는 다섯 가지 방법

어떤 방법을 선택하든, 음성 입력이 마법처럼 느껴질지 아니면 싸움처럼 느껴질지는 같은 기본 몇 가지가 결정합니다. 복잡한 것이 없고, 대부분 소프트웨어가 아닌 사용자에 관한 이야기입니다. 이것들을 제대로 하면 저렴한 기본 도구가 비싼 도구를 잘못 쓰는 것보다 낫습니다.

조용한 곳을 선택하세요. 음성 엔진은 듣는 대로 전사하는데, 식기세척기 소리, 열린 창문 소리, 달이 왜 가끔 안 보이냐는 아이의 질문까지 다 들립니다. 조용한 방이 어떤 설정 조정보다 효과가 큽니다. 그 다음은 마이크입니다. 이건 제가 확실히 주장하는 부분인데, 20달러짜리 USB 마이크가 어떤 모델 업그레이드보다 정확도에 더 큰 영향을 줍니다. Whisper 팀의 자체 수치에 따르면 노트북 내장 마이크에서 팟캐스트 수준의 USB 마이크로 바꾸면 동일한 모델에서 오류율이 30~40% 줄어듭니다 — 더 똑똑하고 느린 엔진으로 바꾸는 것보다 훨씬 큰 효과입니다. 돈은 먼저 하드웨어에 쓰세요.

그 다음은 말하는 방식입니다. 단어 하나씩이 아니라 완전한 구절로 말하세요 — 받아쓰기 엔진은 주변 단어를 참고해서 맞는 단어를 추측하기 때문에 "거기서 만나요"는 네 단어를 하나씩 말하는 것보다 더 깔끔하게 전사됩니다. 정상적이고 일정한 속도로 말하세요. 급하게 하거나 지나치게 또렷하게 발음해도 모두 도움이 안 됩니다. 말하는 동안 쉼표와 대소문자에 신경 쓰지 마세요. 도구가 원하면 직접 말하거나, AI 정리 과정이 나중에 추가하게 두세요 — 다음 섹션에서 다룹니다. 받아쓰기, 문장 부호, 편집을 동시에 하려다 보면 긴 문장만 만들어집니다.

로컬 또는 클라우드: 어떤 모드로 사용할까

전용 도구를 쓸 때 진짜 선택은 전사가 어디서 이루어지느냐입니다. 로컬은 서버로 아무것도 보내지 않고 기기에서 모두 실행됩니다. 클라우드는 최고 수준의 정확도와 웹 접근을 위해 OpenAI로 전송됩니다. 대부분의 사람에게 대부분의 경우 로컬로 시작하는 것을 권합니다 — 노트북에는 이미 마이크와 CPU가 있고, 단락 하나에 서버가 필요하지 않습니다. Mac이 Apple Silicon이거나 PC가 최근 몇 년 이내 제품이라면 로컬이 일상적인 받아쓰기를 무리 없이 처리합니다. 앱이 직접 선택하게 하기 때문에 세 가지 방법의 차이를 알아 두세요.

  • Local ParakeetNVIDIA의 TDT 엔진으로 약 600MB이며, CPU에서 Whisper보다 5~10배 빠른 가장 빠른 로컬 옵션입니다. 영어와 24개의 유럽 언어, 총 25개 언어를 지원합니다. 영어로 번역 기능은 없습니다. 영어나 유럽 언어를 사용한다면 빠르고 완전히 오프라인인 선택입니다.
  • Local Whisper같은 기기에서 Parakeet보다 느리지만, 다국어 빌드는 99개 언어를 지원하고 영어로 번역할 수 있습니다. 영어 전용 빌드는 영어만 되고 99개 언어가 아닙니다. 중국어, 일본어, 한국어, 또는 Parakeet이 할 수 없는 번역 작업에는 이것을 선택하세요. 기본 영어 모델은 약 480MB입니다.
  • Cloud (OpenAI, BYOK)최고의 정확도와 웹 접근을 제공하며, OpenAI가 직접 청구하는 직접 발급한 OpenAI 키를 사용합니다. 전사는 기본적으로 gpt-4o-mini-transcribe로 실행됩니다. 인터넷이 필요하므로 기기를 벗어나는 유일한 경로입니다. Cloud 기능은 Whisper Pro의 일부입니다.

솔직히 말하면 대부분의 사람이 하루 종일 입력하는 텍스트 — 이메일, 메모, 메시지, 초안 — 에는 로컬로 충분합니다. 두 로컬 엔진 모두 기기에서만 실행되는데, 텍스트가 상사의 급여 스프레드시트나 아이 학교에 보내는 이메일일 때 중요한 부분입니다. 클라우드는 까다로운 녹음에서 최고 수준의 정확도가 필요하거나 문장 도중에 웹에서 정보를 가져와야 할 때 진가를 발휘합니다. 로컬로 시작하고, 로컬이 아쉬울 때만 클라우드를 택하세요.

AI로 말한 내용 정리하기

날것의 받아쓰기는 이어지는 문장으로 나옵니다. "선생님 이메일에 답장하고 여행 확인하고 목요일에 서류 보내는 거 알려 달라고 해"라고 말하면, 어떤 음성 엔진이든 문장 부호 없는 그 덩어리를 그대로 돌려줍니다. 그걸 정리하는 것이 바로 두 경로가 갈리는 지점이고, 전용 도구가 앞서는 가장 큰 이유입니다.

기본 도구는 가벼운 정리를 합니다. Windows 음성 입력은 말할 때 문장 부호를 추가하거나, 자동 문장 부호를 켜면 추측합니다. macOS 받아쓰기는 지원 언어에서 자동으로 문장 부호를 삽입합니다. 한두 문장에는 충분합니다. 더 무거운 정리 — "음"을 제거하고, 이어진 문장을 나누고, 두서없는 말을 실제로 보낼 수 있는 글로 바꾸는 것 — 은 Whisper가 AI 정리 과정을 실행할 수 있습니다. 활성화 구문 "Hey whisper"를 말하면 텍스트가 향상된 상태로 들어옵니다. 로컬 모델에서는 Ollama를 통해 기기 밖으로 아무것도 나가지 않고 실행되고, 클라우드 모드에서는 기본적으로 gpt-5-mini로 실행됩니다.

Thinking...
원본

okay so reply to the teacher email confirm the trip and remind me to send the form thursday um before the morning bell

정리 후

Okay, so reply to the teacher email, confirm the trip, and remind me to send the form Thursday before the morning bell.

이게 받아쓰기의 느낌을 바꾸는 부분입니다. 정리 과정 없이는 타이핑을 편집으로 교환하는 셈입니다 — 빠르게 말하고, 아낀 시간을 대소문자 고치고 이어진 문장 자르는 데 씁니다. 정리 과정이 있으면 실제로 말하는 방식 그대로 아무렇게나 말하고 완성에 가까운 결과물을 받습니다. 저는 생각하는 방식 그대로, 단편적이고 가끔 잘못 시작하는 방식으로 받아쓰고 정리 과정이 알아서 하게 둡니다. 이메일을 대신 써 주지는 않지만, 말로 한 이메일이 처음부터 그렇게 쓰려 했던 것처럼 들리게 만들어 줍니다.

그 말하고 정리하는 흐름이 바로 음성이 일상적인 글쓰기에서 타이핑을 앞설 수 있는 전체 이유입니다 — 긴 단락이 키보드 앞의 5분 대신 몇 마디 말로 완성됩니다.

기본 도구로 충분할 때

서로 다른 방향을 가리키는 두 화살표, 도구 선택을 나타냄

가끔은 기기에 이미 있는 무료 도구가 정답이고, 그렇지 않은 척하는 건 정직하지 않습니다. 짧은 내용만 받아쓴다면 — 문자, 검색, 간단한 메모 — 기본 도구로 공짜로 해결되고, 앱을 설치하는 건 오히려 과합니다. 한 줄짜리 알림을 위해 소프트웨어를 설정하라고 말할 생각은 없습니다.

Windows에서는 Windows 키 + H 도구 모음이 짧은 받아쓰기에 진짜 유용합니다. 문장 부호를 처리하고 이미 거기 있습니다. Mac에서, 특히 Apple Silicon에서는 받아쓰기가 기기에서 실행되고 자동으로 문장 부호를 넣으며 말하는 동안 계속 타이핑할 수 있어서 일상적인 짧은 내용에 충분히 넘칩니다. 주로 짧은 메시지를 보내고 Mac을 사용한다면 다른 것이 전혀 필요 없을 수도 있습니다. 기본 도구에 더 의지하고 싶다면 Windows에서 음성을 텍스트로Mac에서 음성을 텍스트로 가이드에 더 자세한 설명이 있습니다.

매일 느끼는 방식으로 기본 도구가 불편해질 때 전용 도구를 택하세요. 긴 글쓰기 세션, Windows에서의 오프라인 받아쓰기, 다국어 작업, 더 강력한 AI 정리 과정, 또는 창을 전환할 때마다 방법을 다시 익히는 대신 모든 앱에서 동일하게 작동하는 단축키 하나를 원할 때입니다. 그 기준 아래에서는 무료로 쓰세요. 솔직한 답은 기본 도구가 대부분의 사람에게 맞는 출발점이고, 전용 도구는 이걸 충분히 많이 해서 불편함을 느끼기 시작할 때 맞는 업그레이드라는 겁니다.

받아쓰기의 대부분이 메시지 전송보다는 아이디어 포착이라면, 음성-텍스트 메모 작성에서도 동일한 방식으로 트레이드오프가 나타납니다 — 짧은 포착은 기본 도구가 맞고, 긴 세션은 전용 단축키가 가치를 발휘하기 시작하는 때입니다.

목소리로 입력하는 것은 새로운 기술이 아닙니다 — 30년 된 아이디어가 드디어 제대로 작동하는 것입니다. 기기의 기본 도구가 대부분의 길을 가 줄 것이고, 많은 분께 그게 전부입니다. "대부분의 길"로는 부족할 때 전용 도구를 찾게 됩니다. 이 글의 거의 대부분을 노트북에 대고 말하고 정리 과정이 잘못된 시작을 고치게 하면서 썼고, 다시 읽어서 사람이 쓴 것처럼 들리는지 확인했습니다. 그랬습니다. 그것이 유일한 기준입니다.

다음 문장을 타이핑 대신 말해 보세요

단축키를 누르고, 말하고, 손을 놓으세요. 텍스트가 커서 위치 어디에나 — 모든 앱에서 매번 동일하게 — 나타납니다.

로그인한 모든 계정에 무료 로컬 모드. 시작 시 카드 불필요.

Denys Medvediev 사진

Denys Medvediev

우리 고객 지원 이메일을 읽는 사람이 바로 저인데, 답장은 아마도 받아쓰기로 하고 있을 겁니다.

더 읽기