가이드
음성 입력 소프트웨어: 무료 기본 제공 기능 vs 유료 도구
가장 좋은 음성 입력 소프트웨어 중 일부는 이미 여러분의 컴퓨터에 들어 있습니다. 어떤 것을 써야 하는지, 그리고 전용 앱에 돈을 쓰는 게 정말 의미 있는 순간은 언제인지 알려드립니다.
마지막 업데이트: 2026년 6월

음성 입력 소프트웨어는 마이크로 듣고 여러분이 말한 내용을 받아 적어, 말을 편집 가능한 텍스트로 바꿔 줍니다. 속도는 분당 약 145단어로, 타이핑의 약 40단어를 크게 앞섭니다. 좋은 도구는 시스템 전체에서 동작해 단어가 커서 위치에 바로 들어갑니다. 일부는 무료이고 Windows와 Mac에 기본 내장되어 있으며, 유료 앱은 오프라인 모드와 AI 정리 기능을 더해 줍니다.
말하면 단어가 커서 위치에 떨어진다
처음 작동하는 순간에는 작은 마술처럼 느껴집니다. 키를 누른 채 한 문장을 말하고 손을 떼면, 그 문장이 이미 이메일에 들어와 있습니다. 키보드는 없었습니다. 제 어린 친척은 받아쓰기가 뭔지 제가 다 설명하기도 전에 할머니에게 보낼 90단어짜리 메모를 받아 적게 했습니다. 어려운 부분은 말하기였던 적이 한 번도 없습니다. 20년 동안 어려웠던 건 믿고 맡길 만큼 소프트웨어가 충분히 좋아지는 일이었고, 마침내 그 부분이 해결됐습니다.
이 글은 어떤 음성 입력 소프트웨어가 여러분의 시간을 들일 가치가 있는지에 관한 것입니다. 이미 가지고 있는 무료 옵션까지 포함해서요.
키보드에 묶여 있는 사람 대부분은 필요해서가 아니라 습관 때문에 그러고 있습니다. 타이핑은 학습된 타협입니다. 귀가 없는 기계에 생각을 꺼내 넣기 위한 방법이죠. 음성 입력 소프트웨어는 그 타협을 없애 줍니다. 2022년 무렵부터 질문은 '작동하느냐'가 아니라 '어떤 것을 쓰고, 돈을 내야 하느냐'로 바뀌었습니다.
솔직한 답은 세 가지에 달려 있습니다. 얼마나 오래 받아쓰는지, 모든 앱에서 동작하길 원하는지, 그리고 여러분의 말이 노트북을 절대 떠나지 않는 것이 중요한지. 이 글을 끝까지 읽고 나면 어느 길이 맞는지 알게 될 것이고, 무료 기본 옵션만으로 충분한 경우도 짚어 드리겠습니다. 저는 이 앱의 지원 이메일을 거의 다 읽는데, 그중 꾸준한 비중이 이미 자기 컴퓨터에 있는 도구로 충분했을 일에 돈을 낸 분들에게서 옵니다. 그러니 저에게는 여러분의 구매를 말리는 데 작은 이해관계가 있습니다.
음성 입력 소프트웨어란 무엇인가

음성 입력 소프트웨어는 마이크에서 오디오를 받아 음성 인식 모델로 글자로 변환하는 프로그램입니다. 예전 이름은 받아쓰기 소프트웨어입니다. 더 새로운 마케팅 용어는 AI 받아쓰기인데, 구두점과 어조를 다듬어 주는 언어 모델이 붙었다는 점만 빼면 대체로 같은 의미입니다.
여기에는 세 가지 형태가 있습니다. 기본 내장 받아쓰기는 운영체제에 함께 들어옵니다. Windows Voice typing, Apple Dictation이 그렇습니다. 브라우저 기반 음성 입력은 Google Docs Voice typing처럼 하나의 앱 안에서만 동작합니다. 그리고 전용 데스크톱 앱은 따로 설치되어 여러분이 글을 쓰는 모든 곳에서 작동합니다. 브랜드보다 형태가 더 중요합니다. Google Docs 안에서만 글을 쓰는 브라우저 도구는 아무리 정확해도 Slack 메시지에는 쓸모가 없습니다. 어떤 도구든 첫 질문은 '얼마나 정확한가'가 아니라 '어디에서 입력할 수 있게 해 주는가'여야 합니다. 정확도는 이제 대부분의 도구에서 해결된 문제이지만, 도달 범위는 그렇지 않습니다.
진지한 도구와 장난감을 가르는 건 어디에 붙여 넣느냐입니다. 기본 내장 도구와 전용 데스크톱 도구는 시스템 전체에서 동작합니다. 어떤 텍스트 입력란에서든 단축키를 누르면 거기에 텍스트가 나타납니다. 그게 핵심의 전부입니다. 정확도, 언어, AI 정리 같은 나머지는 전부 '내가 보고 있는 곳에 입력해 주는가'라는 토대 위에 얹힌 세부 개선일 뿐입니다.
두 번째로 범주를 가르는 건 모델이 무엇을 알아들을 수 있느냐입니다. 어떤 도구는 영어만 처리합니다. 다른 도구는 수십 개 언어를 다루고 문장 중간에 언어를 바꿀 수도 있습니다. Whisper의 영어 전용 모델은 딱 한 언어만 지원하지만, 다국어 빌드는 99개 언어를 다룹니다. NVIDIA의 Parakeet은 그 중간인 25개 언어, 즉 영어와 24개 유럽 언어를 지원합니다. 영어로만 쓴다면 그런 건 전혀 중요하지 않고, 대신 속도로 골라야 합니다. 점심 전에 두 언어로 초안을 쓴다면 그건 아주 중요합니다. 대부분의 사람은 필요한 언어 수를 과대평가하고, 지연 시간에 얼마나 신경 쓰는지를 과소평가합니다. 키에서 손을 떼고 텍스트가 보이기까지의 지연은 매번 느끼게 되는 것입니다.
범주에 대해 읽기보다 시스템 전체에서 동작하는 모습을 직접 보고 싶다면, Whisper 음성 입력 페이지에서 Windows와 Mac에서 단축키를 누른 채 말하는 흐름을 무료 로컬 엔진까지 포함해 보여 드립니다.
어떻게 작동하는가 (그리고 왜 정확도가 마침내 좋아졌는가)
내부적으로 파이프라인은 세 단계입니다. 마이크가 짧은 오디오 조각을 녹음합니다. 음성 인식 모델이 그 오디오를 텍스트로 바꿉니다. 그런 다음 텍스트가 붙여 넣어집니다. 가끔은 언어 모델이 한 번 다듬은 뒤에요.
모두가 알아챈 정확도 도약은 가운데에 있는 모델에서 나왔습니다. OpenAI의 오픈소스 Whisper 모델이 '좋다'의 기준을 바꿨습니다. 이 모델은 별도의 학습 단계 없이 억양, 배경 소음, 그리고 다국어 변형에서 99개 언어를 처리합니다. 마지막 부분이 조용한 혁명입니다. 요즘 음성 입력 소프트웨어에는 여러분의 목소리를 가르치지 않습니다. 설치하고 그냥 말하면 됩니다.
그게 공상과학이던 시절을 기억할 만큼 저는 나이를 먹었습니다. 1990년대 후반, 한 친척이 64MB 램의 Windows 98 데스크톱에서 Dragon NaturallySpeaking을 돌렸습니다. 설정이란 소프트웨어가 목소리에 맞춰 보정할 수 있도록 단어 목록을 45분 동안 소리 내어 읽는 일이었습니다. 그러고 나면 간신히 작동했는데, 정확도는 약 70%, 문장마다 4초쯤 지연이 있었습니다. 연하장 한 문단을 받아쓰는 데 15분이 걸렸습니다. 헤드셋은 방 건너편으로 내던져졌습니다. 헤드셋은 살아남았지만 실험은 그러지 못했습니다. 25년이 지난 지금 같은 작업은 90초가 걸리고 학습은 전혀 필요 없습니다. 하드웨어가 아이디어를 따라잡은 것입니다.
오늘날 가운데 단계에는 두 가지 방식이 있습니다. 로컬 처리는 모델을 여러분 자신의 컴퓨터에서 오프라인으로 돌리므로 오디오가 기기를 절대 떠나지 않습니다. 오프라인 음성-텍스트 변환이 작동하는 방식이 그렇습니다. 클라우드 처리는 오디오를 서버로 보내는데, 성능이 낮은 하드웨어에서는 더 빠를 수 있지만 여러분의 말이 밖으로 나간다는 뜻입니다. 어느 쪽을 원하는지는 무엇을 받아쓰느냐에 달려 있습니다. 장보기 목록이라면 누가 신경 쓰겠습니까. 고객의 계약서라면 신경 쓸 만하죠.
세 번째 단계인 정리는 AI 받아쓰기의 'AI'가 자리한 곳입니다. 가공되지 않은 받아쓰기는 문단 구분도 없고 가끔 '음' 같은 군더더기가 섞인 단어 더미를 줍니다. 언어 모델은 구두점을 고치고 군더더기를 빼며, 원하는 어조에 맞춰 주기까지 합니다. Whisper by Remskill에서 그 단계는 선택 사항이며 Ollama를 통해 로컬에서 돌아가거나, Pro를 켜면 여러분 자신의 OpenAI 키를 통해 클라우드에서 돌아갑니다. 음성으로 실행할 수도 있습니다. 활성화 문구(현재는 Hey whisper)를 말하면 텍스트가 그대로 붙지 않고 모델에 넘겨집니다. 그 무엇도 핵심 기술을 바꾸지는 않습니다. 단지 도착하는 단어가 얼마나 다듬어져 있을지를 정할 뿐입니다.
이미 가지고 있는 무료 옵션: Windows Voice typing, Apple Dictation, Google Docs
무엇이든 돈을 내기 전에, 이미 여러분의 컴퓨터에 무엇이 있는지부터 확인하세요. 세 가지 무료 기본 옵션이 꽤 넓은 영역을 커버합니다.
Windows · Win + H
macOS · Dictation
Docs · Voice typing
Windows Voice typing
Windows 11에서는 어떤 텍스트 입력란에서든 Windows 로고 키와 H를 함께 누르면 음성 입력 바가 나타납니다. 빠른 메시지에 좋습니다. 단점: 인식이 클라우드에서 이뤄지기 때문에 작동하려면 인터넷 연결과 정상 작동하는 마이크가 필요합니다. Microsoft 목록 기준으로 43개 언어를 지원합니다. 기차에서 오프라인 상태라면 작동을 멈춥니다. 자세한 단계별 안내는 Windows에서 음성을 텍스트로 가이드에 있습니다.
Apple Dictation
Mac에서는 시스템 설정 > 키보드 > 받아쓰기에서 켠 다음, 마이크 키나 직접 정한 단축키로 시작합니다. 현재 버전은 길이에 상관없이 텍스트를 받아 적으며, 정해진 시간 제한이 아니라 30초 동안 침묵이 이어진 뒤에야 멈춥니다. Apple Silicon에서는 음성을 기기 내에서 처리할 수 있습니다. 짧은 메모에는 무료이고 충분합니다. 더 긴 설정 안내는 Mac에서 음성을 텍스트로에 있습니다.
Google Docs Voice typing
Chrome, Edge, Safari에서 Google 문서를 열고 도구 > 음성 입력을 클릭하면 마이크 상자가 나타납니다. 100개가 넘는 언어와 지역 변형을 지원합니다. 명확한 한계는 이름에 그대로 드러나 있습니다. Google Docs와 Slides 안에서만 글을 쓸 수 있습니다. 이메일도, Slack도, 코드도 입력해 주지 않습니다.
이 세 가지를 솔직하게 읽는 법: 이것들은 데모가 아니라 진짜 도구이고, 상당수의 사람에게는 검색의 끝입니다. 한계가 어디인지는 예측 가능합니다. Windows Voice typing은 신호가 끊기는 순간 죽습니다. Google Docs Voice typing은 문서를 절대 벗어나지 않습니다. Apple Dictation은 Mac에서는 훌륭하지만 그 밖의 어디에도 없습니다. 여러분의 작업이 그 경계 안에 들어맞는다면 끝난 겁니다. 이 탭을 닫고 키를 누르세요. 유료 범주는 그 안에 들어맞지 않는 작업을 위해 존재합니다. 하루 종일 받아쓰기, 비행기에서의 오프라인, 하나가 아니라 모든 앱, 그리고 여러분 자신의 디스크에 머물러야 하는 오디오 같은 것들 말이죠.
알아 둘 가치가 있는 유료 도구들 (Dragon, Wispr Flow, Superwhisper, Voicy, Whisper by Remskill)
무료 도구가 한계에 다다를 때, 하루 종일 받아쓰거나 오프라인 모드가 필요하거나 AI 정리를 원할 때, 유료 범주가 열립니다. 각각 한 줄의 솔직한 설명과 함께 알아 둘 만한 이름들을 소개합니다.
전체 선택지를 순서대로 나란히 보고 싶다면, 여기 최고의 음성 입력 소프트웨어 순위가 있습니다.
저는 이들을 초시계로 직접 맞붙여 보지 않았으니, 그런 척하지 않겠습니다. 아래 이름들은 세 가지를 기준으로 골랐습니다. 문서로 확인된 플랫폼 도달 범위(여러분이 실제로 입력하는 곳에서 작동하는가), 문서로 확인된 오프라인 지원(오디오가 기기를 떠나는가), 그리고 문서로 확인된 언어 지원입니다. 이 표에는 각 공급사가 공개한 사실만 담았습니다. 속도와 정확도는 뺐는데, 이들 전부를 아우르는 중립적 벤치마크가 존재하지 않고, 하나를 지어내는 것이야말로 제가 여기서 여러분을 말리려는 바로 그 일이기 때문입니다.
| 도구 | 플랫폼 | 로컬 / 클라우드 | 오프라인 작동 | 요금 모델 | 언어 | 적합한 용도 |
|---|---|---|---|---|---|---|
| Windows Voice typing | Windows 11 | 클라우드 | 아니요 | 무료, 기본 내장 | 43 | 연결된 PC에서 빠른 메시지 |
| Apple Dictation | macOS | Apple Silicon에서 로컬 | 예 (Apple Silicon) | 무료, 기본 내장 | 수십 개 | Mac에서 짧은 메모 |
| Google Docs Voice typing | 브라우저 | 클라우드 | 아니요 | 무료, 브라우저 기능 | 100+ | Google Docs 안에서만 글쓰기 |
| Dragon by Nuance | Windows | 로컬 | 예 | 유료, 일회성 라이선스 | 영어 중심 | Windows에서 하루 종일 받아쓰기 |
| Whisper by Remskill | Windows, macOS (Apple Silicon) | 로컬 또는 클라우드 (본인 키) | 예 (로컬 엔진) | 로컬 무료, 클라우드용 유료 Pro | Whisper 다국어에서 99 | 시스템 전체 받아쓰기, 오프라인, 모든 앱 |
Dragon by Nuance 는 노장입니다. Dragon Professional v16은 타이핑보다 세 배 빠른 받아쓰기와 첫 사용부터 최대 99%의 인식 정확도를 내세우며, Windows 11에 최적화되어 있습니다. 그 99%는 Nuance 자체 수치이지 중립적 벤치마크가 아닙니다. 단점: Dragon Professional은 Windows 전용이며, 현재 Mac 데스크톱 버전이 없습니다.
Wispr Flow, Superwhisper, Voicy 는 더 새로운 물결의 AI 받아쓰기 앱들입니다. 음성 모델을 깔끔한 인터페이스로 감싸고 어조나 서식 정리를 더합니다. 충분히 유능합니다. 이 범주 대부분에 걸친 패턴은 같은 구조입니다. 음성 모델, UI, 그리고 월 청구서. 그리고 가장 크게 차이가 나는 곳이 바로 그 청구서입니다. 청구서가 따끔한 부분이라면, 우리가 정리한 솔직한 superwhisper 대안이 있습니다. 전체 로컬 파이프라인을 영원히 무료로 유지하는 방법이죠.
Whisper by Remskill은 우리 앱으로, Windows와 Apple Silicon 기반 macOS를 위한 데스크톱 도구입니다. 단축키를 누르고 말하면 어떤 앱에서든 텍스트가 커서 위치에 붙여 넣어집니다. 기본 단축키는 Windows에서 Ctrl+Space, Mac에서는 Command+Option 누름-말하기 조합입니다 — 둘을 누른 채 말하고, 둘 중 하나를 떼면 멈춥니다. 여러분이 고르는 건 엔진입니다. 세 가지 경로 중에서 선택합니다. 로컬 NVIDIA Parakeet(~600 MB, CPU에서 Whisper보다 5~10배 빠름, 영어와 24개 유럽 언어), 로컬 Whisper(여덟 개 모델, 다국어 모델에서 99개 언어, 영어로 번역), 또는 클라우드 모드(여러분 자신의 OpenAI 키로 gpt-4o-mini-transcribe나 gpt-4o-transcribe를 사용하며 우리가 떼는 수수료는 없습니다). 모든 로컬 받아쓰기는 순수 Rust로, Python이 없습니다. 더 넓은 분야의 전체 비교는 우리 받아쓰기 소프트웨어 총정리에 있습니다.
여기가 제 한 가지 의견이 들어가는 곳이기도 합니다. 로컬 모드를 먼저 써 보세요. Mac이 Apple Silicon이거나 PC가 최근 4년 안에 나온 것이라면, 일상적인 받아쓰기에 클라우드는 필요 없습니다. 로컬 Parakeet은 최신 하드웨어에서 2초도 훨씬 안 되어 받아쓰기를 시작하고, 오디오는 노트북을 절대 떠나지 않으며, 클라우드는 OpenAI급 정확도나 웹 검색을 원할 때를 위한 비상구이지 기본값이 아닙니다. 벽에 부딪혔을 때 네트워크에 손을 뻗으세요, 그 전이 아니라요. 저는 반사적으로 더 크고 화려한 해법에 손을 뻗었다가 스스로를 다시 끌어내리는 부류의 설계자입니다. 로컬 우선은 제가 공개적으로 스스로를 끌어내리는 일이라, 여러분은 제가 일주일을 낭비하는 부분을 건너뛸 수 있습니다.
현실적인 이유는 하드웨어입니다. 최신 노트북은 이미 마이크와, 음성 모델을 자체적으로 돌릴 만큼 빠른 프로세서를 갖추고 있습니다. 여러분의 기기가 오프라인에서 2초 안에 해낼 수 있는 작업을 위해 오디오 한 문단을 서버로 보냈다가 다시 받는 것은, 노트북이 너무 느리던 시절에서 남은 습관입니다. 이제는 더 이상 느리지 않습니다. 클라우드는 어려운 경우에 제값을 합니다. 시끄러운 방, 흔치 않은 억양, 답장에 붙여 넣을 실시간 웹 답변이 필요한 요청 같은 것들이죠. 이메일, 메모, 채팅의 일상적 흐름에는 로컬이 시작이 더 빠르고, 기본적으로 사적이며, 로그인한 사용자에게 무료입니다. 필요할 때 비상구는 거기 있습니다. 다만 대부분의 날에는 쓸 일이 없을 겁니다.
전용 앱을 건너뛰고 기본 내장 기능을 써야 할 때
여기가 대부분의 '최고의 소프트웨어' 글이 건너뛰는 부분입니다. 30단어짜리 문자, 빠른 Slack 답장처럼 짧은 메시지를 보낸다면, 이미 여러분의 컴퓨터에 있는 무료 받아쓰기만으로 충분합니다. Windows Voice typing(Windows 키 + H)과 Apple Dictation은 무료이고, 기본 내장이며, 잘 작동합니다. 한 문장 쓰자고 뭔가를 설치하거나 돈을 내지 마세요. 전용 앱은 여러분이 자주 받아쓰거나, 비행기에서 오프라인으로 동작해야 하거나, 하나가 아니라 모든 앱에서 쓰고 싶거나, 여러분의 말이 기기에 머무는 것이 중요할 때 비로소 제값을 하기 시작합니다. 그 기준 아래라면, 따분한 진실은 여러분이 이미 알맞은 도구를 가지고 있다는 것입니다.
Whisper by Remskill의 비용
Whisper by Remskill은 로컬 파이프라인 전체에 대해 로그인한 모든 사용자에게 무료입니다. 로컬 Whisper, Parakeet, Ollama 기반 AI 정리, 기록, 사용자 지정 단축키, 모델 다운로드까지, 가입에 결제 수단도 필요 없습니다. Whisper Pro는 클라우드 영역을 더합니다. OpenAI 클라우드 받아쓰기, 클라우드 AI 향상, 그리고 여러분 자신의 OpenAI 키를 통한 음성 웹 검색입니다. 클라우드 모드는 OpenAI를 통해 직접 청구되며, 우리는 수수료를 떼지 않습니다. 현재 요금제와 Pro 체험판은 요금 페이지에 있습니다. 여기서 숫자를 들이대지는 않겠습니다. 그 페이지가 한 문단보다 더 잘 설명해 줍니다.
더 읽을거리
제 친척은 1999년에 헤드셋을 방 건너편으로 내던졌습니다. 받아쓰기가 쓰레기를 내놓는 45분짜리 고역이었기 때문이죠. 헤드셋은 그 실험보다 오래 살아남았습니다. 25년이 지난 지금 그 고역은 사라졌습니다. 키를 누르고 말하면 단어가 나타납니다. 남은 진짜 결정은 어떤 도구냐 하나뿐이고, 많은 사람에게 정답은 이미 자기 컴퓨터에 꺼진 채로, 기다리며 앉아 있습니다. 제 아이들은 이게 한때 어려웠다는 걸 영영 모를 텐데, 그게 목표입니다. 저녁 식탁에서 들려줄 이야깃거리로는 더 못해지더라도요.
이미 가지고 있는 것부터 먼저 써 보세요
그것이 한계에 다다르면, Whisper를 내려받아 여러분의 작업 방식에 맞는 엔진을 고르세요.
로그인한 사용자에게 전체 로컬 파이프라인 무료. 가입 시 카드 필요 없음.



