작성자: Denys Medvediev

가이드

음성 입력 소프트웨어: 무료 기본 제공 기능 vs 유료 도구

가장 좋은 음성 입력 소프트웨어 중 일부는 이미 여러분의 컴퓨터에 들어 있습니다. 어떤 것을 써야 하는지, 그리고 전용 앱에 돈을 쓰는 게 정말 의미 있는 순간은 언제인지 알려드립니다.

마지막 업데이트: 2026년 6월

밝은 사무실 책상 위에 놓인 날렵한 노트북과 물 한 잔, 손을 쓰지 않는 음성 입력 환경을 갖춘 모습

음성 입력 소프트웨어는 마이크로 듣고 여러분이 말한 내용을 받아 적어, 말을 편집 가능한 텍스트로 바꿔 줍니다. 속도는 분당 약 145단어로, 타이핑의 약 40단어를 크게 앞섭니다. 좋은 도구는 시스템 전체에서 동작해 단어가 커서 위치에 바로 들어갑니다. 일부는 무료이고 Windows와 Mac에 기본 내장되어 있으며, 유료 앱은 오프라인 모드와 AI 정리 기능을 더해 줍니다.

말하면 단어가 커서 위치에 떨어진다

처음 작동하는 순간에는 작은 마술처럼 느껴집니다. 키를 누른 채 한 문장을 말하고 손을 떼면, 그 문장이 이미 이메일에 들어와 있습니다. 키보드는 없었습니다. 제 어린 친척은 받아쓰기가 뭔지 제가 다 설명하기도 전에 할머니에게 보낼 90단어짜리 메모를 받아 적게 했습니다. 어려운 부분은 말하기였던 적이 한 번도 없습니다. 20년 동안 어려웠던 건 믿고 맡길 만큼 소프트웨어가 충분히 좋아지는 일이었고, 마침내 그 부분이 해결됐습니다.

이 글은 어떤 음성 입력 소프트웨어가 여러분의 시간을 들일 가치가 있는지에 관한 것입니다. 이미 가지고 있는 무료 옵션까지 포함해서요.

Pasted
Whisper의 오버레이가 받아쓰기를 마무리하는 모습 — 텍스트가 커서 위치에 붙여 넣어집니다.

키보드에 묶여 있는 사람 대부분은 필요해서가 아니라 습관 때문에 그러고 있습니다. 타이핑은 학습된 타협입니다. 귀가 없는 기계에 생각을 꺼내 넣기 위한 방법이죠. 음성 입력 소프트웨어는 그 타협을 없애 줍니다. 2022년 무렵부터 질문은 '작동하느냐'가 아니라 '어떤 것을 쓰고, 돈을 내야 하느냐'로 바뀌었습니다.

솔직한 답은 세 가지에 달려 있습니다. 얼마나 오래 받아쓰는지, 모든 앱에서 동작하길 원하는지, 그리고 여러분의 말이 노트북을 절대 떠나지 않는 것이 중요한지. 이 글을 끝까지 읽고 나면 어느 길이 맞는지 알게 될 것이고, 무료 기본 옵션만으로 충분한 경우도 짚어 드리겠습니다. 저는 이 앱의 지원 이메일을 거의 다 읽는데, 그중 꾸준한 비중이 이미 자기 컴퓨터에 있는 도구로 충분했을 일에 돈을 낸 분들에게서 옵니다. 그러니 저에게는 여러분의 구매를 말리는 데 작은 이해관계가 있습니다.

음성 입력 소프트웨어란 무엇인가

선명한 음파를 보여 주는 디지털 오디오 인터페이스의 클로즈업, 음성이 데이터로 포착되는 모습을 표현

음성 입력 소프트웨어는 마이크에서 오디오를 받아 음성 인식 모델로 글자로 변환하는 프로그램입니다. 예전 이름은 받아쓰기 소프트웨어입니다. 더 새로운 마케팅 용어는 AI 받아쓰기인데, 구두점과 어조를 다듬어 주는 언어 모델이 붙었다는 점만 빼면 대체로 같은 의미입니다.

여기에는 세 가지 형태가 있습니다. 기본 내장 받아쓰기는 운영체제에 함께 들어옵니다. Windows Voice typing, Apple Dictation이 그렇습니다. 브라우저 기반 음성 입력은 Google Docs Voice typing처럼 하나의 앱 안에서만 동작합니다. 그리고 전용 데스크톱 앱은 따로 설치되어 여러분이 글을 쓰는 모든 곳에서 작동합니다. 브랜드보다 형태가 더 중요합니다. Google Docs 안에서만 글을 쓰는 브라우저 도구는 아무리 정확해도 Slack 메시지에는 쓸모가 없습니다. 어떤 도구든 첫 질문은 '얼마나 정확한가'가 아니라 '어디에서 입력할 수 있게 해 주는가'여야 합니다. 정확도는 이제 대부분의 도구에서 해결된 문제이지만, 도달 범위는 그렇지 않습니다.

진지한 도구와 장난감을 가르는 건 어디에 붙여 넣느냐입니다. 기본 내장 도구와 전용 데스크톱 도구는 시스템 전체에서 동작합니다. 어떤 텍스트 입력란에서든 단축키를 누르면 거기에 텍스트가 나타납니다. 그게 핵심의 전부입니다. 정확도, 언어, AI 정리 같은 나머지는 전부 '내가 보고 있는 곳에 입력해 주는가'라는 토대 위에 얹힌 세부 개선일 뿐입니다.

두 번째로 범주를 가르는 건 모델이 무엇을 알아들을 수 있느냐입니다. 어떤 도구는 영어만 처리합니다. 다른 도구는 수십 개 언어를 다루고 문장 중간에 언어를 바꿀 수도 있습니다. Whisper의 영어 전용 모델은 딱 한 언어만 지원하지만, 다국어 빌드는 99개 언어를 다룹니다. NVIDIA의 Parakeet은 그 중간인 25개 언어, 즉 영어와 24개 유럽 언어를 지원합니다. 영어로만 쓴다면 그런 건 전혀 중요하지 않고, 대신 속도로 골라야 합니다. 점심 전에 두 언어로 초안을 쓴다면 그건 아주 중요합니다. 대부분의 사람은 필요한 언어 수를 과대평가하고, 지연 시간에 얼마나 신경 쓰는지를 과소평가합니다. 키에서 손을 떼고 텍스트가 보이기까지의 지연은 매번 느끼게 되는 것입니다.

범주에 대해 읽기보다 시스템 전체에서 동작하는 모습을 직접 보고 싶다면, Whisper 음성 입력 페이지에서 Windows와 Mac에서 단축키를 누른 채 말하는 흐름을 무료 로컬 엔진까지 포함해 보여 드립니다.

어떻게 작동하는가 (그리고 왜 정확도가 마침내 좋아졌는가)

내부적으로 파이프라인은 세 단계입니다. 마이크가 짧은 오디오 조각을 녹음합니다. 음성 인식 모델이 그 오디오를 텍스트로 바꿉니다. 그런 다음 텍스트가 붙여 넣어집니다. 가끔은 언어 모델이 한 번 다듬은 뒤에요.

CancelTranscribing
받아쓰는 중인 Whisper — 음성 모델이 오디오를 텍스트로 바꾸고 있습니다.

모두가 알아챈 정확도 도약은 가운데에 있는 모델에서 나왔습니다. OpenAI의 오픈소스 Whisper 모델이 '좋다'의 기준을 바꿨습니다. 이 모델은 별도의 학습 단계 없이 억양, 배경 소음, 그리고 다국어 변형에서 99개 언어를 처리합니다. 마지막 부분이 조용한 혁명입니다. 요즘 음성 입력 소프트웨어에는 여러분의 목소리를 가르치지 않습니다. 설치하고 그냥 말하면 됩니다.

그게 공상과학이던 시절을 기억할 만큼 저는 나이를 먹었습니다. 1990년대 후반, 한 친척이 64MB 램의 Windows 98 데스크톱에서 Dragon NaturallySpeaking을 돌렸습니다. 설정이란 소프트웨어가 목소리에 맞춰 보정할 수 있도록 단어 목록을 45분 동안 소리 내어 읽는 일이었습니다. 그러고 나면 간신히 작동했는데, 정확도는 약 70%, 문장마다 4초쯤 지연이 있었습니다. 연하장 한 문단을 받아쓰는 데 15분이 걸렸습니다. 헤드셋은 방 건너편으로 내던져졌습니다. 헤드셋은 살아남았지만 실험은 그러지 못했습니다. 25년이 지난 지금 같은 작업은 90초가 걸리고 학습은 전혀 필요 없습니다. 하드웨어가 아이디어를 따라잡은 것입니다.

오늘날 가운데 단계에는 두 가지 방식이 있습니다. 로컬 처리는 모델을 여러분 자신의 컴퓨터에서 오프라인으로 돌리므로 오디오가 기기를 절대 떠나지 않습니다. 오프라인 음성-텍스트 변환이 작동하는 방식이 그렇습니다. 클라우드 처리는 오디오를 서버로 보내는데, 성능이 낮은 하드웨어에서는 더 빠를 수 있지만 여러분의 말이 밖으로 나간다는 뜻입니다. 어느 쪽을 원하는지는 무엇을 받아쓰느냐에 달려 있습니다. 장보기 목록이라면 누가 신경 쓰겠습니까. 고객의 계약서라면 신경 쓸 만하죠.

세 번째 단계인 정리는 AI 받아쓰기의 'AI'가 자리한 곳입니다. 가공되지 않은 받아쓰기는 문단 구분도 없고 가끔 '음' 같은 군더더기가 섞인 단어 더미를 줍니다. 언어 모델은 구두점을 고치고 군더더기를 빼며, 원하는 어조에 맞춰 주기까지 합니다. Whisper by Remskill에서 그 단계는 선택 사항이며 Ollama를 통해 로컬에서 돌아가거나, Pro를 켜면 여러분 자신의 OpenAI 키를 통해 클라우드에서 돌아갑니다. 음성으로 실행할 수도 있습니다. 활성화 문구(현재는 Hey whisper)를 말하면 텍스트가 그대로 붙지 않고 모델에 넘겨집니다. 그 무엇도 핵심 기술을 바꾸지는 않습니다. 단지 도착하는 단어가 얼마나 다듬어져 있을지를 정할 뿐입니다.

이미 가지고 있는 무료 옵션: Windows Voice typing, Apple Dictation, Google Docs

무엇이든 돈을 내기 전에, 이미 여러분의 컴퓨터에 무엇이 있는지부터 확인하세요. 세 가지 무료 기본 옵션이 꽤 넓은 영역을 커버합니다.

Windows · Win + H

Listening…

macOS · Dictation

Docs · Voice typing

Click to speak
이미 여러분의 컴퓨터에 있는 받아쓰기, 두 가지 형태 — 설치가 필요 없습니다.

Windows Voice typing

Windows 11에서는 어떤 텍스트 입력란에서든 Windows 로고 키와 H를 함께 누르면 음성 입력 바가 나타납니다. 빠른 메시지에 좋습니다. 단점: 인식이 클라우드에서 이뤄지기 때문에 작동하려면 인터넷 연결과 정상 작동하는 마이크가 필요합니다. Microsoft 목록 기준으로 43개 언어를 지원합니다. 기차에서 오프라인 상태라면 작동을 멈춥니다. 자세한 단계별 안내는 Windows에서 음성을 텍스트로 가이드에 있습니다.

Apple Dictation

Mac에서는 시스템 설정 > 키보드 > 받아쓰기에서 켠 다음, 마이크 키나 직접 정한 단축키로 시작합니다. 현재 버전은 길이에 상관없이 텍스트를 받아 적으며, 정해진 시간 제한이 아니라 30초 동안 침묵이 이어진 뒤에야 멈춥니다. Apple Silicon에서는 음성을 기기 내에서 처리할 수 있습니다. 짧은 메모에는 무료이고 충분합니다. 더 긴 설정 안내는 Mac에서 음성을 텍스트로에 있습니다.

Google Docs Voice typing

Chrome, Edge, Safari에서 Google 문서를 열고 도구 > 음성 입력을 클릭하면 마이크 상자가 나타납니다. 100개가 넘는 언어와 지역 변형을 지원합니다. 명확한 한계는 이름에 그대로 드러나 있습니다. Google Docs와 Slides 안에서만 글을 쓸 수 있습니다. 이메일도, Slack도, 코드도 입력해 주지 않습니다.

이 세 가지를 솔직하게 읽는 법: 이것들은 데모가 아니라 진짜 도구이고, 상당수의 사람에게는 검색의 끝입니다. 한계가 어디인지는 예측 가능합니다. Windows Voice typing은 신호가 끊기는 순간 죽습니다. Google Docs Voice typing은 문서를 절대 벗어나지 않습니다. Apple Dictation은 Mac에서는 훌륭하지만 그 밖의 어디에도 없습니다. 여러분의 작업이 그 경계 안에 들어맞는다면 끝난 겁니다. 이 탭을 닫고 키를 누르세요. 유료 범주는 그 안에 들어맞지 않는 작업을 위해 존재합니다. 하루 종일 받아쓰기, 비행기에서의 오프라인, 하나가 아니라 모든 앱, 그리고 여러분 자신의 디스크에 머물러야 하는 오디오 같은 것들 말이죠.

전용 앱을 건너뛰고 기본 내장 기능을 써야 할 때

여기가 대부분의 '최고의 소프트웨어' 글이 건너뛰는 부분입니다. 30단어짜리 문자, 빠른 Slack 답장처럼 짧은 메시지를 보낸다면, 이미 여러분의 컴퓨터에 있는 무료 받아쓰기만으로 충분합니다. Windows Voice typing(Windows 키 + H)과 Apple Dictation은 무료이고, 기본 내장이며, 잘 작동합니다. 한 문장 쓰자고 뭔가를 설치하거나 돈을 내지 마세요. 전용 앱은 여러분이 자주 받아쓰거나, 비행기에서 오프라인으로 동작해야 하거나, 하나가 아니라 모든 앱에서 쓰고 싶거나, 여러분의 말이 기기에 머무는 것이 중요할 때 비로소 제값을 하기 시작합니다. 그 기준 아래라면, 따분한 진실은 여러분이 이미 알맞은 도구를 가지고 있다는 것입니다.

Whisper by Remskill의 비용

Whisper by Remskill은 로컬 파이프라인 전체에 대해 로그인한 모든 사용자에게 무료입니다. 로컬 Whisper, Parakeet, Ollama 기반 AI 정리, 기록, 사용자 지정 단축키, 모델 다운로드까지, 가입에 결제 수단도 필요 없습니다. Whisper Pro는 클라우드 영역을 더합니다. OpenAI 클라우드 받아쓰기, 클라우드 AI 향상, 그리고 여러분 자신의 OpenAI 키를 통한 음성 웹 검색입니다. 클라우드 모드는 OpenAI를 통해 직접 청구되며, 우리는 수수료를 떼지 않습니다. 현재 요금제와 Pro 체험판은 요금 페이지에 있습니다. 여기서 숫자를 들이대지는 않겠습니다. 그 페이지가 한 문단보다 더 잘 설명해 줍니다.

더 읽을거리

제 친척은 1999년에 헤드셋을 방 건너편으로 내던졌습니다. 받아쓰기가 쓰레기를 내놓는 45분짜리 고역이었기 때문이죠. 헤드셋은 그 실험보다 오래 살아남았습니다. 25년이 지난 지금 그 고역은 사라졌습니다. 키를 누르고 말하면 단어가 나타납니다. 남은 진짜 결정은 어떤 도구냐 하나뿐이고, 많은 사람에게 정답은 이미 자기 컴퓨터에 꺼진 채로, 기다리며 앉아 있습니다. 제 아이들은 이게 한때 어려웠다는 걸 영영 모를 텐데, 그게 목표입니다. 저녁 식탁에서 들려줄 이야깃거리로는 더 못해지더라도요.

이미 가지고 있는 것부터 먼저 써 보세요

그것이 한계에 다다르면, Whisper를 내려받아 여러분의 작업 방식에 맞는 엔진을 고르세요.

로그인한 사용자에게 전체 로컬 파이프라인 무료. 가입 시 카드 필요 없음.

Denys Medvediev의 사진

Denys Medvediev

저는 우리 지원 이메일을 읽는 사람입니다. 답장도 십중팔구 받아쓰기로 하고 있죠.