작성자: Denys Medvediev

튜토리얼

오디오를 빠르게 텍스트로 변환하는 법

직접 타이핑하는 대신 AI 모델이 초안을 만들게 하고, 나머지만 수정하세요. 가장 빠른 로컬 엔진으로 실제로 빠른 방법을 단계별로 안내합니다.

최종 업데이트: 2026년 6월

화면에 표시된 오디오 파형 — 빠른 디지털 음성 처리를 나타냄

오디오를 빠르게 받아쓰기 하려면 직접 타이핑하는 대신 AI 모델이 초안을 작성하게 하고, 그 뒤에 수정만 하면 됩니다. 자동 전사는 한 시간 분량의 선명한 음성을 몇 분 만에 초안으로 만들어 줍니다. 같은 내용을 사람이 직접 타이핑하면 3~4시간이 걸립니다. 속도를 얻는 대신, 이후에 짧게 정확도를 검토하는 과정이 필요합니다.

전문 속기사는 한 시간 분량의 깨끗한 음성을 타이핑하는 데 약 네 시간이 필요합니다. 네 시간. 한 시간짜리 소리를 위해서요. 한번은 동료가 컴플라이언스 검토 작업으로 정확히 그 일을 하는 걸 지켜봤는데, 세 시간쯤 됐을 때 그는 자신의 절망감을 녹음본에 직접 중얼거리기 시작했습니다. 물론 그 부분도 전사해야 했습니다.

빠른 방법은 더 빠르게 타이핑하는 게 아닙니다. 빠른 방법은 타이핑 자체를 하지 않는 것입니다. 모델이 초안을 만들게 한 뒤, 고유명사와 구두점을 몇 분 안에 수정하면 됩니다.

이것이 핵심적인 변화입니다. 점진적인 개선이 아니라 구조 자체가 달라지는 것입니다. 사람들은 10년 넘게 어디서나 정확하게 쓸 수 있는 전사 도구를 원했고, OS 내장 도구는 짧은 클립 처리에 겨우 쓸 만한 수준에 머물렀습니다. 2026년이 된 지금, 그 격차는 줄어들었습니다. AI 전사는 몇 분 안에 끝나고, 빠른 버전은 이미 갖고 있는 노트북에서 돌아갑니다.

이 가이드는 가장 빠른 경로를 따라갑니다. 각 방법이 시간적으로 어떤 비용을 요구하는지, Whisper by Remskill에서 단계별로 어떻게 실행하는지, 그리고 가장 빠른 로컬 엔진이 어디서 빛을 발하는지 살펴봅니다. 끝까지 읽으면 자신의 녹음과 하드웨어에 맞는 방법을 고를 수 있게 됩니다. 제가 읽는 고객 지원 이메일 대부분은 첫날 느린 방법을 선택하고 그 후로 다시 살펴보지 않은 분들에게서 옵니다. 1년간 그 티켓들을 읽어 온 저의 판단입니다.

더 진행하기 전에, 솔직하게 한 가지 전제를 밝힙니다. Whisper by Remskill의 핵심 기능은 실시간 단축키 받아쓰기입니다. 키를 누르고 말하면 커서가 있는 곳에 텍스트가 입력됩니다. 파일을 드래그 앤 드롭해서 올리는 화면은 없습니다. 그래서 '오디오를 빠르게 전사한다'고 할 때, 저는 두 가지를 의미합니다. 실시간으로 받아쓰기 하여 말하는 즉시 텍스트가 생성되는 것, 또는 녹음된 파일 처리를 위해 만들어진 별도의 도구를 사용하는 것입니다. 어느 것이 어느 것인지 전체 글에서 명확히 구분할 것입니다. 인터넷에는 이 경계를 흐리게 해서 오후 시간을 낭비하게 만드는 글들이 넘쳐나거든요.

방법별 한 시간 오디오 전사 소요 시간

먼저 이해해야 할 것은, '빠르다'는 말이 스펙트럼이라는 점입니다. 그 차이는 엄청납니다. 한 시간 분량의 선명한 음성을 방법별로 처리하면 얼마나 걸리는지 정리했습니다.

방법별 한 시간 선명한 오디오 전사 소요 시간.
방법한 시간 오디오 처리 시간지원 언어오프라인 사용
직접 타이핑약 3~4시간타이핑 가능한 모든 언어가능
클라우드 AI (OpenAI gpt-4o-mini-transcribe)몇 분98개 이상불가
로컬 Whisper (small.en)최신 CPU 기준 수 분99개 다국어 / .en 모델은 1개가능
로컬 Parakeet TDT가장 빠른 로컬, CPU에서 Whisper보다 5~10배 빠름25개 (영어 + 24개 유럽어)가능
방법별 한 시간 선명한 오디오 전사 소요 시간.

몇 시간에서 몇 분으로 줄어드는 것, 그것이 여기서 중요한 유일한 수치입니다. AI 처리가 2분이든 6분이든, 타이핑에 쓰지 않아도 되는 4시간에 비하면 사소한 차이입니다. NVIDIA는 open-ASR 리더보드 하드웨어에서 Parakeet 모델이 실시간보다 수천 배 빠르다고 발표했지만, 그 헤드라인 수치는 무시하는 게 좋습니다. 실제 속도는 벤치마크 장비가 아니라 여러분의 CPU에 달려 있습니다. 믿어야 할 수치는 앱 내부 수치입니다. Parakeet는 같은 프로세서에서 Whisper보다 5~10배 빠릅니다.

빠른 방법, 단계별 가이드

효과 있는 가장 빠른 경로를 순서대로 정리했습니다. 여기서는 실시간 받아쓰기, 즉 말하면서 바로 텍스트를 얻는 방식을 전제로 합니다. 대부분의 경우 녹음 후 처리보다 이 방법이 낫습니다. 말하기를 멈추는 순간 전사본이 완성되니까요.

Whisper
실제로 실행 중인 Whisper 앱 — 설정과 모델 선택기를 클릭해 살펴보세요.
1

Whisper by Remskill을 설치하세요. 다운로드하고, 열고, 로그인하세요. 전체 로컬 파이프라인은 로그인한 모든 사용자에게 무료입니다. 가입 시 결제 수단이 필요 없습니다. Windows와 macOS Apple Silicon에서 지금 바로 사용할 수 있습니다.

2

모델을 선택하세요. 가장 빠른 로컬 결과를 원한다면, 영어나 유럽어를 사용하는 경우 Parakeet TDT (~600 MB)를 선택하세요. 번역이 필요하거나 99개 다국어 중 하나가 필요하다면 Whisper 모델을 선택하세요. 다운로드는 한 번만 합니다.

3

단축키를 확인하세요. Windows의 기본값은 Ctrl+Space입니다. macOS에서는 Command+Option 조합입니다. 두 키를 동시에 누르고 말한 뒤, 어느 키든 놓으면 멈춥니다. 다른 앱과 충돌한다면 설정에서 변경할 수 있습니다. 저는 처음 단축키 핸들러를 출시할 때 디바운스를 넣지 않았습니다. 키를 한 번 누를 때마다 녹음이 여섯 번씩 실행됐죠. 저는 소프트웨어 공학 석사 학위를 가지고 있습니다.

4

말하세요. 단축키를 누른 채 평소 속도로 말하고, 손을 놓으세요. 포커스가 있는 앱, 이메일이든 문서든 채팅창이든 어디에나 전사 내용이 붙여넣기 됩니다. 끝입니다.

5

나머지를 수정하세요. 고유명사, 숫자, 구두점을 빠르게 훑어보세요. 제목에서 약속한 '몇 분'이 바로 이 시간입니다. 사용자 지정 어휘와 핫워드를 설정해 두면 시간이 지날수록 이 단계가 더 짧아집니다.

실시간 발화가 아닌 미리 녹음된 파일이 소스라면, 아래 FAQ의 솔직한 답변을 참고하세요.

로컬 vs 클라우드: 속도의 원천

파란 불빛의 네트워크 장비가 있는 서버실 — 클라우드 전사 연산을 나타냄

사람들은 서버가 더 크기 때문에 클라우드가 더 빠르다고 생각합니다. 짧은 단락 하나를 받아쓰기 하는 경우라면 그 가정은 틀렸습니다. 클라우드 전사는 오디오를 패키징하고, 연결을 통해 전송하고, 응답을 기다리고, 다시 받아야 합니다. 연결이 빠르다면 왕복 시간이 짧지만, 모델이 내 CPU에서 돌아갈 때는 그 네트워크 시간 자체가 없습니다.

로컬 모드는 모든 작업을 프로세스 내부에서 처리합니다. Whisper의 모든 로컬 전사는 transcribe-rs를 통해 순수 Rust로 실행되며, Python 사이드카를 띄울 필요가 없습니다. 서버가 루프에 없고, 분당 API 요금도 없으며, 오디오가 기기 밖으로 나가지 않습니다. 클라우드 모드는 비상구입니다. 최신 모델이나 웹 접근이 필요할 때를 위해, 기본으로 gpt-4o-mini-transcribe를 사용하는 bring-your-own-key OpenAI 방식을 제공합니다. 이것이 Whisper Pro 영역으로, 무료 로컬 파이프라인 위에 얹혀 있습니다.

이 글에서 제가 강하게 주장하고 싶은 한 가지는 이것입니다. 로컬 모드를 먼저 시도하세요. PC가 최근 4년 이내 제품이거나 Mac이 Apple Silicon이라면, 전사에 클라우드가 필요하지 않습니다. 로컬 모드는 최신 기기에서 키를 놓는 순간부터 텍스트가 붙여넣기 될 때까지 2초가 채 걸리지 않습니다. 데이터는 내 기기에 머물고, 분당 요금도 없습니다. 클라우드는 한계에 부딪혔을 때의 대안이지, 출발점이 아닙니다. 제가 함께 일하던 팀이 한 분기에 5자리 달러의 클라우드 청구서를 쌓는 걸 지켜보고 배운 교훈입니다. 그 대부분은 스탠드업 녹음을 네 번씩 재전사한 스마트 리트라이 로직 때문이었습니다. CFO가 분기 리뷰에서 대시보드를 열었을 때 회의실이 조용해졌습니다. 로컬 우선 방식이었다면 그 청구서는 0원이었을 겁니다.

Parakeet가 가장 빠른 로컬 옵션인 이유

순수한 속도가 목표이고 영어나 유럽어를 사용한다면, Parakeet가 정답입니다. NVIDIA의 Parakeet-TDT 모델은 CC-BY-4.0 라이선스 하에 제공되는 6억 파라미터 모델로, Whisper에서 동일한 CPU의 Whisper 모델보다 5~10배 빠르게 실행됩니다. 이것이 속도의 차별점입니다. 전용 GPU가 없는 노트북에서, 그 차이는 기다림과 기다리지 않음의 차이입니다.

Whisper
실행 중인 Whisper 모델 선택기에서 Parakeet TDT 선택하기 — 옵션을 클릭해 살펴보세요.

트레이드오프는 언어 지원입니다. Parakeet는 25개 언어(영어 + 24개 유럽어)를 처리하며, 영어로 번역하는 기능이 없고 아시아 언어도 지원하지 않습니다. 일본어, 한국어, 중국어를 전사하거나 한 언어를 영어로 번역해야 한다면 Parakeet는 도움이 되지 않습니다. 그럴 때는 다국어 변형에서 99개 언어를 지원하고 영어 번역도 가능한 Whisper 모델을 사용하세요. .en Whisper 빌드(Base, Small, Medium, Turbo)는 각각 영어 전용입니다.

솔직히 말하면, 일상적인 영어 받아쓰기에서 Parakeet는 이미 충분히 빨라서 모델이 병목이 아닙니다. 병목은 말하는 속도입니다. 음성 전사가 도구처럼 느껴지는 것을 멈추고 키보드 없는 타이핑처럼 느껴지기 시작하는 순간입니다. 저는 엔진을 세 가지 방식으로 벤치마크한 뒤에야 신뢰하는 타입의 개발자입니다. 그런 저도 둘째 주 어느 시점에 타이머 확인을 멈췄습니다. 주로 오프라인으로 작업한다면 오프라인 음성-텍스트 변환 가이드에서 모든 것을 기기에서 실행하는 방법을 더 자세히 다룹니다.

AI 전사를 건너뛰고 직접 타이핑해야 할 때

흰 책상 위 스파이럴 노트에 손으로 글을 쓰는 장면 — 수동 전사를 연상시킴

AI 전사는 빠르지만 마법이 아닙니다. 제가 건너뛰고 직접 타이핑하겠다고 선택할 상황 세 가지가 있습니다. 첫째, 녹음 상태가 나쁜 경우입니다. 화자가 겹치거나, 배경 소음이 심하거나, 카페 테이블에 폰을 세워 두고 녹음한 경우입니다. 모델은 자신 있게 틀린 단어를 만들어 내고, 자신 있는 오류를 수정하는 시간이 직접 타이핑하는 것보다 더 걸립니다. $20짜리 USB 마이크가 어떤 모델 업그레이드보다 정확도에 더 도움이 됩니다. 소스를 먼저 고치세요. 둘째, 숫자 하나가 잘못 들려도 의미가 바뀌는 법률 또는 의료 자료의 경우입니다. 어차피 편집 과정에서 단어 하나하나를 검토해야 합니다. 셋째, 짧은 클립의 경우입니다. 30초짜리 보이스 메모는 뭔가를 열 가치도 없고, 폰 내장 받아쓰기로 무료로 처리할 수 있습니다. 빠른 경로는 긴 콘텐츠에 해당합니다. 절약하는 4시간이 실제로 느껴지는 바로 그 경우입니다.

실시간 음성이 아닌 저장된 녹음 파일을 다루는 것은 별도의 작은 워크플로입니다. 음악이나 팟캐스트 파일이 소스라면 MP3를 텍스트로 변환하는 법 가이드에서 파일 처리 방법을 처음부터 끝까지 단계별로 설명합니다.

로컬 파이프라인은 무료

Whisper의 전체 로컬 전사 파이프라인은 로그인한 모든 사용자에게 무료입니다. Parakeet, 8가지 Whisper 모델, Ollama를 통한 AI 텍스트 정리, 히스토리, 프리셋, 핫워드, 하드웨어 가속이 모두 포함됩니다. 가입 시 결제 수단이 필요 없습니다. Whisper Pro는 그 위에 클라우드 서비스를 추가합니다. 자신의 OpenAI 키로 클라우드 전사와 웹 검색을 원하는 분들을 위한 기능입니다. 정확한 금액은 요금 페이지에서 확인할 수 있습니다. 제가 문장 중간에 숫자를 나열하는 대신, 월간, 연간, 평생 요금을 직접 비교해 보세요.

제가 지금까지 본 가장 빠른 전사는 벤치마크가 아니었습니다. 제 둘째 딸이 할머니에게 90단어짜리 이메일을 2분도 채 안 되어 받아쓰기 한 것이었습니다. 빠진 이, 이빨 요정의 교환 비율, 댄스 수업 이야기. 편집도 없고, 키보드도 없었습니다. 딸은 느린 방법을 건너뛴 줄 몰랐습니다. 그냥 컴퓨터가 이렇게 작동하는 거라고 생각했을 뿐입니다. 1년간 지원 티켓을 읽어 온 끝에, 저도 그 생각이 맞다고 결론 내렸습니다. 나머지 우리는 그냥 따라잡는 중인 거죠.

녹음 내용을 직접 타이핑하는 것을 그만둘 준비가 됐나요?

Whisper를 다운로드하고, 단축키를 누르고, 커서 위치에 전사본이 나타나는 것을 확인하세요.

전체 로컬 파이프라인 무료 제공. 가입 시 결제 수단 불필요.

Denys Medvediev 사진

Denys Medvediev

고객 지원 이메일을 읽는 사람입니다. 답장도 받아쓰기로 작성할 가능성이 높습니다.

더 읽어보기