작성자: Denys Medvediev

설명

로컬에서 Whisper 실행하기

내 컴퓨터에서 Whisper를 실행하는 방법은 두 가지입니다. Python과 커맨드라인을 이용하는 개발자 방식, 그리고 터미널 없이 모든 것을 대신해주는 데스크톱 앱 방식. 둘 다 오디오를 내 컴퓨터에만 보관합니다. 각 방법을 살펴보고, 언제 어떤 쪽을 선택할지 알아봅니다.

최종 업데이트: 2026년 6월

어두운 책상 위의 노트북 화면에 터미널 창과 코드가 표시된 모습 — 커맨드라인 설치를 연상시킨다

Whisper를 로컬에서 실행한다는 것은 클라우드 서버가 아닌 내 컴퓨터에서 직접 오디오를 텍스트로 변환한다는 의미입니다. 방법은 두 가지입니다. Python, pip, ffmpeg로 OpenAI의 오픈소스 Whisper를 설치해 커맨드라인에서 실행하거나, Whisper by Remskill 같은 데스크톱 앱을 사용해 터미널 없이 커서 위치에 받아쓰기를 하는 것입니다. 두 방법 모두 오디오를 기기 안에 보관합니다.

Whisper는 OpenAI의 오픈소스 음성-텍스트 변환 모델로 MIT 라이선스로 공개되어 있습니다. '로컬에서 Whisper 실행하기'가 이렇게 많이 검색되는 이유는 단순합니다. 내 하드웨어에서 무료로 실행할 수 있기 때문입니다. API 키도 없고, 분당 요금도 없고, 오디오가 내 노트북 밖으로 나가지 않습니다. 정말 좋은 조건이고, GitHub의 공식 프로젝트에서 전체를 가져갈 수 있습니다.

'실행한다'는 게 정확히 무엇을 의미하는지가 문제입니다. 공식 방법은 커맨드라인 도구입니다. Python을 설치하고, `pip install openai-whisper`를 실행하고, ffmpeg를 설치하고, 터미널에서 오디오 파일을 지정합니다. 녹음 파일 묶음을 일괄 처리하려면 완벽한 방법입니다. 하지만 실제로 원하는 게 이메일에 말을 하면 단어가 나타나는 것이라면 이야기가 다릅니다. 둘은 전혀 다른 일이고, 저는 두 가지를 모두 솔직하게 다루겠습니다.

대부분의 페이지가 슬쩍 넘어가는 갈림길이 여기 있습니다. '로컬에서 Whisper 실행'은 묻는 사람에 따라 완전히 다른 두 가지를 의미할 수 있습니다. 개발자에게는 모델을 디스크에 내려받아 스크립트로 파일을 변환한다는 뜻입니다. 작가나 영업 담당자에게는 타이핑을 멈추고 현재 작업 중인 앱에서 음성이 텍스트로 바뀌게 한다는 뜻입니다.

그래서 진짜 질문은 단순히 'Whisper를 어떻게 설치하나'가 아닙니다. '내가 원하는 로컬 Whisper가 뭔가 — 일괄 작업과 스크립팅을 위한 CLI인가, 아니면 커서 위치에 받아쓰기를 해주는 단축키인가'입니다. 첫 번째는 OpenAI 공식 프로젝트이고 제 역할을 잘 합니다. 두 번째는 커맨드라인 없이 같은 계열의 모델을 실행하는 데스크톱 앱입니다. 두 가지를 모두 설정하고, 하드웨어 요구사항을 보여드리고, 터미널이 더 나은 선택인 경우도 솔직하게 알려드리겠습니다.

'Whisper를 로컬에서 실행한다'는 것의 진짜 의미

책상에서 노트북으로 작업하는 사람 — 클라우드가 아닌 기기 내 처리를 나타낸다

Whisper를 로컬에서 실행한다는 것은 어딘가의 서버가 아닌 내 컴퓨터의 프로세서에서 직접 변환이 이루어진다는 의미입니다. 오디오를 넣으면 모델이 텍스트로 변환하고, 아무것도 기기 밖으로 나가지 않습니다. 그게 핵심 매력입니다. 상사의 연봉 스프레드시트를 소리 내어 읽은 것, 아이 학교에 보내는 이메일, 녹음된 고객 통화 — 이 중 어느 것도 음성으로 타이핑하고 싶었다는 이유로 외부 벤더의 로그에 남지 않습니다. 로컬 우선이 아니라면 할 이유가 없다는 게 제 생각이고, 아래에서 번호를 붙여 그 의견을 표시하겠습니다.

Whisper 자체는 그냥 모델입니다. OpenAI가 훈련하고 MIT 라이선스로 가중치를 공개했기 때문에 누구나 무료로 내려받아 실행할 수 있습니다. 모델 크기는 여러 가지인데, 파라미터 3,900만 개의 작은 것부터 파라미터 15억 5,000만 개의 대형 모델까지 있습니다. 필요한 정확도와 하드웨어가 감당할 수 있는 수준을 고려해 선택하면 됩니다. 터미널에서 실행하든 앱 안에서 실행하든 모델 자체는 같습니다. 달라지는 것은 그 주변의 래퍼입니다.

그리고 래퍼가 핵심 문제입니다. 두 가지가 존재하고 둘 다 정당합니다. OpenAI 공식 커맨드라인 도구: 무료, 스크립트 가능, Python 기반, 파일 변환을 위해 제작되었습니다. 그리고 같은 종류의 모델을 일반 창 뒤에서 로드하는 데스크톱 앱 — 명령을 입력하는 대신 키를 누르고 말하면 됩니다. 재미없는 진실은 이 키워드를 검색하는 대부분의 사람들이 그 두 가지 중 하나를 원하는데 아직 어느 것인지 모른다는 것입니다. 다음 두 섹션이 바로 그 두 가지 방법입니다.

개발자 방법: Python, pip, ffmpeg

터미널이 익숙하다면 공식 프로젝트가 가장 깔끔한 답이고, 진짜 무료입니다. 컴퓨터에 세 가지가 필요합니다. Python(프로젝트는 3.8에서 3.11을 대상으로 함), Whisper 패키지 자체, 그리고 Whisper가 파일을 읽는 데 사용하는 오디오 도구인 ffmpeg입니다. 설치는 두 개의 명령으로 끝납니다. `pip install -U openai-whisper`는 패키지와 PyTorch 의존성을 가져옵니다. 그다음 ffmpeg는 OS에 따라 다릅니다 — Mac에서는 `brew install ffmpeg`, Windows에서는 `choco install ffmpeg` 또는 `scoop install ffmpeg`, Ubuntu에서는 `sudo apt install ffmpeg`.

설치가 완료되면 파일을 대상으로 실행합니다. `whisper audio.mp3 --model turbo`는 녹음을 변환하고 텍스트를 출력합니다. `--language Japanese`를 추가하면 자동 감지를 건너뛰고, `--task translate`를 추가하면 비영어 녹음이 영어로 나옵니다. 이게 핵심입니다. 파일을 넣으면 텍스트가 나오는 도구이고, 그 일을 잘 합니다. 밤새 음성 메모 폴더를 지정해두면 직접 보지 않아도 하나씩 처리해줍니다.

하드웨어 현실은 기대와 벽이 만나는 곳입니다. 공식 모델 크기는 tiny(파라미터 39M), base(74M), small(244M), medium(769M), large(1.55B), turbo(809M)입니다. 각 모델이 요구하는 VRAM이 실제 이야기를 들려줍니다. tiny는 약 1GB, small은 약 2GB, medium은 약 5GB, large 모델은 약 10GB입니다. 이 수치는 GPU를 기준으로 합니다. 작은 모델은 CPU에서도 실행할 수 있지만, 큰 모델을 버티게 만드는 건 외장 GPU입니다. 저도 한번은 '노트북에서 large 모델을 실행'하는 깔끔한 계획을 세웠다가 내장 그래픽에서 기어가는 것을 지켜봤습니다. 계획은 항상 두 번째 커밋에서 틀립니다. CPU가 결국 끝내긴 하지만, 얇은 노트북에서 large 모델은 화요일 오후에 할 일이 아닙니다.

터미널 없는 방법: 데스크톱 앱에서 Whisper 실행하기

커맨드 프롬프트를 절대 보고 싶지 않다면, 이쪽이 또 다른 솔직한 선택지입니다. Whisper by Remskill은 Windows 10 이상과 Apple Silicon Mac용 데스크톱 앱으로, pip, ffmpeg, Python 없이 앱 안에서 모델을 내려받아 Whisper를 로컬로 실행해줍니다. Parakeet이라는 두 번째 로컬 엔진도 실행합니다. 전체 로컬 파이프라인은 로그인된 계정이라면 무료이며, 가입 시 결제 수단이 필요하지 않습니다. 순서는 이렇습니다.

1단계 — Whisper 설치 및 로그인.

다운로드 페이지에서 내려받아 설치하고 무료 계정을 만드세요. 카드 불필요. 로컬 변환 파이프라인이 바로 열립니다.

앱의 트레이 아이콘이 나타나고 설정 마법사에서 모델을 선택하라고 하면 성공입니다.

2단계 — 변환 방식 선택 및 모델 내려받기.

앱이 대신 선택해주지 않습니다. 세 가지 중 하나를 선택합니다. Cloud(OpenAI, 자체 키 사용), Local Parakeet, 또는 Local Whisper. 내 컴퓨터에서 실행하려면 두 로컬 엔진 중 하나를 선택하고 앱 안에서 모델을 내려받으면 됩니다.

모델 다운로드가 완료되고 준비됨으로 표시되면 성공입니다.

3단계 — 단축키 확인.

Windows 기본값은 Ctrl+Space, Mac은 Command+Option을 누르는 방식으로 push-to-talk입니다. Mac에서는 메시지가 표시될 때 손쉬운 사용 권한을 허용해야 합니다. 없으면 커서 위치에 붙여넣기가 다른 앱에 접근할 수 없습니다.

테스트 녹음이 텍스트 필드에 붙여넣기되면 성공입니다.

4단계 — 커서를 어디든 놓고 말하기.

텍스트 필드(이메일, 문서, 채팅창 등)를 클릭하고 단축키를 누른 채 한 문장을 말하고 놓으세요. 변환된 텍스트가 커서 위치에 나타납니다.

말한 문장이 텍스트 필드에 텍스트로 들어가 있으면 성공입니다.

Whisper
실제 Whisper 데스크톱 앱의 설정 화면 — 변환(Transcription)과 AI 패널이 열려 있는 상태.

느린 부분은 모델 다운로드인데, CLI 방식과 마찬가지입니다. 가중치는 가중치니까요. 나머지는 위의 네 단계입니다. 차이점은 나와 모델 사이에 터미널이 없다는 것, 그리고 파일을 넣으면 텍스트가 나오는 방식 대신 커서가 있는 곳 어디서든 받아쓰기를 해주는 단축키를 얻는다는 것입니다. 내부는 같은 Whisper, 위에서 하는 일이 다릅니다.

어떤 모델과 어떤 하드웨어가 필요한가

두 방법 모두 모델을 선택해야 하고, 선택은 같은 트레이드오프로 귀결됩니다. 큰 모델은 더 정확하고 느리며, 작은 모델은 더 빠르고 가볍습니다. 공식 CLI에서 large 모델은 약 10GB VRAM이 필요하고 small은 약 2GB이므로 그래픽카드가 상한선을 정합니다. 데스크톱 앱에서는 Whisper 모델이 영어 전용과 다국어로 나뉘는데, 기본 영어 모델은 디스크에서 약 480MB이고 가장 큰 다국어 모델은 약 3GB입니다. 다국어 빌드는 99개 언어를 지원하고 영어로 번역할 수 있습니다. 영어 전용 빌드는 영어만 지원합니다.

앱의 다른 로컬 엔진도 여기서 알아두면 좋습니다. 많은 사람들의 하드웨어 문제를 우회해주기 때문입니다. Parakeet은 NVIDIA의 TDT 모델로 약 600MB이며, CPU에서 Whisper보다 5~10배 빠르게 실행됩니다. 영어와 24개의 다른 유럽 언어, 총 25개 언어를 지원하며 영어 번역 기능은 없습니다. 주로 영어를 사용하고 강력한 GPU가 없다면 Parakeet이 빠른 로컬 선택입니다. 중국어, 일본어, 한국어, 또는 번역이 필요하다면 그건 Whisper 다국어 영역이고 Parakeet은 거기까지 못 갑니다. 말하는 동안 작은 캡슐이 앱이 듣고 있음을 보여줍니다:

Cancel
녹음 오버레이: 말하는 동안 나타나는 작은 캡슐 — 앱이 듣고 있다는 것을 알려준다.

정확도를 높이기 위해 할 수 있는 최고의 단 한 가지는 더 큰 모델이 아닙니다. $20짜리 USB 마이크가 모델 크기를 두 단계 올리는 것보다 변환에 더 큰 도움이 됩니다. 노트북 마이크에서 들어오는 지저분한 오디오보다 깨끗한 오디오 입력이 더 무거운 모델을 이깁니다. 마이크에 돈을 먼저 쓰고, 그다음에 모델을 걱정하세요. 이게 제가 글로 쓰고 지지할 수 있는 유일한 하드웨어 조언입니다.

로컬 또는 클라우드: 어떤 작업에 어떤 모드를

Apple Silicon 기기이거나 최근 몇 년 안에 산 PC라면 로컬을 먼저 시도해보세요. 클라우드는 비상구이지, 기본값이 아닙니다. 하지만 데스크톱 앱이 세 가지 경로 중 하나를 선택하게 하므로 잘 선택했으면 합니다. 차이가 무엇인지 알려드리겠습니다.

앱이 선택을 요구하기 때문에 세 가지 경로의 차이를 설명합니다:

  • Local ParakeetNVIDIA의 TDT 엔진, 약 600MB, 가장 빠른 로컬 옵션 — CPU에서 Whisper보다 5~10배 빠릅니다. 영어와 24개의 다른 유럽 언어, 총 25개 언어를 지원합니다. 영어 번역 기능 없음. 영어나 다른 유럽 언어로 받아쓰기를 하고 GPU 없이 속도를 원한다면 이게 완전 오프라인 선택입니다.
  • Local Whisper같은 기기에서 Parakeet보다 느리지만 다국어 빌드는 99개 언어를 지원하고 영어로 번역할 수 있습니다. 영어 전용 빌드는 영어만 지원하며 99개가 아닙니다. Parakeet이 지원하지 않는 중국어, 일본어, 한국어나 번역 작업이 필요하다면 이걸 선택하세요. 기본 영어 모델은 약 480MB, 가장 큰 다국어 모델은 약 3GB입니다.
  • Cloud (OpenAI, BYOK)최고의 정확도와 웹 접근, OpenAI에 직접 청구되는 자체 OpenAI 키를 사용합니다. 변환은 기본적으로 gpt-4o-mini-transcribe로 실행됩니다. 인터넷이 필요하므로 기기를 떠나는 유일한 경로입니다. Cloud 서비스는 Whisper Pro의 일부입니다.

재미없는 진실은 일상적인 받아쓰기에는 로컬이 충분하고, 두 로컬 엔진 모두 서버로 아무것도 보내지 않고 내 기기에서 완전히 실행된다는 것입니다. 클라우드는 어려운 녹음에서 최고 수준의 정확도가 필요하거나 모델이 문장 중간에 웹에서 정보를 가져와야 할 때 가치를 발휘합니다. Whisper를 로컬로 실행한 방법이 CLI든 앱이든 — 개인정보 보호 이야기는 같습니다. 오디오는 그 자리에 있습니다. 오프라인 유지가 여기 오신 이유의 전부라면, 오프라인 음성-텍스트 변환에서 더 자세히 다룹니다.

정확도, 구두점, 원시 변환문 정리하기

Whisper가 어떤 방식으로 실행되든 원시 받아쓰기는 문장이 끊기지 않고 이어집니다. '좋아요 스탠드업 녹음 변환하고 점심 전에 팀에 요약 보내고'라고 말하면, 어떤 음성 엔진이든 구두점 없는 덩어리를 돌려줍니다. 공식 CLI는 그 텍스트를 주고 거기서 끝납니다. 정리는 스크립트나 수동으로 직접 해야 합니다. 나중에 어차피 출력을 처리할 일괄 변환에는 괜찮습니다.

데스크톱 앱은 텍스트가 들어오기 전에 정리 과정을 대신해줄 수 있습니다. 활성화 문구 'Hey whisper'를 말하면 AI가 군더더기를 제거하고, 이어지는 문장을 수정하고, 구두점을 추가합니다. 로컬 모드에서는 내 컴퓨터의 Ollama를 통해 실행되고, 클라우드 모드에서는 기본적으로 gpt-5-mini입니다. 원시와 정리된 상태의 차이는 수정해야 하는 변환문과 바로 보낼 수 있는 변환문의 차이입니다:

Thinking...
원시

okay so transcribe the standup recording then send the summary to the team before lunch um and cc the manager

정리됨

Okay, so transcribe the standup recording, then send the summary to the team before lunch, and CC the manager.

정확도 자체는 대부분 모델과 마이크의 문제이고, 마이크는 이미 다뤘습니다. 모델 측면에서 더 큰 다국어 Whisper 빌드는 99개 언어에서 강하고, 클라우드 모드는 녹음이 정말 어려운 경우 OpenAI의 최고 수준 변환을 추가합니다. 하지만 깨끗한 오디오와 일반적인 말에는 작은 모델도 충분하고, 약한 하드웨어에서 가장 큰 모델을 쫓으면 느린 출력만 얻습니다. 아마 알아채지도 못할 정확도 차이를 위해. 모델을 사양표 자랑이 아닌 작업에 맞추세요.

하루 종일 타이핑 대신 말하는 것이 주된 목표라면, 같은 말하기-정리 흐름이 Windows에서 음성을 텍스트로 변환하는 것을 터미널 없이 가능하게 해줍니다. 그게 CLI 없는 방식의 요점입니다.

커맨드라인이 올바른 선택인 경우

두 갈래 길 — 커맨드라인과 데스크톱 앱 사이의 선택을 보여주는 이미지

때로는 터미널이 진짜 더 나은 도구이고, 그렇지 않은 척해서 앱을 팔려 한다면 솔직하지 못한 것입니다. 공식 OpenAI CLI는 무료, MIT 라이선스이며, 데스크톱 앱이 하지 못하는 일을 위해 만들어졌습니다. 스크립트에서 대량으로 파일을 변환하는 것. 그게 당신의 일이라면 앱은 건너뛰세요.

밤새 처리할 녹음 파일 폴더가 있을 때, 더 큰 Python 파이프라인이나 직접 관리하는 서버 안에 Whisper를 넣고 싶을 때, GUI가 노출하지 않는 특정 모델 플래그가 필요할 때, 또는 그냥 이미 터미널에서 살고 있어서 창을 하나 더 열고 싶지 않을 때 커맨드라인을 쓰세요. Linux에서도 올바른 선택입니다. 데스크톱 앱은 Linux용이 없습니다. CLI는 Python과 ffmpeg가 실행되는 곳이라면 어디서든 실행됩니다. 이 중 어느 것도 앱을 비판하는 게 아닙니다. 그냥 다른 모양의 문제일 뿐입니다.

파일 처리가 아닌 받아쓰기가 일인 경우 데스크톱 앱을 쓰세요. 이메일, 문서, 채팅에 말을 하고 하나의 키로 커서 위치에 단어가 나타나기를 원할 때. CLI는 다른 프로그램의 커서 위치에 붙여넣기를 할 수 없습니다. 그게 CLI의 역할이 아니었으니까요. 그래서 솔직한 구분은 이렇습니다 — 파일과 스크립팅이면 터미널, 타이핑 대신 말하기면 앱. 대부분의 사람들은 자신이 원하는 것이 무엇인지 명확해지면 즉시 어느 쪽인지 압니다.

Mac에서 설정하는 경우 같은 기기 내, 클라우드 없는 논리가 적용됩니다 — Mac에서 음성을 텍스트로 변환의 안내에서 Apple Silicon 측면, 단축키에 필요한 손쉬운 사용 권한 포함 내용을 다룹니다.

내 컴퓨터에서 실행되는 Whisper는 지금 소프트웨어 세계에서 가장 좋은 거래 중 하나입니다 — OpenAI가 내놓은 모델, 대형 클라우드 도구들이 슬그머니 호출하는 바로 그 모델이, 아무 비용 없이 내 디스크에 앉아 있습니다. 진짜 결정은 어떤 래퍼가 내 하루에 맞는가뿐입니다. 저는 처리할 파일이 있을 때 CLI를 쓰고, 나머지 95%의 시간에는 앱을 씁니다. 한 시간에 대략 마흔 번씩 프로그램을 바꾸는데 매번 명령을 입력하고 싶지 않으니까요. 이 가이드의 대부분은 터미널이 아닌 텍스트 상자에, 같은 노트북에서 모델을 돌리면서, 단축키로 받아썼습니다.

터미널 없이 Whisper를 로컬에서 실행하기

단축키를 누르고, 말하고, 놓으면 됩니다. 모델이 내 컴퓨터에서 실행되고 변환문이 커서가 있는 곳 어디든 나타납니다 — Python, pip, ffmpeg 없이.

로그인된 계정이라면 로컬 모드 무료. 시작에 카드 불필요.

Denys Medvediev 사진

Denys Medvediev

우리 고객지원 이메일을 읽는 사람이 저인데, 아마 받아쓰기로 답장을 쓰고 있을 겁니다.

더 읽어보기