작성자: Denys Medvediev

가이드

OpenAI Whisper Windows에서 쓰기

OpenAI Whisper는 MIT 라이선스로 공개된 무료 오픈소스 음성-텍스트 변환 모델입니다. Windows에서는 보통 Python과 명령줄을 통해 오디오 파일을 변환합니다. Whisper by Remskill은 이 모델들을 데스크톱 앱에 담아, 파일을 변환하는 대신 어떤 앱에서든 실시간으로 받아쓸 수 있게 해줍니다.

최종 업데이트: 2026년 6월

책상 위에 코드 편집기가 켜진 Windows 노트북, 깔끔한 받아쓰기 작업 공간을 떠올리게 하는 모습

OpenAI Whisper는 MIT 라이선스로 공개된 무료 오픈소스 음성-텍스트 변환 모델입니다. Windows에서는 보통 Python과 명령줄을 통해, 지정한 오디오 파일을 변환합니다. Whisper by Remskill은 이 모델들을 데스크톱 앱에 담아, 파일을 변환하는 대신 어떤 앱에서든 실시간으로 받아쓸 수 있게 해줍니다.

OpenAI Whisper는 무료 오픈소스 모델입니다. 막 설치한 Windows에서 공식 버전으로 파일을 변환하려면 Python, ffmpeg, 그리고 명령줄이 필요합니다. 이미 파일이 있다면 Buzz나 Whisper Desktop 같은 무료 GUI 도구로 충분합니다. 말을 하면 그 자리에서 어떤 앱에든 커서 위치에 글자가 찍히길 원한다면, Whisper by Remskill이 같은 모델들을 담고 있으니 따로 빌드할 것 없이 무료 로컬 플랜으로 바로 쓸 수 있습니다.

사람들이 말하는 "OpenAI Whisper for Windows"란

조금 따분한 진실은, "OpenAI Whisper"가 같은 이름을 쓰는 서로 다른 두 가지라는 점입니다. 그리고 검색 결과는 이 둘을 매일같이 뒤섞어 보여줍니다.

첫 번째는 모델입니다. Whisper는 OpenAI가 MIT 라이선스로 오픈소스화한 음성 인식 모델이라, 코드와 학습된 가중치를 모두 무료로 내려받아 쓸 수 있습니다. tiny, base, small, medium, large, turbo의 여섯 가지 크기로 제공되며, 그중 넷은 영어 전용 버전이 따로 있어 속도와 정확도를 맞바꿉니다. 다국어를 지원하고, 플래그 하나로 음성을 영어로 번역할 수도 있습니다. 정말로 인상적이고, 정말로 무료입니다.

두 번째는 그것을 실제로 실행하는 방법입니다. 공식 Whisper는 Python 패키지입니다. pip로 설치하고, 그 옆에 ffmpeg 명령줄 도구를 설치한 다음, 터미널에서 오디오 파일을 입력으로 넣어줍니다. "터미널", "pip", "ffmpeg"가 벌써부터 계획에 없던 토요일처럼 들린다면, 이 글이 다루려는 바로 그 간극을 찾으신 겁니다. 명령줄은 마우스로 클릭하는 대신 컴퓨터에 명령어를 직접 입력하는 도구입니다. Windows 사용자 대부분은 일부러 이걸 열어본 적이 없습니다.

그래서 누군가 구글에 "OpenAI Whisper for Windows"를 검색할 때, 보통 둘 중 하나의 답을 원합니다. 컴퓨터공학 학위 없이 이 무료 모델로 내 파일을 변환하려면 어떻게 해야 하나? 아니면, 그냥 말을 하면 글자가 나타났으면 좋겠는데, 이게 그게 되나? 이 둘은 서로 다른 요구이고, 필요한 도구도 다릅니다. 둘 다 답해 드리되, 각각 어떤 도구가 이기는지 솔직하게 말씀드리겠습니다.

무료 모델은 훌륭합니다. 설치가 함정이죠.

제품 소개 페이지가 건너뛰는 대목이 바로 여기입니다. 모델로서의 Whisper는 비용이 한 푼도 들지 않습니다. 하지만 경험으로서의 Whisper는, 막 설치한 Windows에서라면 오후 한나절을 잡아먹습니다.

공식 OpenAI Whisper를 실행하려면 Python을 설치하고, 다음으로 Whisper 패키지를 설치하고, 그다음 ffmpeg를 설치한 뒤 Windows가 그걸 찾을 수 있게 만들고, 마지막으로 터미널을 열어 파일마다 명령어를 실행해야 합니다. 개발자에게는 이 중 어느 것도 어렵지 않습니다. 하지만 그 외의 모든 사람에게는 전부가 벽입니다. 작가, 변호사, 학생, 영업사원, 그리고 제 어머니까지요. 어머니는 세 번째 시연 끝에 받아쓰기를 한번 써보겠다고 하셨는데, "PATH에 ffmpeg를 추가하세요"라는 말이 들어가는 시연이었다면 단 한 번도 응하지 않으셨을 겁니다.

좀 더 친절한 진입로도 있고, 알아둘 가치가 있습니다. Whisper.cpp는 같은 모델을 순수 C/C++로 포팅한 것으로, MIT 라이선스에 빠르고 CPU만으로 동작하며 Python이 전혀 필요 없습니다. 다만 여전히 소스에서 직접 빌드하거나 명령줄에서 실행해야 합니다. 컴파일러를 즐기는 사람들을 정조준한 아름다운 공학의 산물입니다. 이 글의 나머지는 그렇지 않은 분들을 위한 것입니다.

명령줄 Whisper(또는 파일 변환기)가 더 필요할 때

이제 다른 곳으로 안내해 드리겠습니다. 솔직해야 할 대목이거든요.

만약 실제로 가진 것이 오디오 파일이라면(녹음한 인터뷰, 팟캐스트 한 편, 저장해 둔 Teams 통화, 음성 메모 같은 것) 우리 앱은 맞지 않는 도구입니다. 어울리지 않는 걸 파는 대신 그렇다고 솔직히 말씀드리는 편이 낫습니다. 우리는 실시간 받아쓰기를 합니다. 말을 하면 글자가 커서 위치에 찍힙니다. 이미 있는 파일을 받아 변환하지는 않습니다. 일 자체가 다릅니다.

그 일에는 무료 도구 세 가지가 정말 훌륭하고, 바로 그 용도로 만들어졌습니다.

  • Buzz 는 OpenAI의 Whisper를 기반으로 오디오 파일을 오프라인에서 변환하고 번역하며, MIT 라이선스에 Windows에서 동작합니다. 터미널 대신 버튼이 달린 진짜 창을 원한다면 여기서 시작하세요.
  • Whisper Desktop (Const-me) 은 Windows GUI 앱입니다. 압축을 풀고 WhisperDesktop.exe를 실행한 뒤 파일을 지정하면, DirectCompute를 통해 GPU로 변환합니다. MPL-2.0 라이선스이며, 괜찮은 그래픽 카드에서는 빠릅니다.
  • whisper.cpp 는 명령줄이 편하고 Python 없이 순수한 속도를 원할 때의 군더더기 없는 선택지입니다.

외교적으로 둘러대려는 말이 아닙니다. 우리 것이 아닐 때 맞는 도구로 안내해 드리는 것, 그것이야말로 이 글의 나머지를 믿어도 되는 이유입니다. 파일이 있다면 Buzz를 쓰세요. 마이크와 머릿속에 떠오른 문장이 있다면 계속 읽어주세요.

Whisper by Remskill이 Windows에서 실제로 하는 일

우리는 같은 오픈소스 Whisper 모델들에 두 번째 엔진을 더해 Windows 앱으로 감쌌습니다. 그래서 빌드할 것도, 터미널에 입력할 것도 없습니다.

앱 하나만 설치하면 됩니다. 약 25MB입니다. 로그인하세요. 단축키를 누르세요. 기본값은 Ctrl + Space이고 자유롭게 바꿀 수 있습니다. 말을 하세요. 손을 떼세요. 그러면 이미 쓰고 있던 그 앱의 커서 위치에 글자가 나타납니다. Word, Outlook, 브라우저, Slack, 코드 편집기, 검색창 어디든요. 파일도, 터미널도, GPU도 필요 없습니다. 모든 로컬 변환은 CPU에서 돌아갑니다.

Whisper
실제로 동작하는 Whisper by Remskill 앱 — 사이드바, 변환 패널, AI 지시 카드. 스크린샷이 아니라 진짜 인터페이스입니다.

내부적으로는 세 가지 경로 중에서 고를 수 있습니다. 우리가 대신 모델을 정해주지 않기 때문입니다.

  • 로컬 Whisper (8개 모델) 는 여러분이 찾던 바로 그 오픈소스 Whisper로, 이미 담겨 바로 쓸 수 있습니다. 영어에 최적화된 Base(약 140MB)부터 Medium(약 1.5GB)까지, 그리고 Large v3(약 3GB)에 이르는 다국어 빌드까지 갖췄습니다. 다국어 빌드는 99개 언어를 지원하고 영어로 번역할 수 있습니다.
  • Parakeet (NVIDIA TDT, 약 600MB) 는 별도의 엔진으로, CPU에서 Whisper보다 5~10배 빠르며 영어와 그 외 24개 유럽 언어를 지원합니다. 영어 번역 기능은 없습니다. 주로 영어로 작업하면서 속도를 원한다면 이걸 고르세요.
  • 클라우드 (OpenAI, BYOK) 는 본인의 OpenAI 키를 가져와 최고 수준의 정확도와 웹 검색을 쓸 수 있게 해줍니다. 우리는 수수료를 떼지 않습니다. 이것이 유일한 Pro 기능입니다.

로컬 파이프라인(모든 Whisper 모델, Parakeet, Ollama를 통한 AI 정리, 기록, 프리셋, 사용자 지정 단축키, 모델 다운로드)은 로그인한 모든 사용자에게 무료이며, 가입 시 카드도 필요 없습니다. 클라우드 경로는 유료 Pro 등급입니다. 자세한 금액은 가격 페이지에서 확인할 수 있습니다.

진짜 Windows 받아쓰기 앱이 pip install보다 어려운 이유

"그냥 Whisper를 UI로 감싸면 되지"라고 말할 때 아무도 경고해 주지 않는 부분이 있습니다.

모델은 쉬운 쪽입니다. 어려운 건 Windows에서 단축키를 제대로 동작시키는 일입니다. 우리 단축키 처리기의 첫 버전은 실제 키 입력 한 번에 녹음 중지 콜백을 여섯 번 호출했습니다. Mac에서는 완벽하게 동작했습니다. 깨끗한 Windows 설치에서도 완벽하게 동작했습니다. 그런데 실제 고객 컴퓨터, 즉 언어 입력기가 켜진 컴퓨터에서는 무너졌습니다. Windows에서는 그게 예측 불가능한 순간마다 유령 같은 Ctrl + Space 해제 이벤트를 만들어냅니다. 며칠간 텔레메트리를 들여다본 끝에, 처음엔 부족했던 50ms 디바운스를 거쳐, 결국 충분했던 300ms 디바운스에 이르렀습니다. 어떤 사람도 알 필요가 없을 만큼 Windows 입력기 프레임워크에 대해 많이 배웠습니다. 저는 석사 학위까지 있는데도요. 제가 이걸 설명하자 큰딸이 내린 결론은 이랬습니다. "그래서 아빠 이메일이 그렇게 오래 걸리는구나."

Pasted
실제로 출시된 받아쓰기 후 오버레이 — 무료이자 완전한 로컬 받아쓰기 한 번이 끝나는 순간의 모습.

그것이 모델과 제품의 차이입니다. 무료 Whisper는 파일 하나의 변환 결과를 줍니다. 받아쓰기 앱은 여러분이 다른 일을 하는 동안, 실제 앱 속에서, 진짜 Windows 데스크톱을 버텨내야 합니다. 모델은 그 싸움을 결코 보지 못합니다. 우리는 봅니다. 그리고 처음 일주일쯤은 그 싸움에서 졌습니다.

Windows 기본 도구만으로 충분할 때

내 물건을 사지 말아야 할 때를 알려주면, 사람들이 나머지 말도 믿어줄지 모릅니다. 그래서 말씀드립니다. 가끔 짧은 메모만 받아쓴다면, 이 중 어느 것도 필요 없을 수 있습니다. Windows 11에는 Win + H로 여는 음성 입력 도구가 기본 내장되어 있습니다. 무료이고 몇 줄 정도라면 충분히 괜찮습니다. 다만 음성을 여러분 컴퓨터에서 처리하지 않고 Microsoft의 온라인 음성 인식으로 보냅니다. 빠른 Teams 답장에는 그걸로 충분합니다.

우리가 설치할 만한 가치를 갖기 시작하는 지점은, 여러분이 진짜 글(긴 이메일, 보고서, 강의 요약, 코드 주석, 마케팅 문구 변형)을 쓰면서, 그것이 99개 언어로, 어디서든 같은 단축키로, 여러분 컴퓨터 안에 머물기를 원할 때입니다. 하루가 두 줄짜리 채팅이라면, 그걸로 충분합니다. 하루가 글쓰기라면, 이 앱을 곁에 두세요.

더 읽어보기

OpenAI Whisper는 무료 오픈소스 모델이며, Windows에서는 보통 파일을 변환하기 위해 Python, ffmpeg, 터미널을 필요로 합니다. 파일이 있다면 Buzz나 Whisper Desktop이 진짜 창에서 무료로 해줍니다. 정작 원하는 것이 말을 하면 어떤 앱에든 커서 위치에 글자가 찍히는 것이라면, 빌드도 명령줄도 없이, 여러분 CPU에서 로컬로 돌아가게, 그것이 우리가 만든 것입니다.

무료와 유료 지형 전반을 더 길게 다룬 내용은 Windows에서 음성을 텍스트로을 보세요. 우리의 두 로컬 엔진 중에서 고르려면 Whisper vs Parakeet를 보세요.

약 1분 만에 첫 문장을 받아쓰세요

Windows용 Whisper by Remskill을 내려받고, 카드 없이 로그인한 뒤, Ctrl + Space를 누르고 말하세요. 로컬 파이프라인은 쓰는 한 계속 무료입니다.

로컬 변환은 영원히 무료입니다. 가입 시 결제 수단이 필요 없습니다. 클라우드 등급만이 유일한 유료 기능입니다.

Denys Medvediev 사진

Denys Medvediev

우리 지원 이메일을 읽는 사람이 접니다. 답장도 십중팔구 받아쓰기로 하고요.