작성자: Denys Medvediev

비교

로컬 vs 클라우드 트랜스크립션

로컬 트랜스크립션은 음성 모델을 내 기기에서 직접 실행합니다. 오디오가 기기 밖으로 나가지 않고, 오프라인에서도 동작하며, 분당 요금이 없습니다. 클라우드 트랜스크립션은 오디오를 서버로 전송해 최신 모델로 처리합니다. 사양이 낮은 기기에서도 빠르고 실시간 웹 검색도 가능하지만, 오디오가 외부로 나가고 사용량에 따라 비용이 발생합니다.

최종 업데이트: 2026년 6월

파란 조명이 비추는 현대적인 서버실. 로컬과 클라우드 트랜스크립션의 선택지 중 클라우드 쪽을 연상시키는 이미지

로컬 트랜스크립션은 오디오를 기기에 보관하고, 오프라인에서 동작하며, 모델을 한 번 다운로드하면 분당 요금이 없습니다. 클라우드 트랜스크립션은 공급자의 최신 모델을 실행하고 웹 검색도 지원하지만, 인터넷 연결이 필요하고 사용량에 따라 요금이 청구됩니다. 저희 앱은 두 가지 모두 하나의 토글 뒤에 탑재되어 있어, 평생 한 가지를 고르는 게 아니라 상황에 맞게 전환할 수 있습니다.

이것이 두 단락으로 요약한 모든 트레이드오프입니다. 아래는 그 세부 내용입니다.

저는 어느 한쪽 편을 들지 않아도 이 글을 쓸 수 있습니다. 저희 앱이 두 가지 모두를 제공하기 때문입니다. 로컬 파이프라인은 Whisper 모델 8가지와 NVIDIA의 Parakeet을 순수 Rust로 CPU에서 실행하며, 로그인한 모든 사용자에게 카드 등록 없이 무료로 제공됩니다. 클라우드는 사용자 본인의 API 키를 사용하는 OpenAI 트랜스크립션으로, Pro 부가 기능으로 판매됩니다. 동일한 단축키, 동일한 오버레이, 하나의 토글입니다. 그래서 제가 대부분의 사람에게 로컬을 권할 때, 그건 저희가 로컬만 팔기 때문이 아닙니다. 수치가 그렇게 말해주기 때문입니다.

로컬은 모델이 내 디스크에 있다는 뜻

로컬 트랜스크립션은 음성 모델을 한 번 다운로드한 뒤 내 프로세서에서 실행합니다. 업로드도, 서버도, 녹음 중 계정 연결도 없습니다. 네트워크 케이블을 뽑아도 그대로 타이핑됩니다.

저희 앱은 이 작업을 transcribe-rs라는 라이브러리를 통해 순수 Rust로 처리하며, Python 런타임이 전혀 필요 없습니다. 약 140 MB의 Base부터 약 3 GB의 Large v3까지 Whisper 모델 8가지, 그리고 CPU에서 Whisper보다 5~10배 빠른 NVIDIA의 Parakeet(약 600 MB) 중에서 선택할 수 있습니다. GPU도 필요 없습니다. 모델이 RAM에 로드되고, 목소리가 들어가면 텍스트가 나옵니다. 이 과정에서 인터넷은 전혀 관여하지 않습니다.

유일한 불편함은 다운로드입니다. 호텔 Wi-Fi에서 3 GB 모델을 받는 건 꽤 오래 걸리고, 2018년 노트북은 작은 모델은 잘 돌리지만 큰 모델은 버거울 수 있습니다. 그러나 첫 다운로드 이후에는 분당 요금도, 서버도 없습니다. 완전 오프라인으로 실행하는 방법이 궁금하다면 별도의 글을 작성했습니다. 데스크톱에서 오프라인 음성 텍스트 변환하기.

클라우드는 오디오가 여행을 떠난다는 뜻

클라우드 트랜스크립션은 오디오를 녹음해 공급자 서버로 전송하고, 서버가 텍스트를 돌려보냅니다. 다른 회사의 하드웨어와 최신 모델을 임대하는 방식입니다.

저희 앱에서 클라우드 모드는 사용자가 본인 키를 가져오는 OpenAI 방식입니다. gpt-4o-mini-transcribe 또는 더 높은 품질의 gpt-4o-transcribe로 트랜스크립션이 실행되며, 동일한 키로 AI 정제와 실시간 웹 검색을 추가할 수 있습니다. OpenAI 키를 직접 입력하고 OpenAI에 직접 결제합니다. 저희는 수수료를 받지 않고 마진도 없습니다. 큰 모델을 다운로드할 필요도 없습니다. 실제 작업이 서버에서 이루어지기 때문에, 5년 된 넷북에서도 새 워크스테이션과 동일하게 실행되며, 웹을 검색해 질문에 답할 수도 있습니다. 로컬 모델로는 불가능한 일입니다.

대가는 이름 그대로입니다. 오디오가 내 기기를 벗어납니다. 인터넷 연결이 필요합니다. 그리고 분당 요금이 발생합니다. 1센트의 일부에 불과하지만, 쌓이고, 미터기가 돌아갑니다.

솔직한 비교표

표에 금액을 일부러 넣지 않았습니다. 실제 요금은 저희 요금제 페이지에서 확인하세요. 이 표는 각 선택지의 성격을 보여줍니다.

개인 정보 보호, 오프라인 사용, 비용, 속도, 모델 최신성, 웹 접근성 측면에서 로컬과 클라우드 트랜스크립션 비교
관심 항목로컬 트랜스크립션클라우드 트랜스크립션
개인 정보 보호오디오가 기기 밖으로 나가지 않음오디오가 공급자 서버로 전송됨
오프라인 동작최초 모델 다운로드 후 가능불가, 인터넷 연결 필요
비용 구조다운로드 이후 분당 요금 없음사용량 측정, 사용한 만큼 지불
속도 결정 요소내 CPU와 모델 크기공급자 하드웨어와 인터넷 연결
모델 최신성다운로드한 모델, 원할 때 업데이트항상 공급자의 최신 모델
실시간 웹 접근없음있음, 클라우드에서 검색 및 답변 가능

위에서 아래로 읽으면 패턴이 명확합니다. 로컬은 편의성을 포기하고 개인 정보 보호, 오프라인 사용, 고정 비용을 얻습니다. 클라우드는 개인 정보와 종량제를 감수하고 최신 모델과 웹 연결을 얻습니다. 어느 쪽이 더 낫지 않습니다. 서로 다른 일에 잘 맞을 뿐입니다.

클라우드가 더 나은 선택인 경우

로컬이 항상 이긴다고 말하지 않겠습니다. 클라우드를 선택하고 싶은 실제 상황들이 있습니다.

하드웨어가 오래되었거나 RAM이 부족하다면 클라우드가 더 편한 선택입니다. RAM 8 GB짜리 2017년 노트북은 큰 로컬 모델과 씨름하겠지만, 클라우드는 무거운 작업을 서버에서 처리하고 내 기기는 마이크만 담당합니다. 강한 억양, 여러 명이 동시에 말하는 상황, 전문 용어처럼 까다로운 오디오에서 절대적인 최고 품질이 필요하다면, 최신 호스팅 모델이 가정에서 실행 가능한 모델보다 살짝 앞서는 경향이 있습니다. 그리고 질문을 받아쓰고 웹에서 찾은 답을 커서 위치에 붙여 넣고 싶다면, 그건 반드시 클라우드가 필요합니다. 로컬 모델은 검색할 인터넷이 없습니다.

이 세 가지를 관통하는 공통점: 클라우드는 낮은 사양, 최고 수준의 품질, 실시간 웹 접근이 필요할 때의 탈출구입니다.

로컬이 더 나은 선택인 경우

대부분의 사람에게, 대부분의 상황에서, 저라면 로컬부터 시작하겠습니다.

받아쓰는 내용이 개인적인 것이라면, 급여 스프레드시트, 자녀 학교에 보내는 이메일, 법률 초안 같은 것들은 목소리로 타이핑하고 싶다는 이유로 공급업체 로그에 남아서는 안 됩니다. 로컬은 그 오디오를 기기 안에 완전히 보관합니다. 비행기, 기차, 또는 Wi-Fi가 불안정한 카페에서 일한다면 로컬은 신호 유무에 신경 쓰지 않습니다. 그리고 받아쓰기를 많이 한다면 고정 비용이 중요해집니다.

제가 실제로 확신하는 의견을 하나 말씀드리겠습니다. 로컬부터 시작하고, 클라우드는 기본값이 아닌 탈출구로 두세요. Mac이 Apple Silicon이거나 PC가 최근 4년 이내 출시 제품이라면, 로컬은 서버 없이 95~99% 정확도로 일상적인 받아쓰기를 처리합니다. 낮은 사양, 가장 까다로운 오디오, 또는 웹 검색이 필요할 때 클라우드로 전환하세요. 대부분의 사람은 그 벽에 부딪히지 않습니다.

제가 클라우드 기본값에 신경이 쓰이는 데는 이유가 있습니다. 한번은 같이 일하던 팀에서 외주 개발자가 내부용 클라우드 AI 받아쓰기 프로토타입을 만들었는데, 모든 발화마다 API를 호출했습니다. 영리한 재시도 루프가 같은 스탠드업 녹음을 네 번 트랜스크립션했습니다. 담당자가 분기 말에 비용 대시보드를 열었을 때 다섯 자리 청구서를 발견했습니다. 외주 개발자의 해결책은 프롬프트를 최적화하는 것이었고, CFO의 해결책은 이미 메모가 있는 회의를 트랜스크립션하는 비용을 멈추는 것이었습니다. 종량제 클라우드는 루프가 돌지 않는 한 괜찮습니다. 로컬에는 돌아갈 미터기가 없습니다.

두 가지 모드가 하나의 앱에

Whisper
로컬 및 클라우드 모드 토글과 모델 선택기가 표시된 Whisper by Remskill 라이브 앱. 스크린샷이 아닌 실제 인터페이스입니다.

위의 차이는 실제이지만, 한 번 선택하고 끝나는 갈림길이 아닙니다. 저희 앱에서 두 모드는 같은 단축키와 같은 녹음 오버레이 뒤에 자리하며, 토글은 스위치 하나입니다. 오전에 개인 이메일을 로컬로 받아쓰고, 오후에 클라우드로 전환해 웹 검색으로 사실을 확인하고, 다시 돌아올 수 있습니다. 재설치 없이, 평생의 선택 없이.

Pasted
로컬 또는 클라우드로 트랜스크립션한 후 나타나는 받아쓰기 후 오버레이.

이게 바로 로컬 대 클라우드라는 구도가 놓치는 부분입니다. 종교 전쟁이 아닙니다. 같은 서랍 안의 두 가지 도구이고, 어느 것이 맞는지는 지금 막 하려는 문장에 달려 있습니다. 로컬 엔진들을 속도와 언어 지원 측면에서 비교하고 싶다면 별도의 글이 있습니다: Whisper vs Parakeet. 특정 경쟁 제품과 비교하고 싶다면, superwhisper 비교 글에서 하나를 자세히 다룹니다.

한 가지만 기억한다면

개인 정보 보호, 오프라인, 고정 비용이라면 로컬. 최신 모델, 낮은 사양, 웹 접근이라면 클라우드. 로컬부터 시작하고 클라우드는 탈출구로 두세요. 가장 좋은 점은 평생 선택할 필요가 없다는 것입니다. 하나의 토글, 두 가지 모드, 지금 막 하려는 문장에 맞는 쪽을 선택하면 됩니다.

두 가지 모두 직접 써보세요

로컬 엔진은 로그인한 모든 사용자에게 무료이며, 클라우드는 실제로 필요할 때 추가할 수 있습니다. 앱을 다운로드하고, 개인 이메일을 로컬로 한 번 받아쓰고, 토글을 눌러 클라우드가 어떻게 다른지 직접 확인하세요.

로컬 트랜스크립션 영구 무료. 가입 시 결제 수단 불필요.

Denys Medvediev 사진

Denys Medvediev

고객 지원 이메일을 직접 읽는 사람, 아마 받아쓰기로 답장 중일 겁니다.

더 읽어보기