비교
Whisper 대 Google Speech-to-Text
Google Cloud Speech-to-Text는 코드에서 호출하고 사용한 분(分) 단위로 요금을 내는 개발자용 API입니다. 우리 앱이 여러분의 컴퓨터에서 직접 구동하는 오픈소스 OpenAI 모델인 Whisper는 Word나 Slack에 받아쓰기를 하는 사람을 위해 만들어졌습니다. 한쪽은 엔지니어를 위한 배관 설비이고, 다른 한쪽은 데스크톱 받아쓰기 도구입니다.
마지막 업데이트: 2026년 6월

Google Cloud Speech-to-Text는 개발자용 API입니다. 코드에서 호출하면 Google 서버로 보낸 오디오의 분(分) 단위로 과금됩니다. 우리 앱이 여러분의 컴퓨터에서 직접 구동하는 오픈소스 OpenAI 모델인 Whisper는 Word나 Slack에 받아쓰기를 하는 사람을 위해 만들어졌습니다. 한쪽은 엔지니어를 위한 배관 설비이고, 다른 한쪽은 데스크톱 받아쓰기 도구입니다.
Google Speech-to-Text는 앱과 서버에 전사 기능을 넣으려는 개발자를 위한 클라우드 API입니다. 스트리밍을 지원하고, 긴 파일을 일괄 처리하며, 많은 언어를 다루고, 분 단위로 요금을 받습니다. 우리 앱 속 Whisper는 비공개, 오프라인, 무료 데스크톱 받아쓰기를 원하는 최종 사용자를 위한 것입니다. 코드를 짜고 대규모 전사가 필요하다면 Google이 유리합니다. 말을 하면 커서 위치에 텍스트가 나타나기를 원한다면 Whisper가 유리합니다. 애초에 다른 범주입니다.
저는 오픈소스 Whisper 모델을 데스크톱 받아쓰기로 바꿔주는 앱, Whisper by Remskill을 운영합니다. 단축키를 누르고 말하면 커서가 있는 곳 어디든 텍스트가 나타나죠. 그러니 저는 이 비교에 한쪽 편이 있는 셈입니다. 그래도 솔직하게 쓰려고 합니다. 솔직한 답이 더 쓸모 있으니까요. 검색창에 "Whisper vs Google Speech-to-Text"를 입력하는 대부분의 사람은 같은 통에 담길 수 없는 두 가지를 비교하려는 참입니다.
Google Speech-to-Text는 열어서 쓰는 앱이 아니라 API입니다
먼저 분명히 해둘 점. Google Cloud Speech-to-Text에는 창이 없습니다. 독에 아이콘도 없고, 단축키도 없고, "눌러서 말하기"도 없습니다. 여러분의 소프트웨어가 네트워크를 통해 대화하는 서비스입니다. 코드로 오디오를 보내면 텍스트를 돌려줍니다. Google의 공식 문서는 이를 API를 통해 사용하는 동기, 스트리밍, 비동기 인식이라고 설명합니다.
그 설계는 본래 목적에 잘 들어맞습니다. 스트리밍 인식은 중간 결과를 실시간으로 반환하는데, 실시간 자막 기능이나 여러분의 제품용 음성 명령을 만들 때 유용합니다. 비동기 인식은 긴 녹음을 처리합니다. 오디오를 업로드하면 Google이 백그라운드에서 처리하고, 끝나면 결과를 폴링해서 가져옵니다. Google은 이 일괄 처리 경로가 한 작업당 최대 8시간 분량의 오디오를 다룬다고 문서에 명시합니다. 이건 진짜 강점입니다. 녹음된 통화가 창고만큼 쌓여 있어 밤새 전사해야 한다면, 최종 사용자용 받아쓰기 앱은 잘못된 도구이고 Google 같은 API가 맞는 도구입니다.
긴 목록의 언어와 지역별 로캘 변형을 지원하는데, en-US, en-GB, es-MX처럼 엔지니어들이 아는 BCP-47 코드 형태입니다. 여기서 정확한 언어 개수나 분당 가격을 적지는 않겠습니다. 그런 숫자를 적는 글은 오히려 조심하는 편이 좋다고 생각합니다. Google의 가격과 언어 페이지는 계속 바뀌고, 웹에 떠도는 숫자들이 모두 제가 신뢰하는 1차 출처로 거슬러 올라가는 것도 아니기 때문입니다. 다만 망설임 없이 말할 수 있는 건 이렇습니다. 사용량 기반 클라우드 과금이라는 점, 보낸 만큼 돈을 낸다는 점, 오디오가 Google 서버로 간다는 점, 그리고 무료 로컬 모드가 없다는 점입니다.
두 사람, 두 가지 다른 문제
여러분이 이 선의 어느 쪽에 있는지 가려내는 가장 깔끔한 방법을 찾았습니다. 두 사람을 떠올려 보세요.
첫 번째는 개발자입니다. 그녀는 녹음된 통화를 검색 가능한 텍스트로 바꿔주는 고객 지원 도구를 만들고 있습니다. 전사는 그녀의 서버에서, 그녀의 코드 안에서, 누가 지켜보지 않는 가운데 일어납니다. 그녀는 오디오를 보낼 수 있는 엔드포인트와 데이터베이스에 저장할 수 있는 JSON 응답을 원합니다. 그녀가 전사기를 "여는" 일은 결코 없습니다. 그것은 그녀가 자기 고객에게 출시하는 제품 안에 들어 있습니다. 이게 Google Speech-to-Text의 역할입니다. API는 부품이고, 그녀의 제품이 앱입니다.
두 번째는 작가입니다. 또는 기차에서 서면을 작성하는 변호사, 강의를 노트로 옮기는 학생, 저녁을 저으며 선생님 이메일에 답장하는 부모일 수도 있습니다. 그에게는 서버가 없습니다. 문서에서 깜빡이는 커서가 있을 뿐이고, 타이핑보다 말하기를 선호합니다. 그는 키 하나를 누르고 문장을 말한 뒤, 이미 열려 있는 파일에 그 문장이 나타나기를 원합니다. 그는 코드를 짤 일이 결코 없고, 그럴 필요도 없어야 합니다. 이게 우리의 역할입니다.
이 키워드의 혼란은 "Whisper"가 두 가지 역할을 동시에 하는 데서 옵니다. Google STT는 완성된 클라우드 서비스입니다. Whisper는 모델이고, 모델은 앱이 아닙니다. 누군가가 그 주위에 앱을 만들어야 합니다. 마이크를 연결하고, 단축키를 연결하고, 커서에 텍스트를 붙여 넣어야 하죠. 그 부분을 우리가 했습니다.
우리 앱 속 Whisper는 데스크톱 받아쓰기이며, 여러분의 컴퓨터에서 구동됩니다
Whisper는 OpenAI가 오픈소스로 공개한 음성 모델입니다. 우리 앱은 이걸 로컬에서 구동합니다. 순수 Rust로, Python 사이드카 없이, 일반적인 받아쓰기에는 서버가 끼지 않습니다. 단축키를 누르고(기본값은 Windows에서 Ctrl+Space, 완전히 재설정 가능), 말하고, 떼면, 텍스트가 이미 커서가 있는 곳에 내려앉습니다. 코드도 없습니다. 로컬 경로에는 API 키도 없습니다. 오디오는 노트북을 절대 떠나지 않습니다.
바로 그 마지막 부분이 핵심 전부이고, 기능 표에는 드러나지 않는 부분입니다.
로컬 티어에서는 약 140 MB부터 3 GB까지 여덟 개의 Whisper 모델 중에서 고를 수 있습니다. 다운로드 크기와 CPU 시간을 정확도와 맞바꾸는 셈이죠. 네 개는 영어에 맞춰져 있고, 다국어용 네 개는 폭넓은 언어를 아우르며 같은 동작으로 음성을 영어로 번역할 수도 있습니다. 이건 Google의 API가 한 번의 받아쓰기 누름에 담아내지 못하고 대부분의 소비자용 도구가 아예 건너뛰는 기능입니다. 또한 Parakeet도 있습니다. 영어와 그 외 24개 유럽 언어에 대해 CPU에서 Whisper보다 5~10배 빠른 별도의 NVIDIA 엔진이며, GPU 없이도 구동됩니다.
로컬 파이프라인 전체는 로그인한 사용자라면 누구에게나 무료이고, 가입 시 카드도 필요 없습니다. 모든 모델, Ollama를 통한 AI 정리, 기록, 맞춤 핫워드까지 전부요. 클라우드 영역을 원한다면 Whisper Pro가 있습니다. OpenAI 클라우드 전사(gpt-4o-mini-transcribe 또는 gpt-4o-transcribe), 클라우드 AI 정리, 웹 검색을 모두 여러분 자신의 OpenAI 키로 쓰며, Remskill은 한 푼도 떼지 않습니다. 이건 선택 사항입니다. 기본값은 로컬이고 무료입니다.
지루하지만 진실은 이렇습니다. 받아쓴 텍스트 한 단락을 위해서라면, 여러분의 노트북에는 이미 마이크와 CPU가 있습니다. 데이터 센터는 필요하지 않습니다.
비용 모델은 모양이 다릅니다
여기서 이 비교는 사과 대 사과이기를 멈춥니다. 클라우드 API는 오디오 분 단위로 과금합니다. 로컬 받아쓰기 앱은 많아야 한 번 과금합니다.
분당 과금 모델이 사람을 무는 걸 한 번 지켜본 적이 있습니다. 제가 함께 일하던 팀은 한 외주 개발자에게 모든 발화마다 클라우드 API를 호출하는 사내 "AI 받아쓰기" 시제품을 맡겼습니다. "스마트 재시도" 루틴이 지나치게 공격적이 되어 같은 스탠드업 녹음을 네 번씩 다시 전사했습니다. 팀 매니저가 분기 말에 비용 대시보드를 열어보니 다섯 자리 청구서가 나와 있었습니다. 외주 개발자의 해법은 "프롬프트를 최적화해야겠다"였고, CFO의 해법은 "아니면 이미 노트가 있는 회의를 클라우드 전사에 돈 주고 맡기지 말아야겠다"였습니다.
이건 Google API를 깎아내리는 게 아닙니다. 계량기를 지켜보는 엔지니어가 의도대로 쓴다면, 프로덕션 파이프라인용으로 가격은 적절합니다. 이건 로컬 앱이 공짜로 해주는 일에 계량형 클라우드 서비스를 쓰는 것을 깎아내리는 것입니다. 클라우드 전용 전사는 청구서로 돌아올 프라이버시 재앙입니다. 초안 계약서, 연봉 스프레드시트, 아이 학교에 보내는 이메일이 — 타이핑 대신 말하고 싶었다는 이유만으로 여러분의 컴퓨터를 떠납니다. 하루 종일 받아쓰기를 하는 개인에게는 로컬 우선이 올바른 기본값이고, 계량기는 아예 돌기 시작하지 않습니다.
나란히 비교
솔직하게 펼쳐 보겠습니다. 이 표가 사실 "어느 쪽이 더 나은가"가 아니라는 점에 주목하세요. "여러분이 어느 범주에 있는가"입니다.
| 기능 | Google Speech-to-Text | Whisper (우리 앱 속) |
|---|---|---|
| 제품 유형 | 클라우드 개발자 API | 데스크톱 받아쓰기 앱 |
| 사용 방식 | 직접 작성한 코드에서 호출 | 단축키를 누르고 말하기 |
| 오디오가 가는 곳 | Google 서버로 | 컴퓨터에 머무름 (로컬 모드) |
| 비용 모델 | 사용량 기반 클라우드 과금, 분 단위 | 무료 로컬 티어, 단일 앱, 가격 페이지 참조 |
| 오프라인 작동 | 아니오 | 예 (로컬 모델) |
| 대상 사용자 | 앱이나 서버에 전사를 넣는 개발자 | 어떤 앱에든 받아쓰기를 하는 사람 |
| 설정 | 클라우드 프로젝트, 자격 증명, 코드 | 설치, 로그인, 모델 선택 |
그 표에 구체적인 Google 숫자를 일부러 넣지 않았습니다. 중요한 건 모양입니다. 서버 대 컴퓨터, 코드 대 단축키, 계량기 대 무료. 이 행들이 여러분을 API로 가리킨다면 좋습니다. 다음 섹션을 계속 읽으세요. 앱으로 가리킨다면, 다운로드 버튼은 맨 아래에 있습니다.
Google Speech-to-Text가 맞는 도구일 때
몇 가지 분명한 경우에는 우리 앱이 아니라 Google API에 손을 뻗겠습니다. 이건 AI가 쓴 글이 건너뛰는 섹션이라, 여기 솔직하게 적습니다.
제품에 받아쓰기를 하는 게 아니라, 제품을 만들고 있다
백엔드에 전사를 연결하는 엔지니어라면(콜센터 분석 파이프라인, 자동 자막 기능, 여러분 소프트웨어용 음성 인터페이스 등), API가 필요하고 Google의 것은 성숙한 API입니다. 우리 데스크톱 앱은 여러분의 서버에서 호출할 수 없습니다. 엔드포인트도, SDK도, 여러분 코드가 텍스트를 요청할 방법도 없습니다. 이건 의도된 설계입니다. 프로그램을 위한 서비스가 아니라 사람을 위한 앱이니까요.
긴 녹음을 대규모로 일괄 처리해야 한다
한 번의 비동기 작업으로 8시간 분량의 오디오 — 바로 이것이 Google의 비동기 인식이 만들어진 목적입니다. 밤새 처리할 녹음 통화가 만 건 있다면, 한 번에 모델 하나를 돌리는 노트북이 아니라 다른 사람의 서버에서 확장되는 서비스가 필요합니다.
직접 작성한 코드 안에서 실시간 스트리밍이 필요하다
여러분의 애플리케이션이 누군가 말하는 동안 중간 결과를 표시해야 한다면(직접 만드는 화상 통화의 실시간 자막 등), 스트리밍 인식이 바로 그를 위한 API 영역입니다. 우리 앱은 키를 뗀 뒤 완성된 텍스트 덩어리를 붙여 넣는데, 이는 실시간 자막 기능에는 잘못된 동작이고 받아쓰기에는 맞는 동작입니다.
프로그램적 제어와 감사 로그가 필요하다
요청별 할당량, 서버 측 과금, 누가 무엇을 전사했는지에 대한 중앙 기록 — 관리형 클라우드 API는 규제 대상이거나 대규모인 배포에 필요한 운영 골조를 제공합니다. 데스크톱 앱은 그것을 개인의 컴퓨터에 두는데, 정반대의 맞바꿈입니다.
이 중 하나라도 여러분에 해당한다면, 이 탭을 닫고 Google 문서를 여세요. 우리는 서버 측 일을 하지 않습니다. 겸손을 떠는 게 아니라, 그냥 다른 제품입니다.
우리 앱 속 Whisper가 맞는 도구일 때
반대편입니다. 여러분은 소프트웨어를 만드는 게 아닙니다. 타이핑을 그만두려는 것뿐입니다.
이메일, 노트, 메시지, 코드 주석을 받아쓰고, 이미 사용 중인 앱이 무엇이든 거기에 나타나기를 원합니다. 오디오가 누구의 서버로도 가지 않기를 바랍니다. 생각하는 동안 분당 계량기가 돌아가는 걸 원치 않습니다. 시작이 무료이기를 원하고, 사용하려고 코드 한 줄 쓰고 싶지 않습니다.
속도와 영어를 원한다면 Parakeet를 고르고, 번역이나 덜 흔한 언어, 더 세밀한 제어가 필요하다면 다국어 Whisper 모델을 고르세요. 로컬 파이프라인은 비용이 들지 않습니다. 클라우드 티어(여러분 자신의 키로 쓰는 OpenAI 전사)는 선택 사항이며 가격은 가격 페이지에 안내되어 있습니다.
이 질문의 오프라인, 로컬, 무료 측면에 대해서는 더 폭넓은 맞바꿈을 로컬 대 클라우드 전사에 정리해 두었습니다. 그리고 우리가 함께 제공하는 두 로컬 엔진 사이에서 고르는 중이라면, Whisper 대 Parakeet 글이 속도와 언어 지원 범위를 짚어 줍니다.
딱 하나만 기억한다면
Google Speech-to-Text는 엔지니어를 위한 API이고, 우리 앱 속 Whisper는 사람을 위한 받아쓰기입니다. 어느 쪽이 "더 나은가"를 묻는 건 자동차 엔진이 자동차보다 나은지 묻는 것과 같습니다. 그것을 만들고 있느냐, 운전하고 있느냐에 전적으로 달려 있습니다.
여러분의 일에 맞는 쪽을 고르세요
여러분의 일이 이미 쓰는 앱에 비공개로, 오프라인으로, 무료로 시작해 받아쓰는 것이라면, Whisper를 설치하고 키를 누르세요. 여러분의 일이 소프트웨어에 전사를 넣는 것이라면, Google 문서가 어디 있는지는 이미 알고 계시겠죠.
로컬 전사는 영원히 무료입니다. 가입 시 결제 수단이 필요 없습니다. 클라우드 티어는 선택 사항이며 키 직접 지참 방식입니다.



