작성자: Denys Medvediev

비교

Speechmatics 대안: API냐, 앱이냐?

Speechmatics는 개발자가 자체 제품에 연동하는 음성 인식 API입니다. Whisper는 단축키 하나로 바로 받아쓰기를 시작할 수 있는 완성형 데스크톱 앱이고요. 카테고리도, 대상 사용자도 전혀 다른데, 검색 결과에서는 계속 같이 묶여 나옵니다.

최종 업데이트: 2026년 6월

어두운 모니터에 표시된 코드 줄들. 대안을 찾는 개발자 대상 ASR 엔진을 상징합니다

Speechmatics의 대안이 무엇인지는, 실제로 무엇을 교체하려는지에 달려 있습니다. Speechmatics는 개발자가 자체 제품에 연동하는 음성 인식 API입니다. 그게 필요하다면, 진짜 대안은 AssemblyAI, Deepgram, Google Cloud Speech-to-Text, AWS Transcribe, 그리고 OpenAI의 오픈소스 Whisper입니다. 이 키워드를 검색하는 사람의 약 80%는 코드에 붙여 넣을 API를 원하지, 설치하고 단축키를 누르는 도구를 원하지 않습니다. Whisper by Remskill은 두 번째 종류입니다. 백엔드에서 호출하는 서비스가 아니라, 직접 사용하는 데스크톱 받아쓰기 앱입니다. 시스템 전역 단축키를 누르고 말하면, 텍스트가 어떤 앱에서든 커서 위치에 입력됩니다. 오디오 시간당 과금 없이, 로컬에서요. 그러니 다음 내용을 읽기 전에, 먼저 자신이 어느 쪽인지 파악하는 게 순서입니다.

"Speechmatics 대안"을 검색하는 사람의 대부분은 개발자입니다. 약 80%는 코드에 붙여 넣을 API를 원하지, 설치해서 단축키를 누르는 도구를 원하지 않습니다. 여기서 중요한 건, Whisper by Remskill이 바로 그 두 번째 종류라는 점입니다. 백엔드에서 호출하는 서비스가 아니라, 직접 사용하는 데스크톱 받아쓰기 앱입니다.

저는 Whisper by Remskill을 만들고 있습니다. 엔터프라이즈 ASR 엔진과 경쟁한다고 포장할 생각은 없습니다. 실제로 경쟁하지 않으니까요. 카테고리도 다르고, 대상 사용자도 다릅니다. 제가 할 수 있는 건, 어떤 도구가 어떤 용도에 맞는지, 그리고 그 경계가 어디인지를 솔직하게 알려드리는 것입니다. 씁쓸한 진실은, 대부분의 "대안" 목록이 이 단계를 건너뛰어서, 개발자가 API도 없는 받아쓰기 앱을 다운로드하게 만든다는 겁니다.

Speechmatics란 무엇인가: 개발자를 위한 ASR 엔진

얕은 심도로 촬영된 다채로운 프로그래밍 코드. 개발자가 연동하는 음성 인식 엔진을 표현합니다

Speechmatics는 스스로를 "음성 AI를 구동하는 음성 API"라고 소개합니다. API를 통해 자체 제품에 연동하는 방식입니다. 1초 미만의 지연 시간으로 실시간 전사(transcription)와 배치 처리를 지원하며, 클라우드 API, 온디바이스, 온프레미스 방식으로 배포할 수 있습니다. 자체 수치에 따르면 전사 언어는 55개 이상, AI 번역 언어 쌍은 69가지입니다.

고객은 전사 기능을 더 큰 제품에 녹여 넣는 팀들입니다. 콜센터 분석, 실시간 자막, 의료·법률 전사 파이프라인, 음성 에이전트 같은 것들이죠. 이메일을 음성으로 답장하려는 개인 사용자와는 전혀 다른 이야기입니다.

요금제도 같은 맥락입니다. Speechmatics는 오디오 시간 단위로 과금하는 사용량 기반 모델입니다. 무료 티어는 월 2,400분(40시간)의 음성 인식과 동시 실시간 세션 2개를 제공하며, 카드 없이 시작할 수 있습니다. Pro는 시간당 $0.24부터 시작하고 월 최대 6,000시간까지 사용 가능합니다. Enterprise는 온프레미스 배포와 커스텀 모델을 포함한 맞춤형입니다. 이건 미터기입니다. 수천 시간의 오디오를 제품에 처리할 때는 딱 맞는 구조입니다. 하지만 장보기 목록을 받아쓸 때는 전혀 필요 없죠.

차이점: 만드는 엔진 vs 쓰는 앱

노트북 위에서 타이핑하는 손을 위에서 내려다본 모습. 완성된 앱과 날 것의 API의 차이를 대조합니다

경계선을 한 번만, 명확하게 그어 보겠습니다.

Speechmatics 같은 엔진은 개발자가 연동하는 것입니다. API로 오디오를 보내면 텍스트를 돌려받고, 버튼, UI, 저장소, 결제는 직접 만들어야 합니다. 원자재입니다.

완성된 앱은 설치하고 바로 쓰는 겁니다. Whisper by Remskill은 후자입니다. 음성 인식 API도, SDK도, 엔진도 아닙니다. 자체 제품에 내장하거나, 코드에서 호출하거나, 오디오를 프로그래밍 방식으로 파이핑할 수 없습니다. 호출할 엔드포인트도 없습니다. 시스템 전역 단축키로 구동되는 데스크톱 앱입니다.

이름 하나가 항상 혼란을 일으키니, 미리 짚고 넘어가겠습니다. "OpenAI Whisper" — 셀프호스팅해서 API로 호출할 수 있는 오픈소스 음성 모델 — 는 모든 Speechmatics 대안 목록에 등장합니다. 그건 개발자용 옵션입니다. 제가 만드는 데스크톱 앱인 Whisper by Remskill과는 다른 것입니다. 이름은 같지만, 카테고리가 다릅니다. 셀프호스팅할 모델이 필요하다면 OpenAI의 오픈소스 Whisper를 찾아보세요. 완성된 받아쓰기 도구가 필요하다면 계속 읽으세요.

API가 필요하다면, 이것들을 보세요

엔진을 찾고 있다면, 오후 시간을 낭비하지 않도록 적합한 곳으로 안내해 드리겠습니다. 개발자에게 Speechmatics를 실제로 대체할 수 있는 음성 인식 API들은 다음과 같습니다:

  • AssemblyAI배치 및 실시간을 지원하는 음성 인식 API로, 제품 팀을 위한 서비스.
  • Deepgram저지연 스트리밍 API로, 음성 에이전트에 많이 사용됨.
  • Google Cloud Speech-to-Text하이퍼스케일러 옵션으로, 광범위한 언어 지원.
  • AWS TranscribeAWS 청구서 안에 들어 있는 동일한 개념.
  • OpenAI's open-source Whisper모델을 셀프호스팅해서 직접 실행.
  • Gladia같은 영역의 신규 전사 API.

위 모두는 코드에 직접 연동하는 API와 엔진입니다. 정확도 수치나 요금을 지어내지는 않겠습니다. 지난 분기에 바뀐 요금제 페이지의 숫자를 자신 있게 인용하다가 틀리는 게 바로 대안 목록들이 틀리는 방식이니까요. 핵심은 카테고리입니다. 미터기와 엔드포인트가 필요하다면 위 중 하나가 답이고, Whisper by Remskill은 아닙니다.

Whisper가 하는 것: 단축키, 말하기, 붙여넣기

이제 다른 그룹 이야기를 해볼게요. 코드를 쓰지 않고, 그냥 타이핑 대신 말하고 싶은 분들.

Whisper by Remskill은 받아쓰기 중심입니다. 시스템 전역 단축키를 누르고 말하면, 현재 열려 있는 앱의 커서 위치에 전사 내용이 바로 입력됩니다. 업로드 단계도, 프로젝트 라이브러리도, 배울 API도 없습니다. 기본 단축키는 Windows에서 Ctrl+Space, macOS에서 Command+Option을 누르고 있는 방식입니다. 변경도 가능합니다.

커서 위치에 직접 타이핑하기 때문에, 이메일 클라이언트, 문서, 채팅창, 코드 주석 등 어디서든 작동합니다. 각 앱에 따로 연동을 만들 필요가 없습니다. 이게 핵심 차이입니다. 엔진은 당신의 코드가 호출해 주기를 기다립니다. 이 앱은 당신이 키를 누르기를 기다립니다. 아내에게 처음 시연했을 때, 저는 문자 메시지에 바로 장보기 목록을 받아썼습니다. 아내의 답장은 "좋은데, 우유를 빠뜨렸어"였습니다. 앱은 잘 됐습니다. 제 기억력이 문제였을 뿐이죠.

다국어 모델은 실시간 음성에서 90개 이상의 언어를 지원하며, 영어 외 Whisper 모델은 음성 입력을 영어로 실시간 번역할 수 있습니다. Speechmatics가 제공하는 69가지 언어 쌍 텍스트 번역 서비스와는 다릅니다. 용도가 다르고, 범위가 다르고, 솔직하게 그 점을 인정합니다.

Whisper
실제 Whisper 앱입니다. 설정과 전사 패널을 클릭해 보세요. 스크린샷이 아닌 실제 인터페이스입니다.

로컬 및 오프라인: 오디오 시간 제한도, 사용 요금도 없음

손에 쥔 황동 자물쇠. 로컬 오프라인 전사로 기기에서만 오디오가 처리됨을 상징합니다

로컬 모드에서 Whisper는 전적으로 사용자의 기기에서만 전사를 처리합니다. 오디오가 외부로 나가지 않고, 네트워크 호출도 없으며, 오디오 시간당 미터기도 없습니다. 로컬 파이프라인 전체 — 모델, 온디바이스 AI 정제, 히스토리, 커스텀 단어, 단축키 — 는 로그인한 모든 사용자에게 무료이며, 가입 시 카드가 필요 없습니다.

솔직하게 말씀드리겠습니다. Speechmatics도 무료 티어가 있습니다. 월 40시간이라는 넉넉한 용량이고, 개발자를 위한 온프레미스 및 온디바이스 배포도 제공합니다. 그러니 "무료"나 "오프라인"이 Whisper만의 마법 단어는 아닙니다. 진짜 차이는 구조입니다. Speechmatics는 개발자에게 미터링하고 연동하는 엔진을 제공합니다. Whisper는 개인 사용자에게 연동 작업 없이, 시간당 요금 없이 쓸 수 있는 완성된 앱을 제공합니다.

이 글에서 한 가지 분명한 의견을 드리겠습니다. 오디오 시간 단위 미터링은 그냥 받아쓰고 싶은 사람에게는 맞지 않는 구조입니다. 무료 40시간 이후 시간당 $0.24라는 미터기는, 제품을 통해 수천 시간을 처리하면서 사용 데이터가 필요한 경우에는 완벽히 합리적입니다. 하지만 "제품"이 책상 앞에서 이메일에 답장하는 '나 자신'일 때는 전혀 말이 안 됩니다. 말하는 동안 시계가 돌아간다는 걸 신경 써야 한다면 불편하죠. 미터링 없는 정액제 앱 가격이 그런 삶에는 더 잘 맞습니다. 받아쓴 내용을 클라우드에서 벗어나게 하고 싶다면, 그 생각은 프라이빗 온디바이스 음성 인식의 동기와 같습니다.

Speechmatics가 적합한 경우

데이터 센터의 서버 랙. API 엔진이 처리하는 대규모 엔터프라이즈 음성 파이프라인을 나타냅니다

제가 Speechmatics 기반으로 제품을 만들고 있다면, 바꾸지 않을 겁니다. 콜센터 분석 대시보드, 실시간 자막, 의료·법률 전사 파이프라인, 음성 에이전트 등 자체 애플리케이션에 대규모로 전사 기능을 넣어야 한다면, Speechmatics 또는 다른 실제 API 대안이 정답이고, Whisper는 아닙니다. 다수의 동시 세션에 대한 엄격한 온프레미스 데이터 주권이 필요하거나 69가지 번역 쌍이 필요한 경우도 마찬가지입니다. Whisper는 그 어느 것도 해결하지 못합니다. 단일 사용자용 데스크톱 받아쓰기 앱, 그 이상도 이하도 아닙니다. 여기서 카테고리를 잘못 선택하면 환불이 아닌 재개발이라는 대가를 치르게 됩니다.

받아쓰기만 하려면 얼마나 드나요

Whisper의 로컬 받아쓰기 티어는 계정이 있는 누구에게나 무료이며, 가입 시 결제 수단이 필요 없습니다. 사용 시계가 없습니다. Speechmatics가 Pro를 시간당 $0.24부터 과금하는 방식으로 청구하지 않습니다. 클라우드 전사 및 웹 검색에 사용자 본인의 OpenAI 키를 활용하는 선택적 Cloud 기능은, 분당 과금 미터기가 아닌 정액 앱 가격으로 제공됩니다. 현재 금액은 요금 페이지에서 확인하세요. 기억할 핵심은 구조입니다. 엔진의 미터기가 아닌, 앱의 정액 요금.

타이핑 대신 말하고 싶으신가요?

연동할 엔진을 찾아 오셨다면, 진짜 API를 골라 가세요. 코드가 고마워할 겁니다. 타이핑이 지겨워서 그냥 말하고 싶어 오셨다면, Whisper가 바로 그 좁은 용도를 위해 만들어졌습니다. 다운로드하고, 단축키를 누르고, 이미 쓰고 있던 곳에 바로 텍스트가 나타나는 걸 확인하세요. 유행어가 아닌 카테고리를 선택하세요.

로컬 받아쓰기는 영원히 무료입니다. 가입 시 결제 수단 불필요. 7일 Cloud 체험은 업그레이드 시에만 카드가 필요합니다.

Denys Medvediev 사진

Denys Medvediev

지원 이메일을 읽는 건 저입니다. 답장은 아마 받아쓰기로 하고 있을 거예요.

더 읽어보기