比較
文字起こしソフトの最適解 2026年版
2026年のベストな文字起こしソフトは、用途によって決まります。唯一の勝者などいません。会議メモなら Otter、法廷レベルの精度なら Rev のような人手によるサービス、多言語の音声なら Sonix、そしてどこにでもテキストを貼り付けられる手元の音声入力なら Whisper by Remskill のようなローカルツール。まずは用途にツールを合わせましょう。
2026年6月3日にレビュー。各ベンダーの最新の価格ページと仕様ページに照らして確認済みです。

2026年に「これ一択」と言える文字起こしソフトは存在しません。各ツールがやっていることがそもそも違うからです。用途で選びましょう。会議メモと話者ラベルなら Otter、重要な録音で人による確認込みの精度が欲しいなら Rev、文字起こしを使って音声や動画を編集するなら Descript、多言語ファイルなら Sonix、そしてどんなアプリにもオフラインで直接テキストを口述入力したいなら Whisper by Remskill のようなローカルツール。用途を一文で言えれば、ツールはおのずと決まります。
4月のこと、友人から「どの文字起こしアプリを買えばいい?」とメッセージが来ました。彼はタブを12個開き、まとめ記事を4本読み、始めたときより混乱して終わったそうです。どのリストも違うツールを「ベスト」と呼んでいたのです。あるリストは月額制の動画エディタを1位に据え、別のリストは分単位で課金する人手のサービスを無料のオフラインモデルの隣に並べ、まるで競合しているかのように見せていました。彼はただ、録音したインタビューを午後を丸ごと潰さずにきれいなテキストにしたかっただけ。なのに読み終わるころには、結局その午後を潰していました。
このカテゴリ全体の問題はそこにあります。「ベストな文字起こしソフトは?」という問いそのものが間違っているのです。各ツールがやっていることが、ほとんど別物だからです。
録音ファイルを文字起こしするものもあれば、会議をライブで字幕にするものもあります。ポッドキャストをその文字起こしを編集することで編集できるものもあります。そして私が作っているものは、あなたが話し終えた瞬間、カーソルがあるアプリにそのまま言葉をタイプします。友人をタブ12個の沼に沈めた原因は、「文字起こし」が少なくとも4つの異なる用途をひとまとめにしていて、ランク付けの前にそれらを分ける人がほとんどいないことです。
このガイドではそれを分けます。各主要ツールを自社の価格ページと仕様ページに照らしてどう確認したか、本当の違いは何か、そしてどの場面でどれを私なら選ぶか——答えが私たちではない場合も含めて——を順に見ていきます。1年間サポート受信箱を読んできて言えるのは、届くメールの多くは間違ったブランドを買った人ではなく、間違ったカテゴリのツールを買った人からだということです。
短い答え——あなたが何をしたいかで決まる
このカテゴリに単独の勝者はいません。何を文字起こししたいのかを聞かずに1つを王座に据えるリストは、字数稼ぎです。だからここに、用途別の正直な地図を示します。
- 会議メモ — 会議を録音して、あとからメモ・話者ラベル・要約が欲しい? それなら会議向けツールです。ここでの定番は Otter.ai。ライブ文字起こし、名前による話者識別、そして Google Meet 向けのライブ字幕に対応しています。
- 重要な場面の精度 — 法的な証言録取や医療記録でほぼ完璧な精度が必要で、確認のために人にお金を払う気があるなら、人を介在させるサービスが向いています。Rev はまさにそのために「99%の精度を誇る専門家による人手の文字起こし」を掲げています。
- コンテンツ編集 — ポッドキャストや動画を編集していて、言葉を切ることで音声を切りたい? それなら文字起こしベースのエディタです。Descript はプランを文字起こしの分数ではなくメディアの時間で計測します。なぜならそれが本質——エディタだからです。
- 多言語ファイル — 音声が多言語なら、幅広い言語カバレッジが欲しいところ。Sonix は文字起こしで54言語以上をうたっています。
- 声で書く — そしてタイピングをやめたいなら——メール、メモ、文書を、ワンタッチのホットキーでオフラインで、どんなアプリにも直接口述入力したいなら、音声入力ツールです。それが Whisper by Remskill が属するカテゴリです。用途が違う。リストも違うのです。
私がこれらを選んだ方法と、「精度」が意味するもの
手法について手短に正直に言っておきます。年号付きの「ベスト」リストはたいていこれを省くからです。私はこれらのツールを、そろえた音声サンプルとストップウォッチでラボに通したわけではありません。執筆時点の各ツールの価格ページと仕様ページを読み、自分の音声入力アプリとそのサポート受信箱を1年運用した経験に頼りました。だから今回の選定は、文書化された機能に加えて、このリストの中の1つのツールを実際に使い込んだ時間に基づいています。厳密に見せるためにこしらえた一対一のベンチマークではありません。
この記事のすべての数字は、そのツール自身の価格ページか仕様ページから引いています。記憶からでも、競合のブログからでもありません。あるツールの価格が、読み取れない JavaScript アプリの裏に隠れていた場合、その価格は引用していません。省いてあります。間違った数字は、欠けている数字より悪いからです。
どの製品も見る前に決めておいた、私が天秤にかけた4つのこと:
- 精度 — 厄介なのは、テストセットを教えてくれない限り「99%の精度」はマーケティングの一文であって、測定されたベンチマークではないということです。Rev と Sonix はどちらも99%をうたっています。それらは、各ベンダーが自社のページで、自社のサービスについて述べた自社の主張です。実際の精度は、あなたのマイク、訛り、背景ノイズ、そして何人が同時にしゃべるかで決まります。地味な真実は、どちらも99%をうたう2つのツールを切り替えるより、安物の USB マイクのほうが精度を大きく動かすということです。
- 言語カバレッジ — ここがリストの最も外しやすいところなので、ここでの言語数はツールごとに条件付きで示します。Otter は AI 文字起こしで6言語。Rev は安いプランで英語とスペイン語、上位プランで37言語以上。Sonix は54言語以上。Trint は40言語以上。オープンソースの OpenAI Whisper モデル——これらのツールのいくつかが裏で動かしているもの——は、多言語版で99言語に対応します。
- あなたの音声がどこへ行くか — クラウドツールはあなたの録音をサーバーへ送ります。ポッドキャストなら問題ありません。声に出して読み上げた給与の表計算や、機密性の高い法律相談の通話なら、あまり問題ないとは言えません。オフラインであることは、多くのリストが認める以上に重要です。
- 本当の用途——口述入力か、文字起こしか — あなたの通話に自動参加する会議ツールは、文書を直接そこに口述入力したいだけなら役に立ちません。文字起こしは録音を後からテキストに変えるもの、口述入力はあなたの生の声を話すそばからテキストに変えるもの。これらは別の用途であり、私は機能の数ではなく適合度で採点します。
- 価格モデルの「かたち」 — 正確な金額ではなく——それは変わるものなので——その「かたち」です。無料プランがあるかどうか、座席ごとのサブスクか、時間単位の従量課金か、それとも無料かつローカルか。モデルは、どんな単一の価格よりも、そのツールがあなたの習慣に合うかどうかを多く教えてくれます。
知っておく価値のあるツール、横並びで
ここに、まともなリストには必ず登場するツールを、それぞれ用途を正直に一行で添えて挙げます。価格は正確な数字ではなく「かたち」で説明します。ストアの数字は変わるもので、古い価格は誰の役にも立たないからです。支払う前に、各ツール自身のページを確認してください。
まずは10秒でざっと見るための表です。ここの各列は、ベンダーが文書化しているか、モデルカードに記載されている事柄です。精度や速度の数字はありません。私も含め、誰もこれらを一対一でベンチマークしていないからです。
| ツール | プラットフォーム | ローカルかクラウドか | オフライン動作 | 価格モデル | 言語 | 向いている用途 |
|---|---|---|---|---|---|---|
| Otter.ai | Web、モバイル | クラウド | 不可 | 無料プラン + 座席ごとのサブスク | 6 | 会議メモとライブ字幕 |
| Rev | Web | クラウド | 不可 | 無料プラン + 座席ごとのサブスク、人手サービスは別料金 | 入門プランは英語とスペイン語、上位で37言語以上 | 人による確認込みの、重要な場面の精度 |
| Descript | デスクトップ、Web | クラウド | 不可 | 無料プラン + 座席ごとのサブスク、メディア時間で計測 | 売りではない | 文字起こしを使った音声・動画の編集 |
| Sonix | Web | クラウド | 不可 | 時間単位の従量課金、または月間時間のプラン | 54以上 | 多言語ファイル |
| Trint | Web | クラウド | 不可 | サブスク(価格は JS アプリの裏にあり引用せず) | 40以上 | ジャーナリストと報道機関 |
| OpenAI Whisper(オープンソース) | クロスプラットフォーム CLI | ローカル | 可 | 無料、MIT ライセンス | 多言語版で99 | ターミナルに慣れた開発者 |
| OpenAI Speech-to-Text API | クラウド API | クラウド | 不可 | 従量課金、自分の API キー | 65 | 文字起こしを組み込む開発者 |
| Wispr Flow | Windows、macOS | クラウド | 不可 | 無料プラン + サブスク | 自動検出で100以上 | アプリをまたぐクラウド音声入力 |
| Whisper by Remskill | Windows、macOS(Apple Silicon) | ローカルまたはクラウド | 可、ローカルモードで | ローカルパイプラインは無料、Pro でクラウドを追加 | Whisper 多言語版で99、Parakeet で25 | どんなアプリでも、オフラインで声で書く |
Otter.ai: 会議の文字起こし。ライブ文字起こし、話者識別、Google Meet 字幕に対応し、無料プランは月300分まで。6言語。問題が「会議に出たのでメモが要る」なら、これが標準の選択です。
Rev: 人手 + AI の文字起こし。99%の人手精度サービスを掲げ、無料プランと、月に数千分の AI 文字起こしを含む有料プランがあります。入門プランは英語とスペイン語、上位で37言語以上。文字起こしのミスが法的な結果を招くときに頼ってください。
Descript: 文字起こしベースの音声・動画編集。プランは文字起こしの分数ではなくメディアの時間で計測され、無料プランは月1時間。文字起こしもできるエディタであって、その逆ではありません。コンテンツを制作しているなら、これが正解のツールです。
Sonix: 多言語の文字起こし。文字起こしで54言語以上、翻訳で55言語以上、SOC 2 Type II レポート、エンタープライズプランでの HIPAA 準拠をうたい、従量課金と月間時間のプランがあります。ファイルが英語でないときに強い選択です。
Trint: ジャーナリストと報道機関のために作られています。ライブを含め40言語以上で文字起こしし、話者検出とカスタム辞書を備えます。
OpenAI Whisper(オープンソース): 無料のモデルであって、製品ではありません。MIT ライセンスでコードと重みが公開され、ほとんどのモデルサイズで多くの言語の音声を英語に翻訳できます。多言語版では99言語で動作します。落とし穴は、これがコマンドラインのモデルだということ。ホットキーもオーバーレイもアプリもありません。便利さは自分で作り上げることになります。
OpenAI のホスト型 Speech-to-Text API: 同じファミリーの、有料のクラウド版です。whisper-1、gpt-4o-transcribe、gpt-4o-mini-transcribe、そして話者ラベルを加える話者分離版を提供し、1ファイルあたり25 MB のアップロード上限と65の対応言語があります。文字起こしするエンドユーザーではなく、何かを作る開発者向けです。
Wispr Flow: 音声からテキストへの口述入力で、私たちが作るものに最も近い隣人です。「タイプするな、ただ話せ」を掲げ、アプリをまたいで動作し、自動検出で100言語以上に対応します。クラウドベースです。
Whisper by Remskill: これが私たちです。カーソルのある場所、どんなアプリにでもテキストを貼り付ける口述入力で、ホットキーは1つ——Windows では Ctrl+Space、macOS では Command+Option の押しっぱなしコード(両方のキーを押し続け、どちらかを離すと停止)です。望めば完全にローカルかつオフラインで動作し、モデルは自分のマシンにダウンロードされ、何もデバイスから外へ出ません。あるいは自分の OpenAI キーを接続して、クラウド品質とウェブ検索を使えます。ローカルの文字起こしは Python なしの純粋な Rust で動き、2つのエンジンを備えます——8つの OpenAI Whisper モデルと、NVIDIA の Parakeet TDT です。Whisper の多言語モデルは99言語をカバーし、英語へ翻訳でき、Parakeet は25のヨーロッパ言語をカバーして2つのうち速いほうです。向いている用途は、自分のマシンで、どんなアプリでも、声で書くこと。
AI 文字起こし対人手の文字起こし、そしてそれぞれが価値を持つとき
ひとつの分かれ目がほとんどを決めます。AI 文字起こしは即時で安い。人手の文字起こしは遅くて高いが、AI がいまだに取りこぼすものを拾います——同時発話、強い訛り、正確でなければならないつぶやかれた名前。
用途の90%では、AI はもう十分に良く、人にお金を払うのはファクシミリを買うような気分になります。メールを口述する、ポッドキャストを録音する、講義をメモにする——いまどきの AI は、1分あたり1セントにも満たない金額で、それらすべてを数秒で処理します。
それでも人が欲しい残り10%は、たった一語の間違いが代償になるもの。法廷での証言録取。診療記録。弁護士が読む公式記録のインタビュー。だからこそ Rev はいまだに人手サービスを売り、99%の精度を掲げているのです——「AI は96%の確信を持っていました」が、許されない一文になる場面のために。
ここがまとめ記事の飛ばす部分です。AI 文字起こしそのものが、クラウドとローカルに分かれます。違いは速度ではなく、あなたの音声がどこに行き着くかです。以前一緒に働いた会社で、あるチームが社内向けのクラウド音声入力の試作を作り、全ノートPCで動かし、発話のたびに API を呼び出すのを見ました。四半期の終わりにマネージャーがクラウドコストのダッシュボードを開くと、五桁の請求が待っていました。その大半は、たった1つのチームがスタンドアップの録音を4回も文字起こししていたぶん——「賢い再試行」のロジックが攻めすぎていたのです。請負業者は「プロンプトを最適化すべきだ」と言いました。CFO は「すでにメモのある会議をクラウドで文字起こしする費用なんて払うべきじゃない」と言いました。ローカルの文字起こしは、そんな請求を積み上げませんし、あなたの録音を誰かのサーバーに置くこともありません。
Otter のほうが良い選択になるとき、そしてここのどのツールも見送るとき
正直な「Whisper を見送るべきとき」のセクション
小声の本音を言います。Otter は会議のためのもの。Whisper は書くためのもの。これらは別のカテゴリで、間違ったほうにお金を払うべきではありません。あなたの本当の問題が「50分の通話に付き合ったので、誰が何を言ったか付きのメモが要る」なら、会議向けツールを買ってください。Otter はライブ文字起こしと名前による話者識別をしますが、私たちはしません。あなたの Zoom 通話に自動参加することも、3人の話者にラベルを付けることもありません。そうでないふりをしたら、おかしな時間にサポートメールが届くだけです。
持っているのが一括処理したい録音ファイルのフォルダなら、音声入力ツールはまるごと見送ってください——それはアップロードして文字起こしする作業で、Sonix や Rev や Trint がそのために作られています。古い Intel Mac か Linux を使っているなら、ローカルの道は見送りを——私たちは Windows と Apple Silicon の Mac 向けにのみ提供しています。そして今月、短い録音を1本だけ無料で文字起こししたいだけなら、オープンソースの OpenAI Whisper モデルが MIT ライセンスのもとで無料ですが、使うにはコマンドラインに住むことになります。
Whisper by Remskill が居場所を得るのは、用途が会議の正反対のとき——あなたが話し、すでに使っているアプリの中で発話をテキストに変えるときです。それをしていないなら、上に挙げた他の8つのツールのどれかがあなたの答えで、ミスマッチを売りつけるより、私はそう伝えたい。会議に特化した場合については、私たちのOtter.ai の代替比較が、その線引きがどこにあるかをさらに深く掘り下げています。
無料プランで得られるもの
無料プランは本物ですが、あなたをアップグレードさせる大きさに設計されています。だから1つの上で習慣を築く前に、その天井を知っておきましょう。
Otter の無料の Basic プランは月300分の文字起こしを与えます。Descript の無料プランは月1時間のメディアで、動画エディタとしてはあっという間に消えます。Rev は有料プランの上に無料プランを持っています。オープンソースの OpenAI Whisper モデルは、自分のハードウェアで MIT ライセンスのもとに動くので、分数の上限なしでまったく無料です。
Whisper by Remskill は、サインインしたすべてのユーザーに、ローカルパイプライン全体が無料です——すべての Whisper モデル、Parakeet、ローカル AI のクリーンアップ、履歴、プリセット、カスタムホットキー——しかも登録時に支払い方法を求めません。有料プラン Whisper Pro は、その上にクラウド面を追加します。自分のキーによる OpenAI 品質の文字起こしと、音声によるウェブ検索です。ローカルの半分は無料で、これからもそのままです。「落とし穴はどこ?」と聞くメールが来るのを、私はずっと待っています。今のところ、正直な答えは「落とし穴はない」です。
価格、わかりやすい言葉で
ここで競合の金額を福音のように引用するつもりはありません。ストアの価格は動きますし、EUR と USD のページは思っている以上に食い違うからです。正直なまとめはこうです。会議・編集系のツール(Otter、Descript)は、無料プランを付けた月額の座席ごとサブスクを売ります。人手サービス系(Rev)は、人が作業をするぶん高くつきます。多言語クラウド系(Sonix)は、時間単位か月単位で売ります。買う日に、それぞれ自身の価格ページを確認してください。それだけが本当の数字です。
私たち自身の価格については、ローカルパイプラインは認証済みユーザーに無料で、Whisper Pro がクラウド面を追加します。正確な数字は価格ページにあり、古くなる記事ではなく、そこで最新に保たれています。音声入力ツールの比較を1つのライバルに絞りたいなら、Wispr Flow の代替が、最も近い相手を一対一で扱っています。
昨年の春、タブ12個の友人がようやく自分が何をしているかを教えてくれました——録音したインタビューを記事の下書きにする、と。たった一文で、答えがこぼれ落ちました。ファイルをクラウドの文字起こしにアップロードし、それから編集をそのまま文書に口述入力する。彼はタブを11個閉じました。ずっと欠けていたのはブランドではなくカテゴリだったのです。そして私にメールをくれる人の多くも、同じものを取り違えています。これをホームページに載せようと、ずっと思っています——下の娘に、なぜコンピューターには寝る時間がないのかを説明し終えたら、すぐに。
ホットキーで口述入力する感覚を見てみたい?
Whisper をダウンロードして、ローカルモードを無料で試し、話し終えた瞬間に言葉がどんなアプリにも着地するのを見てください。
サインインしたすべてのアカウントにローカルパイプラインが無料。登録時にカード不要。



