ガイド
AI文字起こしツールを、 やさしく解説
AI文字起こしツールとは実際のところ何なのか、音声をテキストに変える仕組みはどう動くのか、スタジオ録音でない音声を相手にしたときの本当の精度はどれくらいか。そして、どのロゴを選ぶかよりもずっと大切な「ローカルかクラウドか」という一つの決断について。
最終更新: 2026年6月

AI文字起こしツールとは、音声認識モデルを使って話し言葉を文字に変えるソフトウェアです。録音やその場の発話を聞き取り、もっとも可能性の高い言葉を予測し、文字起こし結果を出力します。同じ技術は音声テキスト変換(speech to text)や自動音声認識(automatic speech recognition)とも呼ばれ、最近のツールの多くはOpenAI Whisperファミリーのモデルを使っています。
10年前、ある親戚がWindows 98のパソコンで休暇のあいさつ状を口述しようとするのを見たことがあります。そのソフトはまず45分の「学習」を必要とし、それでも精度はせいぜい70%、文ごとに4秒の遅れがありました。1段落に15分かかり、ヘッドセットは部屋の向こうへ投げ飛ばされました。ヘッドセットは無事でしたが、実験のほうは終わりました。今では7歳の娘が90秒でおばあちゃん宛のメールを口述し、使い方のデモを一度見たあとは質問ひとつしません。この差こそがAI文字起こしの物語そのものであり、しかもほとんど誰も予想しなかった速さで縮まったのです。
宣伝ページが省いてしまう部分はここです。音声テキスト変換はかつて研究課題でしたが、2022年にオープンソースのWhisperモデルが登場すると、多くの人にとって静かに研究課題ではなくなりました。今やAI文字起こしツールとは、たいていの場面で邪魔をせずに済むくらい賢いモデルを、あなたの音声をどこへ送りその後テキストに何をするかを決めるソフトウェアで包んだもの、という意味です。この記事では、そのパイプラインがどう動くのか、ポッドキャストスタジオでない音声を相手にしたときの精度はどれくらいか、そしてどのロゴを選ぶかよりずっと大切な「ローカルかクラウドか」という一つの決断について説明します。私は届くサポートメールをすべて読んでいますが、不満を抱えている人はほぼ決まって、ツール選びではなくこの一つの決断のほうを間違えています。
AI文字起こしツールは話し言葉を文字に変える。仕事はそれだけです。
ダッシュボードや「会話型ナレッジエンジン」といったうたい文句をはぎ取れば、このカテゴリーのどのツールもやることは一つです。音声を入れて、テキストを出す。違いは、その中核を取り巻くすべて、つまりモデルがどこで動くか、文字起こし結果に何をするか、そしてそのためにいくら請求するかにあります。
製品の形は大きく三つに分かれます。会議の議事録ツールは通話に参加し、全員を録音し、要点とアクションアイテム付きの要約を吐き出します。Otterが代表例で、月300分の無料文字起こし枠があります。ファイルアップロード型サービスは音声ファイルを放り込むと、あとで文字起こしをダウンロードできます。RevやSonixがここに当たり、Revは高精度の保険として人手の文字起こし担当者も販売しています。口述ツールは背後に控え、話し終えた瞬間にカーソルのある場所へテキストを貼り付けます。最後のこれがWhisper by Remskillのやることです。グローバルなホットキーを押し、話し、文字起こしされたテキストが今いるアプリにそのまま現れます。
根っこの仕事は同じ。けれど日々の使い心地はまったく別の三つです。このカテゴリーの混乱の多くは、会議の議事録ツールと口述ツールを、まるで競合しているかのように比べてしまうところから来ています。両者は競合しません。バスと自転車が競合しないのと同じです。
AI文字起こしは実際どう動くのか(そして今もどこでつまずくのか)
仕組みは、うたい文句が思わせるよりずっとシンプルです。マイクが音を波形として捉えます。波形とは、空気の圧力の時間変化を表す数値の連なりです。モデルはその流れを短い区切りに分け、それぞれを音響的特徴の数値表現に変換し、そのうえでトークンを一つずつ予測して、その音を生んだ可能性がもっとも高い文字の並びを導きます。意味を理解しているのではなく、音声に対して統計をとっているのです。私はこのプロジェクトの最初の一週間、モデルを一度も動かさないうちにパイプラインをきれいな箱の図に描いていました。その図は二つ目のコミットの時点で間違っていました。モデルは私の図など気にもとめませんでした。
この一点こそ、AI文字起こしが今もつまずく理由です。モデルが予測するのは、もっとも確からしい言葉であって、正しい言葉ではありません。きれいな発話と明瞭な滑舌を与えれば、確からしいと正しいは同じものになります。ところが、かぶせ気味の会話、訓練でめったに見なかった強いなまり、業界の専門用語、粗悪なマイクを与えると、両者は離れていきます。正直に言えば──まさにこの検索ワードに対するAI Overviewもはっきり述べているように──これらのツールは話されてもいない言葉をでっち上げたり、話者を取り違えたり、ある言いまわしをすらすら読めて意味は正反対の文へと静かに誤って起こしたりすることがあります。
翻訳に関する小ワザを一つ知っておく価値があります。多言語版のWhisperモデルは99言語を文字起こしでき、英語以外の発話を一度の処理で英語のテキストへ翻訳できます。英語専用版、つまり.enビルドはその機能を省き英語だけを扱うので、その分だけ英語にはわずかに切れ味が増します。これらはどれも、あなたが何かを「学習」させる必要はありません。もし今も動かす前にキャリブレーション用の台本を読ませてくるツールがあれば、それは1999年の前提で動いています。
本当のところ、どれくらい正確なのか。正直な答え。

正直な答えはこうです。あなたの時間を本当に節約できるくらいには正確、けれど読まずに公開できるほどは正確でない。私たち自身が公表しているローカル文字起こしの範囲は95%から99%で、大きいモデルほど高いほうに着きます。とはいえ、たった一つの精度の数字はそれ単体ではほとんど意味がありません。大事なのはあなたの音声に対する数字、つまりあなたのなまり、あなたの部屋、あなたのマイク、あなたの語彙に対する数字だからです。
丸くて条件のない数字には疑ってかかってください。音質に一切触れずに「精度99%」と書かれた製品ページは、約束ではなく最良ケースを引用しています。Revが99%とうたうとき、その数字はAIモデルではなく人手の文字起こし担当者に紐づいています。宣伝版は、一本の曲線をたった一点の都合のいい数字に押しつぶしてしまうのです。
誰も売り込んでこない、いちばん安い精度向上策はこれです。マイクです。内蔵のノートパソコンマイクから基本的なUSBマイクに変えるだけで、小さいモデルから最大のモデルへ飛ぶよりも文字起こしへの効果は大きいのです。AIは粗悪な音声を直しません。ただ、より自信たっぷりに当て推量するだけです。私はダウンロードできる最大のモデルを二晩かけてベンチマークしてから、自分が1メートル離れたノートパソコンのヒンジに向かって話していたことに気づきました。$12のマイクのほうが、増えた2ギガバイト分よりも多くを直してくれました。3ギガバイトのモデルをダウンロードする一晩を費やす前に、ハードウェアに$20を使ってください。重要な仕事なら、文字起こしを読みましょう。Slackのメッセージなら、そのまま送りましょう。
ローカル対クラウド:あなたの音声がどこへ行くかが効いてくる
あなたの音声がどこへ行くか。これがいちばん効いてくる決断であり、精度とはまったく関係ありません。
クラウド型の文字起こしツールは、あなたの音声を企業のサーバーへ送り、そこでモデルを動かし、テキストを送り返します。ローカル型のツールは、モデルを一度だけダウンロードして、あなた自身の端末の上で動かします。あとはオフラインで動き、あなたのパソコンから何も出ていきません。Whisper by Remskillは両方をこなし、切り替えはスイッチひとつです。ローカルモードでは、音声はすべてあなたの端末の上で処理され、どのサーバーにも何も送られません。クラウドモードでは、音声はあなた自身のAPIキーを通じて、あなたのパソコンからOpenAIへまっすぐ届き、私たちが間に入ることは決してありません。
ここで旗を立てておきます。宣伝ページは言わないからです。クラウド専用の口述は、いずれ文字起こしされることになるプライバシーの大惨事です。かつて一緒に仕事をしたチームが、社内向けにクラウドAI口述の試作品を外注で作らせたことがあります。それは発話のたびにAPIを呼び出し、「スマートな再試行」のロジックが過剰すぎて、定例会議の録音を4回も起こし直していました。四半期末にコストのダッシュボードを開いたマネージャーが見つけたのは、五桁の請求でした。外注先の対処は「プロンプトを最適化します」。最高財務責任者の対処は「すでに議事録がある会議をサーバーへ送るのをやめろ」。上司の給与一覧表、子どもの学校宛のメール、いま書いている法律意見書──そのどれも、声でタイプしたかったというだけの理由でベンダーのログに居場所を持つべきではありません。あなたのノートパソコンにはすでにマイクとCPUがあります。たいていの段落には、ループの中にサーバーは要りません。理由を余すところなく知りたい方のために、こちらにまとめました。オフライン音声テキスト変換のガイド。
とはいえ、クラウドが悪者というわけではありません。トレードオフです。クラウドモードは最新のOpenAIモデル、ウェブアクセス、そしてハードウェア負荷ゼロをもたらします。ローカルはプライバシーとオフラインの信頼性をもたらします。どちらかが正しいという話ではありません。大切なのは、あとから自分の録音が他人のドライブに住んでいると気づくのではなく、意図して選ぶことです。
ほかに知っておく価値のあるツール
どのまとめ記事でも同じ名前を目にするはずで、それらははっきりしたレーンに分かれます。
| ツール | レーン | 知っておくべき一点 |
|---|---|---|
| Otter.ai | 会議の議事録 | 月300分の無料枠、要約と話者ラベル付き。名前付きの6言語に対応。 |
| Rev | ファイルアップロード+人手 | 無料のAI枠は月45分。重要な音声向けに人手の文字起こし担当者を販売。 |
| OpenAI Whisper | オープンソースのモデル | MITライセンス。ほかの多くのツールが動かしているエンジンであって、完成したアプリではない。 |
| OpenAIクラウドAPI | 開発者向けAPI | アップロード上限25 MB。gpt-4o-transcribeとwhisper-1。分単位の従量課金。 |
| Notta, Sonix, Fireflies, Descript, Riverside | 混在 | 会議用・編集用が中心。最新の制限は各ツールの公式ページで確認を。 |
最後の行についての注意です。この5つはそれぞれ独自の料金や対応言語の詳細を持ち、しかも頻繁に変わるので、今日それぞれの公式ページで確かめていない数字は引用しません。とはいえパターンは変わりません。これらの多くは会議用か編集用のツールで、その多くがブランド名の下でWhisperファミリーのモデルを動かしています。
Whisper by Remskillは、それらすべてとは別のレーンにいます。会議の議事録ツールではなく、口述ツールです。私たちは自分たちが動かしているオープンソースのモデルにちなんで名づけました。クラウド専用の口述アプリを比べたことがあるなら、私たちのOtter.ai代替の徹底比較と、より広く扱った文字起こしソフトウェアガイドが、各レーンをより詳しく解説しています。
AI文字起こしツールをまるごと使わないほうがいいとき

ときには、正しいツールは「ツールを使わないこと」です。音声が重要度が高く法的拘束力を持つもの(法廷での証言録取、診療記録、規制対象の届出)なら、人にお金を払いましょう。Revの人手サービスが存在するのは、まさに契約書で5%の誤り率は誤字ではなく訴訟になるからです。そして、必要なのが30語の短い返信だけなら、スマートフォンやMacにすでに組み込まれている口述機能は無料で十分です。何もダウンロードしないでください。AI文字起こしが真価を発揮するのは中間の帯です。短い返信より長く、証言録取よりは重要度が低く、ホットキーに値するくらいの頻度がある。その帯の外では、人に頼むか、すでに端末にある無料の機能に手を伸ばしましょう。
費用はいくらか
このカテゴリーの料金は無料から本当に高価なものまで幅があり、その幅が各ツールの売り物を教えてくれます。無料枠は本物ですが上限つきです。Otterは無料プランを月300分に、Revの無料AI枠は月45分に制限し、オープンソースのWhisperモデルは自分で動かす手間をいとわなければ永久に無料です。クラウドAPIは分単位で課金され、暴走した再試行ループが四半期を五桁の請求書に変えるまでは問題ありません。Whisper by Remskillは、アカウントさえあればローカルのパイプライン全体が無料で、開始時に支払い方法は不要です。クラウド機能はWhisper Proの内側にあります。正確な数字、プラン、Proに含まれるものは、こちらの料金ページにあります。ブログ記事に私が打ち込んだ数字を信じるより、生きた数字を確かめてほしいのです。
あなたがこれを読み終えるころには、私の娘はメールを3通口述し、月がときどき見えないのはなぜかを2回たずねていたでしょう。もう技術が難所ではありません。残された唯一の本当の選択は、あなたの言葉が自分の端末にとどまるのか、それとも他人の端末へ旅に出るのか──そしてそれは、録音を押したあとではなく、押す前に決めておく価値のある選択です。
声をどこにも送らずに試してみませんか?
Whisperをダウンロードし、ローカルモードを選び、ホットキーを押し続け、今使っているアプリに文字起こしが現れるのを見てください。あなたの端末から何も出ていきません。
サインインしたすべてのユーザーにローカル文字起こしが無料。Proは別のトライアルでクラウド機能を追加します。



