Denys Medvediev

ガイド

会議文字起こし ソフトウェア

同じ検索ワードでも、用途はまったく異なります。あるツールはボットを会議に参加させて共有メモを作成します。あるツールは手元の録音ファイルをオフラインで、自分のパソコン上で処理します。自分に本当に必要なのはどちらか、見極め方を説明します。

最終更新:2026年6月

マイクとモニターが並ぶ空の会議室テーブル。ソフトウェアが文字起こしする会議の設定

会議文字起こしソフトウェアは、通話中の会話を検索可能なテキストに変換します。動作方法は2つあります。リアルタイム文字起こしは、話者が話すと同時にトランスクリプトが表示されます。会議後の文字起こしは、録音を後で処理し、よりきれいな話者ラベル付きのタイムスタンプ付きノートを生成します。多くのツールはカレンダー連携と会議ボットを通じて通話に自動参加しますが、一部のツールは手元の録音からボットなしで動作します。

チームが会議の文字起こしで5桁の請求額を積み上げるのを初めて目にしたとき、その会議にはすでにメモがありました。社内AI音声入力のプロトタイプを請負業者が構築していて、毎回の発話ごとにクラウドAPIを呼び出し、同じスタンドアップの録音を4回も文字起こしするほど積極的なリトライロジックを実装していたのです。マネージャーが四半期末にコストダッシュボードを開いたとき、部屋が静まり返りました。

このカテゴリの地味な真実はこうです。間違ったツールを選ぶと、お金、プライバシー、あるいは時間のいずれかで代償を払う羽目になります。たいていは誰も気づく前に。

それがこの記事の要点です。チームは10年前からミーティングの自動ノート作成を求めてきており、ツールはようやくその仕事をこなせるようになりました。ただし、同じ検索ワードの下で全く異なる仕事をしているのが落とし穴です。あるツールはビデオ通話にボットとして参加し、全員のための共有メモを作成します。あるツールは事後に録音を処理し、オフラインで、自分のパソコン上で動きます。

以下では両方の方法を順番に説明し、知っておくべきツールを紹介しながら、自社アプリが対応していない用途について正直にお伝えします。会議ボット機能はありません。サポートメールを読む立場として言えば、このカテゴリにおける混乱のほとんどは、最初に間違った種類のツールを選んでしまうことから来ています。件名だけで内容がわかるくらい、同じメールに何度も答えてきました。

会議文字起こしソフトウェアとは何か(2つの仕組み)

マーケティング用語を取り除けば、ここで紹介するすべてのツールがやっていることは一つです。音声を受け取り、テキストを生成する。音声は会議での人間の発話で、テキストはトランスクリプトです。要約、アクションアイテム、話者ラベル、検索など、残りの機能はすべてその変換の上に成り立っています。

カテゴリの分かれ目は、変換がいつ行われるかです。

  • リアルタイム文字起こし は、人々が話している間に動作します。話者から1〜2秒遅れで言葉が画面に現れます。ZoomやMicrosoft Teamsのライブキャプション、通話中にリアルタイムでトランスクリプトを表示するノートボットが提供するものです。その場での確認、アクセシビリティ、聞き漏らした名前の確認に役立ちます。
  • 会議後の文字起こし は、通話終了後の録音を処理します。ツールはファイル全体を持っているので、時間をかけて処理できます。言い直しを整理し、誰が何を言ったかをラベル付けし、タイムスタンプを追加して読みやすいドキュメントにまとめます。会議後の処理は、ライブ版よりもきれいな、話者ラベル付きのタイムスタンプ付きテキストを生成します。欠点は待ち時間が生じることです。

よく知られているツールの多く(Otter、Fireflies、Fathom、tl;dv)は両方に対応しており、音声の取得方法は共通です。ボットが通話に参加するのです。GoogleまたはOutlookカレンダーを連携すると、ツールがビデオリンク付きの会議を検知し、参加者として部屋に入って聴き取りと録音を行います。Zoomのグリッドに表示されるあの小さな録音タイルが、このモデル全体を一枚の画面に凝縮しています。

検索ワードの陰に隠れた静かな第3の方法があります。すでに手元にある録音を、ボットも通話もなしに、自分のマシン上で文字起こしするというものです。これは会議ノートテイカーではなく、音声入力・文字起こしソフトウェアの領域であり、私たちのアプリが属するカテゴリです。詳しくは後述します。それが適さない場合についても正直にお伝えします。

会議ボットが正解なとき(そしてWhisperが対応していないとき)

ノートテイカー · 週次同期録音中
通話中
Maria(ホスト)
Tom
Priya
ノートテイカーボット
ライブトランスクリプト

Maria 10:02 では、ローンチ日から始めましょう。

Tom 10:02 1週間ずれると思います。

自動参加:カレンダー連携済み · 通話後に要約とアクションアイテムを生成
会議ボット型ノートテイカー:カレンダーから自動参加し、参加者リストに表示され、全員のためにリアルタイムの共有トランスクリプトを作成します。Whisperはこれを行いません。

「Zoom、Teams、またはGoogle Meetの通話に何かが参加して、全員を録音し、チーム全体に共有メモを渡してほしい」という場合は、会議ボットが必要です。Whisperはこれを行いません。通話に自動参加せず、他の参加者を録音せず、ビデオ会議全体の複数話者ダイアライゼーションも実行しません。そう偽ることは、あなたの午後を無駄にするだけです。

その用途には、ボット型ノートテイカーが正解です。Otter.aiはZoom、Microsoft Teams、Google Meetに参加して自動でメモを作成・共有でき、無料のBasicプランでモデルをお試しいただけます。Fireflies.aiは招待または自動参加でカレンダーの会議に参加し、無料プランでは無制限の文字起こし(AIサマリーは制限あり)が利用できます。tl;dvはGoogle Meet、Zoom、Teamsを録音し、ボット不要のキャプチャモードを提供し、時間制限なしの無料永久プランがあります。Fathomは無制限の録音ができる無料永久プランを持ち、ボット不要(ベータ)またはボットキャプチャを選択できます。

ここは記事の中で意図的に他へ誘導する部分です。Otterは会議のためのツールです。Whisperは文章を書くためのツールです。異なるカテゴリであり、間違った方に課金することがこの領域で最もよくある失敗です。録音された通話での複数話者ダイアライゼーション、カレンダー自動参加、会議終了と同時にチャンネルへの要約共有が必要なら、会議ボットが対応できる仕事を私たちのアプリはそもそも想定して作られていません。私たちは声で書くことを速くします。彼らは部屋を自動でキャプチャします。まずカテゴリを選び、それからツールを選んでください。

AI会議文字起こしの精度は実際どのくらいか

正直な答えはこうです。クリーンな音声では期待以上、実際の会議では期待より低い。このカテゴリはクリアな単言語音声で85〜95%の精度に達しますが、背景ノイズ、アクセント、専門用語、話者が重なると下がります。人による確認サービスは99%近くに戻せます。モデルが見逃したものを人が修正するからです。

私たちのローカルモードは通常95〜99%の精度を報告しており、大きいモデルほど高い精度が出ます。ただし注意が必要です。これは私たちのソフトウェアでの測定であり、OtterやFirefliesとの独立した比較ではありません。そうした比較を作り上げるつもりもありません。音声条件を明示せずに会議文字起こしの精度を一つの数字で示す人は、測定しているのではなく売り込んでいます。

誰もマーケティングしない部分があります。アップセルの余地がないからです。マイクはモデルよりも重要です。2,000円のUSBマイクは、小さいモデルから大きいモデルへの切り替えよりもトランスクリプトの質を高めます。私が見てきた悪いトランスクリプトのほとんどはモデルの失敗ではありませんでした。エアコンを拾うラップトップのマイク、一つのスピーカーフォンを4人で共有、文の冒頭を切り落とすBluetoothヘッドセットが原因でした。まず音声環境を整えてください。AIはやかんの音を消せません。

精度に影響するもう2つの要素があります。一つは誰の発言がどこで終わり次の人が始まるかをツールがどう判断するかで、話者が重なると難しくなります(家族の夕食での会話を文字起こしすると400語の一続きになりそうな理由です)。もう一つはカスタム語彙のサポートです。製品名、人名、略語など、一般的なモデルが学習していない言葉を登録する機能です。WhisperはローカルのWhisperエンジンでカスタム語彙とホットワードの優先設定ができますし、多くの会議ボットも同様の機能を持っています。通話が専門用語だらけなら、この一つの設定がモデルのアップグレードよりも価値があります。

ボット不要・オフライン:手元にある録音を文字起こしする

検索ワードではあまり触れられないこの方法が、私たちのアプリが作られた用途です。ソフトウェアが会議に参加する必要は必ずしもありません。一対一の音声メモ、インタビュー、ウェビナーのエクスポート、同僚から送られてきたクリップなど、すでに録音があって、ボットを誰かの通話に入れることなく、自分のマシン上できれいなテキストが欲しいということがあります。

Whisperのようなディクテーションおよびトランスクリプションソフトウェアはここで活きます。特にプライバシー面で。ローカルモードではすべてラップトップ上で動作します。音声がデバイスの外に出ることはありません。サーバーも介さず、ベンダーのログもなく、クラウドのコストメーターも動きません。上司の給与の話、法的録音、HR関連の会話——それらが文字起こしのためだけに第三者のストレージに保存されるべきではありません。ローカルファーストはここでは機能の一つではなく、存在意義そのものです。

Whisper
ローカルで動作する本物のWhisperアプリ。これがボット不要の方法です。手元の録音ファイルを指定するだけで、自分のマシン上できれいなテキストが返ってきます。

Whisperは2つのローカルエンジンを動かします。どちらもtranscribe-rsを通じた純粋なRustで、起動を遅くするPythonサイドカーはありません。一つはOpenAIのオープンソースWhisperで、多言語ビルドでは99言語をカバーし英語への翻訳も可能です。モデルサイズはBaseの約140MBからLarge v3の約3GBまであります。英語専用ビルドはその名の通り英語のみで、やや軽量に動きます。もう一つのエンジンはNVIDIAのParakeet TDTで、約600MB。アプリ内ではCPUでWhisperの5〜10倍速いと説明されており、英語プラス24のヨーロッパ言語(計25言語)をカバーしますが、英語への翻訳はありません。主に英語で作業するなら速度重視でParakeetを。翻訳が必要な場合やParakeetが対応していない言語が必要な場合はWhisperを選んでください。

CancelTranscribing
録音を処理中のWhisperオーバーレイ。小さなフローティングウィジェットで、誰かの通話にボットは参加しません。

操作は私が一日中使っているものと同じです。ホットキーを押し続け——WindowsではCtrl+Space、Macではコマンド+オプションのプッシュトゥトークコード(両方のキーを押し続け、どちらかを離すと停止)——話すと、フォーカスされているアプリのカーソル位置にテキストが入力されます。動作中は小さなオーバーレイが状態を表示します。ライブ音声ではなく録音の場合は、ファイルを指定してトランスクリプトを取得します。特にディクテーション機能について詳しく知りたい方は、オフライン音声テキスト変換ガイドでデバイス上での完全な実行方法を説明しています。

最新のOpenAIモデルと同じツールで音声によるウェブ検索を使いたい方向けにCloudオプションもあります。OpenAIのキーを持参し、「Hey whisper」と言えばテキストをAIに通せます。ただし、手元にある録音の文字起こしにはローカルモードが答えであり、サインイン済みのすべてのユーザーに無料で提供されています。

知っておくべき他のツール

このカテゴリは混雑していて、検索結果は6〜10ツールのランキング記事が占めています。10本のレビューを読まなくて済むよう、各ツールの用途をシンプルにまとめました。以下の情報はすべて各ツールの公式ページからのものです。

  • Otter.ai定番の会議ノートテイカーです。ボットがZoom、Teams、Meetに参加し、月300分の無料Basicプランと有料のProおよびBusinessプランがあります。文字起こし対応言語は6言語:英語、スペイン語、フランス語、ドイツ語、日本語、中国語。
  • Fireflies.ai招待またはカレンダー自動参加でボットが参加します。無制限の文字起こしと制限付きAIサマリーの無料プランがあり、100言語以上対応を謳っています。
  • tl;dvMeet、Zoom、Teamsを録音し、ボット不要モードを提供。30言語以上で文字起こし可能で、時間制限なし・カード登録不要の無料永久プランがあります。
  • Fathom無制限録音の無料永久プランを持ち、ボット不要(ベータ)またはボットキャプチャを選択可能。有料のPremium、Team、Businessプランもあります。
  • NottaZoom、Teams、Meet用の会議ボットと無料プランがあります。ヘルプセンターには約58言語の記載があります。
  • ZoomおよびTeams(内蔵機能)何かを購入する前に、すでに支払っているものを確認しましょう。Zoomは対象の有料プランで46言語のAI Companionリアルタイム文字起こしと、クラウド録画の文字起こしを提供しています。Microsoft Teamsには約50言語以上のライブ文字起こし機能が組み込まれており、リアルタイム翻訳文字起こしにはTeams Premiumが必要です。

各ツールの公式ページで確認できる情報だけをまとめた表です。精度や速度の数値は載せていません。同じ音声で比較したテストは誰もしていないので、作り上げるつもりはありません。

キャプチャ方法、実行場所、オフライン対応、料金モデル、対応言語数、得意な用途で比較した会議文字起こしツール一覧。
ツールキャプチャ方法ローカル/クラウドオフライン対応料金モデル対応言語数向いている用途
Otter.aiボットが通話に参加クラウドなし無料プラン + ユーザー単位の有料プラン6定番のチームノートテイカー
Fireflies.ai招待または自動参加のボットクラウドなし無料プラン + ユーザー単位の有料プラン100+無料で充実した文字起こし
tl;dv通話を録音、ボット不要モードありクラウドなし無料永久プラン + 有料プラン30+会議グリッドにボットを入れたくない場合
Fathomボット不要(ベータ)またはボットクラウドなし無料永久プラン + 有料プラン料金ページに記載なし無制限の無料録音
Nottaボットが通話に参加クラウドなし無料プラン + 有料プラン約58言語(ヘルプセンター記載)ボットと無料プランの組み合わせ
Zoom / Teams(内蔵)通話にネイティブ対応クラウドなし対象有料プランに含まれるZoom 46、Teams 50+すでに支払っているものを活用
Whisper by Remskill通話不要。ファイルまたはディクテーションを文字起こしローカル(Cloudはオプション)あり無料のローカルプラン + Pro多言語99言語、Parakeet 25言語プライベートでボット不要のオンデバイス処理

すでに有料のZoomまたはTeamsプランを使っているなら、内蔵の文字起こし機能だけで十分かもしれません。新しいサブスクリプションを追加したり、別のボットを通話に入れたりせずに済みます。

状況別に選ぶなら

サポートメールを読んでいると、間違ったツールへの後悔をよく目にします。私ならこう選びます。

  • チームのビデオ通話から、自動で全員に共有されるメモが欲しい。 ボット型ノートテイカーを使ってください。洗練されたデフォルトが欲しければOtter、充実した無料プランが欲しければFirefliesまたはFathom、会議グリッドにボットを入れたくなければtl;dvです。
  • すでに有料のZoomまたはTeamsプランを使っている。 3つ目のツールに課金する前に、内蔵の文字起こし機能を試してみてください。
  • 録音があって、プライベートに、自分のマシン上でクリーンなテキストが欲しい。 これがボット不要のオフラインの方法です。Whisperまたは他のローカル文字起こしツールを使ってください。音声はデバイス上に留まります。
  • 通話中または通話後に、メール、ドキュメント、メモなどをカーソル位置で、どんなアプリでも声で書きたい。 それはディクテーションであり、Whisperが作られた用途です。文字起こしソフトウェアの比較でディクテーションと会議ノートの違いを詳しく説明しています。
  • 法的または法令遵守の記録として、確実にほぼ完璧なトランスクリプトが必要。 人による確認サービスを使ってください。AIだけでは実際の音声で99%を超えられません。

避けるべき失敗は、ディクテーションをするために会議ボットに課金すること、またはディクテーションツールに通話への参加を期待することです。別のカテゴリです。用途に合う方を選んでください。私はソフトウェアを15年作ってきましたが、昨年も間違ったツールを買いました。正解を一発で選んだ側からの説教ではありません。

料金、ストレートに

ここで紹介するほとんどのツールには、カード情報を入力する前に試せる無料プランがあります。Otter、Fireflies、tl;dv、Fathomはすべて無料プランを提供しており、より多くの分数、席数、無制限のストレージが必要になったときに有料プランがあります。ボット型ノートテイカーは通常ユーザー単位で月額課金されるため、チーム全体だとすぐに積み上がります。

Whisperはサインインしたすべてのユーザーに、ローカルパイプライン全体——両エンジン、Ollamaによる AI強化、履歴、プリセット、カスタム語彙、ホットキー、すべてを含む——を無料で提供しており、登録時に支払い情報の入力は不要です。有料プランはOpenAIのモデルと音声ウェブ検索を使いたい方向けにCloudサーフェスを追加します。月額、年額、永久ライセンス、チーム席数の正確な金額は料金ページに掲載しています。文脈なしで価格を伝えるより、まず無料で試して自分で判断してほしいと思っています。

ブランドより先に、ツールの種類を選んでください。ボットが通話に参加すべきなら、ノートテイカーを使いましょう。ラップトップの録音をプライベートなテキストにしたいなら、オフラインのものを使いましょう。あるチームが積み上げた5桁の請求額は、自分たちが何の仕事に課金しているかを一度も問わなかった結果でした。そしてその会議は、誰もトランスクリプトを必要としていませんでした。

手元の録音でボット不要の方法を試してみる

Whisperをダウンロードして録音ファイルを指定するだけで、クリーンなテキストが返ってきます。自分のマシン上で、誰かの通話にボットは参加しません。

サインイン済みのすべてのユーザーにローカルパイプライン全体を無料で提供。登録時に支払い情報の入力は不要です。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読んでいるのは私です。返信もたいてい音声入力で書いています。

参考資料