Denys Medvediev

ガイド

インタビューを文字起こしする 方法

インタビューを自動で文字起こしするには、録音ファイルを音声認識ツールに通します。プライバシーを守りたいなら、BuzzやOpenAI Whisperのような無料オープンソースツールを自分のパソコンで使う方法があります。話者ラベルや使いやすい編集機能が必要なら、クラウド文字起こしサービスが便利です。無料でプライベートに使いたいならローカル、話者分離が必要ならクラウドを選んでください。

最終更新:2026年6月

マイクとオーディオミキサーが置かれたポッドキャストスタジオのデスク。会話の収録に使われている

インタビューを自動で文字起こしするには、録音ファイルを音声認識ツールに通します。プライバシーを守りたいなら、BuzzやOpenAI Whisperのような無料オープンソースツールを自分のパソコンで使う方法があります。話者ラベルや使いやすい編集機能が必要なら、クラウド文字起こしサービスが便利です。無料でプライベートに使いたいならローカル、話者分離が必要ならクラウドを選んでください。

最初に少し言いにくいことをお伝えします。その方が10分の節約になるので。このブログを運営しているWhisper by Remskillは、インタビュー録音の文字起こしには対応していません。これはライブ口述筆記ツールです。ホットキーを押しながら話すと、開いているどのアプリのカーソル位置にも言葉が入力されます。これは、1時間の二人の会話を録音データとして取り込み、話者ラベル付きの文字起こしを得るという作業とは根本的に異なります。このガイドでは、インタビューの文字起こしに実際に使えるツールを紹介します。正直に、本当に合ったツールを紹介したいと思っています。

インタビューの文字起こしが難しい理由は一つ、「話者」の問題です。普通の文字起こしツールは、ただテキストを出力するだけです。多くの場合、欲しいのは「インタビュアー:」「回答者:」といった話者ラベルのある文章のはず。これを「話者分離(ダイアリゼーション)」と呼びますが、すべてのツールが対応しているわけではありません。ツール選びの核心は、ローカル処理かクラウドかです。ローカルツールはパソコン上で動き、無料で、音声データが外部に出ることはありません。クラウドサービスはファイルをアップロードする必要がありますが、話者ラベルや編集機能を備えていることが多いです。以下では、その全体像を整理してから、私たちのツールがどこに当てはまり、どこに当てはまらないかを正直にお伝えします。

無料でプライベートに使うならパソコン上で処理する

インタビューが機密性の高い内容の場合(保護が必要な情報源、患者、社内の幹部など)、録音データはパソコンの外に出すべきではありません。無料のオープンソースツールは、すべてデバイス上だけで文字起こしを行います。

OpenAI の Whisper は、これらのツールの多くが基盤としているモデルです。MITライセンスで公開されており、pip コマンド一つでインストールでき、コマンドラインから音声ファイルを文字起こしできます。6種類のサイズがあり、そのうち4つは英語専用バリアントも用意されています。ハードウェアに応じて速度と精度のバランスを選べます。多言語対応で、文字起こしと同時に音声を英語に翻訳することも可能です。ただし、インタビューに使う上での注意点があります。基本的なWhisperは言葉を書き起こしますが、誰が発言したかはラベル付けしません。話者分離を行うには、追加のツールを組み合わせるか、それを組み込んだクラウドサービスを利用する必要があります。

コマンドラインが苦手な方には、Buzzが手軽な選択肢です。Whisperを搭載したグラフィカルなアプリで、オフラインで音声の文字起こしや翻訳ができます。MITライセンスで、macOS、Windows、Linuxに対応しています。録音ファイルをドラッグ&ドロップして、モデルを選んで待つだけ。無料でインタビューを文字起こししたい方には、これが最短ルートです。

もう2つ知っておく価値があるツールがあります。whisper.cpp は C/C++ で書かれた Whisper の移植版で、CPUのみで動作し、Apple Silicon 向けに高度に最適化されています。高速でPythonも不要ですが、自分でビルドしてコマンドラインから操作する必要があります。MacWhisper は、デバイス上のWhisperとNVIDIAのParakeetを組み合わせたMacアプリで、ファイルの文字起こしを中心機能としており、まさにインタビュー向けです。これらはすべて音声データをパソコン上に保持します。ただし、どれも単体ではきれいな話者ラベルは出力しません。

クラウドサービスは話者ラベルと編集機能を提供する

ここで、プライバシーをどこまで重視するかの選択をする必要があります。専用の文字起こしサービスは録音データをサーバーにアップロードして処理し、通常は話者名が付いた文字起こし結果を返してくれます。名前の修正やエクスポートができる編集画面も備えています。これは確かに便利であり、公開ポッドキャストや共有しても問題ないパネルディスカッションには向いています。

複数話者のラベル、タイムスタンプ、使いやすい編集画面が必要なら、口述筆記アプリではなく、会議・録音向けの文字起こしサービスを探した方がいいでしょう。その分野については、Otter.aiの代替サービスRevの代替サービスの記事でまとめています。どちらも、話者分離と編集機能を備えたクラウドツールをカバーしています。

ここで一つ意見を述べます。実体験があるので。かつて一緒に仕事したチームで、社内の口述筆記プロトタイプを外部委託で開発したことがありました。発話のたびにクラウドAIを呼び出す設計でした。四半期末にマネージャーがコストダッシュボードを開いたところ、5桁の金額が並んでいました。その大半は、リトライロジックが過剰だったせいで、スタンドアップの録音を4回も再文字起こしした分でした。CFOの返答は短かった。「メモが既にある会議のアップロードにお金を払うのをやめればいいのでは」と。お金の問題は、実はまだ小さい方でした。それより大きな問題は、社内通話の4分の1がベンダーのサーバーに保存されたことです。話者ラベルと編集が必要な場合には、クラウド文字起こしは確かに正解です。しかし、社外に出したくない録音には不向きです。マーケティングの宣伝文句ではなく、その軸で選んでください。

一言で選ぶ方法

このページにたどり着く人は大きく3タイプです。プライバシーを気にする人、締め切りに追われている人、深く考えずに話者名だけ欲しい人。そのうち2タイプはローカルツールを選ぶべきです。

  • 無料でプライベートに使いたいBuzz(最も手軽)か、自分のパソコンでWhisperを使う方法。音声データは外部に出ません。
  • 話者ラベルと使いやすい編集画面が必要クラウド文字起こしサービスを使う。音声データはアップロードされます。それが取引です。
  • Macユーザーで、ファイル優先のアプリが欲しいMacWhisper、デバイス上で処理。

迷ったときの判断基準はシンプルです。録音が機密性の高い内容なら、答えはローカル一択。公開向けの内容で話者分離を手軽に得たいなら、クラウドに価値があります。インタビューの文字起こしの大半は前者なので、まず無料のローカルツールを紹介しました。処理速度を優先したい場合は、音声を高速に文字起こしするガイドで速度の調整方法を解説しています。

Whisper by Remskillが実際に役立つ場面

Pasted
口述筆記後に表示されるオーバーレイ。完全ローカルで動作するライブ口述筆記が終わった瞬間の画面です。「録音をアップロード」するボタンはここにはありません。

ここで明確な線引きをします。この記事の最悪の結果は、録音データを処理できると思って私たちのアプリをダウンロードしてしまうことだからです。それはできません。Whisper by Remskillは口述筆記ファースト。ホットキーを押すと、今話している言葉がリアルタイムで文字起こしされ、使っているどのアプリのカーソル位置にも貼り付けられます。「インタビューファイルをアップロード」するボタンはなく、話者分離機能もありません。このツールは、あなた一人の声を、今この瞬間に処理するために作られているからです。

では、インタビュアーはどこで使えるのか?インタビューの周辺作業です。インタビュー前に質問リストをドキュメントに口述する。会話が終わったその瞬間に、印象が新鮮なうちにフォローアップのメモを声で書き残す。文字起こしが完成したら、原稿を声でドラフトする。Windowsのデフォルトホットキーは Ctrl+Space で、自由にカスタマイズできます。ローカル処理のすべての機能は、サインインしているすべてのユーザーが無料で使えます。クレジットカードの登録は不要です。クラウドティアにアップグレードすると、OpenAIを使ったクラウド文字起こしやライブ口述中のウェブ検索機能が追加されますが、それもあくまで声でタイピングするためのもの。二人の録音を文字起こしするものではありません。

Whisper
これが実際のデスクトップアプリです。サイドバー、文字起こしパネル、AIインストラクションカード。スクリーンショットではありません。

インタビューに関する文章作業には私たちのアプリを使ってください。インタビュー本体の文字起こしには、Buzzかクラウドサービスを使ってください。道具が違えば、仕事も違います。何かをインストールする前に、そのことを知っておいてほしいと思っています。

最後に一言

文字起こしする価値のあるインタビュー録音ほど、アップロードしたくないものです。オフレコの話、信頼してくれた情報源、患者との会話。だからこそ無料のローカルツールに意味があります。ファイルはパソコンの中だけにある。私自身、一度は週末をかけてモデル設定を調整し、くぐもった音声を改善しようとしていました。後で気づいたのは、本当の問題はファンから15センチのところに置いていたノートパソコンのマイクだったということです。修士号を持っているのに。先にマイクを買いましょう。

そして文字起こしが完成して、いざ原稿を書く段階になったとき、私たちのアプリがただの傍観者ではなくなります。

文字起こしが終わったら、声で原稿を書こう

インタビューの文字起こしにはBuzzかクラウドサービスを使ってください。その後、Whisper by Remskillをダウンロードして原稿を声で書く、インタビューワークフローの中で私たちが得意とする部分を担いましょう。ローカル処理はすべて無料で、サインアップ時にカードの登録は不要です。

ローカル口述筆記は永久無料。サインアップ時に支払い方法の登録は不要。録音の文字起こしには対応していません。ローカルツールまたはクラウドサービスをご利用ください。

Denys Medvedievの写真

Denys Medvediev

サポートメールを読むのは私です。おそらく返信も口述筆記で書いています。

関連記事