Denys Medvediev

ガイド

ジャーナリストのための 音声入力ソフト

話すだけで原稿が仕上がる。ホットキーを押して話せば、どのアプリでもカーソルの位置に文字が入力されます――CMS、ドキュメント、メモファイルも同様です。自分の文章や取材メモを書くためのツールであり、インタビューの文字起こしには対応していません。

最終更新:2026年6月

暗いニュースルームの机の上に置かれたノートとペン、隣には開いたラップトップ。取材メモと執筆のイメージ

ジャーナリスト向けの音声入力ソフトは、記者が話した言葉をどのアプリのカーソル位置にもテキストとして入力します。ホットキーで起動し、下書き・書き出し・取材メモがその場で仕上がります。自分の文章を声で書くためのツールで、機密性の高いメモはオフラインで動作します。インタビューの文字起こしは別のジョブです。

記者の一日は、同じことを二度書くことに費やされます。裁判所の階段でノートに引用を書き留め、デスクに戻ってから打ち直す。帰り道に頭の中で書き出しを考え、ラップトップを開く頃には半分忘れている。締め切りを気にするのはこちらだけで、キーボードは関係ないとでも言うように。

「ジャーナリスト向け音声入力ソフト」で検索する人は、原稿作成・メモ・市議会の録音まで何でもこなせる一つのツールを探しています。そんなものはありません。最初にはっきり言ってしまう方が、午後を無駄にせずに済みます。音声入力は、自分で書く文章のためのものです。取材相手の発言を録音して逐語的なテキストに変換するのは、全く別のツールの仕事です。このガイドは前者に絞り、後者が必要な場面も明確にお伝えします。

多くのページがわざとぼかしている区別をはっきりさせましょう。音声入力とは、自分が話した言葉をカーソルがある入力欄にコンピュータが打ち込むことです。文字起こしとは、取材相手・パネリスト・電話の相手など他者の音声を録音し、後からテキスト記録として受け取ることです。考え方は似ていますが、ツールも用途も全く異なります。

本当の問いは「ジャーナリストに最適な音声入力アプリは何か」ではありません。「仕事のどの部分に何が合うか」です。Whisper のようなホットキー駆動の音声入力ツールは、原稿の下書き、取材メモの書き出し、消えてしまう前にアイデアをつかまえるのに優れています。インタビュー本番――複数の話者、そのまま掲載する引用――には専用の文字起こしサービスが必要です。音声入力の使い方を詳しく説明し、2分でセットアップし、引用を誤ったツールに任せないよう明確な線引きをします。

記者が音声入力を使う理由

木製の机の上に置かれた記者のスパイラルノート、ペン、コーヒー。素早いメモ書きのイメージ

本質的な目的は、思考が冷める前にスピードを出すことです。記者は記者会見を出る時にすでに書き出しを半分頭の中で書き上げ、車に向かいながらアングルを整理し、シャワーを浴びながら完璧な第一文を思いつく――そしてキーボードの前に座った途端、三分の一が指の隙間から消えていく。話す速度はおよそ毎分145語。タイピングは約40語。この差こそが、優れた初稿が死にゆく場所です。

それに手首の問題もあります。文章を仕事にしている人は大量に書き、手首はその記録をつけています。音声入力は医療的な解決策ではないし、そうは言いません。ただ、原稿提出量の多い日に少しの間キーボードをループから外せることは、確かな生産性の救済になります。手を休めながら原稿が書き上がり、編集部は何も気づかない。治療法ではなく、頭と紙の間のキーストロークを減らすだけ。それがすべてです。

積み重なるのは小さなメモです。完璧な言い回しを忘れる前に記録しておきたい一つの引用。二番目の取材相手に折り返すリメインダー。現場の雰囲気を書き留めた3行のメモ――歩きながら片手でタイプする気にはならなくても、声に出して言うのは簡単です。どれも記事ではありません。でもすべてが取材の結合組織であり、すべて打つより話す方が速い。

ホットキーを押して話すと、原稿に文字が入る

仕組みは地味です。締め切り下ではそれが理想です。ホットキーを押し、話し、離すと、フォーカスのあるアプリのカーソル位置にテキストが貼り付けられます。Whisper は離した後も短い余韻を保持するので、最後の一語が切れることがありません。OSのカーソルに貼り付けるため、CMSの入力欄、Wordドキュメント、ブラウザのGoogle Docs、普通のメモファイル、編集者へのSlackメッセージは、すべて「テキストボックス」として扱われます。同じキー、同じ動作、どこでも。

ランディングページが複雑に見せがちな部分はここです。公開システムに組み込むプラグインも、ITデスクを待つ連携も、エクスポート手順もありません。カーソルを原稿に置いて話せば、原稿に文字が現れます。話している間は小さなカプセルが表示され、録音中であることがわかります:

Cancel
録音オーバーレイ:話している間に表示される小さなカプセル。Whisper が聴いていることを示します。

ホットキーだけは最初に正しく設定する価値があります。Windows では Ctrl+Space、Mac では Command+Option を押し続けるプッシュ・トゥ・トーク方式です。どちらも設定で変更できるため、編集ツールのショートカットと衝突しても対応できます。以前、ユーザーから深夜2時14分にメールが届きました――ホットキーがオーディオソフトと衝突していて「使えない」という一言で終わっていました。8分後にカスタマイズ可能なホットキーパネルを出荷して、また眠りにつきました。今ではすべてのホットキーを自由に変更できます。すでにWindows での音声入力Mac での設定を経験したことがあれば、同じ感覚でニュースルームのツールに使えます。

2分でセットアップ(Windows または Mac)

必要なのは Apple Silicon 搭載の Mac か Windows 10 以降の PC、動作するマイク、そして普段使う原稿作成ツール――デスクトップアプリまたはブラウザで開いた状態。ローカルパイプライン全体はログイン済みアカウントなら無料で、サインアップ時にクレジットカードは不要です。手順はこの通りです。

ステップ 1 ― Whisper をインストールしてサインイン。

ダウンロードページからインストールし、無料アカウントを作成します。カード不要。ローカル文字起こしパイプライン全体がすぐに使えます。

アプリのトレイアイコンが表示され、セットアップウィザードがモデルの選択を促したら成功です。

ステップ 2 ― 文字起こし方式を選択。

アプリが自動選択することはありません。3つの選択肢があります:Cloud(OpenAI、自分のキーを持ち込む)、Local Parakeet、Local Whisper。機密性の高いメモや取材素材にはローカルから始めましょう――詳細は2つ先のセクションで。

モデルのダウンロードが完了し「準備完了」と表示されたら成功です。

ステップ 3 ― ホットキーを確認。

Windows のデフォルトは Ctrl+Space、Mac は Command+Option を押し続けるプッシュ・トゥ・トーク。Mac では求められたときにアクセシビリティ権限を許可してください。これがないと他のアプリへのカーソル位置への貼り付けができません。

テスト録音が任意のテキストフィールドに貼り付けられたら成功です。

ステップ 4 ― カーソルを原稿に置いて話す。

CMS、ドキュメント、メモファイルを開き、テキスト内をクリックして、ホットキーを押し続け、一文話して離す。カーソルのある場所にテキストが表示されます。

話した文章がテキストとして原稿に入力されたら成功です。

Whisper
実際の Whisper デスクトップアプリの設定画面。文字起こしと AI パネルが開いています。

時間がかかるのはモデルのダウンロードであり、セットアップではありません。残りはこの4ステップです。起動してしまえば、頭の中のアイデアを原稿に落とす作業がタイピングではなく会話になります。

声で原稿を書き、取材メモを記録する

実際には2つのモードに分かれ、それぞれ使い心地が違います。1つ目はデスクでの原稿作成です。CMS やドキュメントにカーソルを置いて、書き出し、ナットグラフ、取材済みのセクションを声に出していきます。磨き上げた最終稿を声で書く人はいませんが、スクリーン上に荒削りな初稿を短時間で出せる。空白の入力欄を見つめるより、あるテキストを編集する方がずっといい。固有名詞や専門用語の多い担当分野なら、Local Whisper のカスタム語彙とホットワード機能が汎用モデルの失敗をカバーします。

2つ目は現場でのキャプチャです。ここでホットキーが真価を発揮します。聴聞会を出て歩きながら、失いたくない3つのことをメモファイルに直接話し込む。電話番号、フォローアップ、速記で書き留めたオフレコの一言をそのままの言い回しで記録する。そのまま掲載するわけではありませんが、これが生素材です。後で読めない走り書きを打ち直す代わりに、新鮮なうちに一度きちんと声で残す。

Cloud モードのおまけとして、誇張せずに言えば:起動フレーズ「Hey whisper」で草稿の途中に素早いウェブ検索ができます――日付、スペル、タイトルなどで、数秒後に結果が返ってきます。ファクトチェックの便利ツールであり、調査エンジンではありません。重要な事実はいずれにせよ信頼できるソースで確認するのが記者の仕事です。「あの予算案は2019年だったか2020年だったか」を原稿を離れずに確認するには便利。取材の代わりにはなりません。

ローカルかクラウドか:機密メモに向くモードは

ジャーナリストにはローカルモードから始めることを勧めます。理由はスピードではなく、情報源の保護です。機密情報源に関するメモ、未公開の敏感な記事の草稿、ベンダーに渡したくないワーキングファイル――ローカルモードはサーバーに何も送信せず、完全にあなたのマシン上で動作します。素材が情報源を危険にさらす可能性があるときの正しいデフォルトです。Cloud はまれな難しい録音向けの逃げ道であり、日常ツールではありません。Mac が Apple Silicon、あるいは PC が数年以内のモデルなら、ローカルは日常の音声入力を問題なくこなします。

3つの方式の違いを整理します。アプリが選択を求める以上、賢い選択をしてほしいからです:

  • Local ParakeetNVIDIA の TDT エンジン、約 600 MB、最速のローカルオプション――CPU 上で Whisper より5〜10倍速い。英語と24の欧州言語、計25言語に対応。英語への翻訳機能なし。英語または欧州言語で執筆するなら、素早くフルオフラインで使えるこちらを選んでください。
  • Local Whisper同じマシンでは Parakeet より遅いですが、多言語版は99言語に対応し英語への翻訳も可能です。英語専用版はあくまで英語のみで、99言語には対応していません。中国語、日本語、韓国語、翻訳作業、または固有名詞の多い担当分野でカスタム語彙やホットワードが必要な場合に選んでください。デフォルトの英語モデルは約 480 MB。
  • Cloud(OpenAI、BYOK)最高精度と素早いウェブ検索を備え、OpenAI に直接請求される自分の OpenAI キーを使用します。文字起こしはデフォルトで gpt-4o-mini-transcribe が動作します。インターネットが必要なため、マシン外に出る唯一の方式です。情報源に関わる内容には使わないでください。Cloud 機能は Whisper Pro の一部です。

取材が絡む原稿作成やメモ書きの大半には、ローカルで十分です。両方のローカルエンジンは完全にあなたのマシン上で動作します。ファイルが情報源の名前を含む可能性があるときは、それが重要です。Cloud が活躍するのは、難しい音声で最高精度を求める場合や草稿途中の素早い検索が欲しいときです。毎日の提出習慣にはローカルから始め、物足りなくなったときだけ Cloud に頼るのが正解です。

話し言葉の草稿をクリーンな原稿に仕上げる

生の音声入力はそのまま流れ続けます。「えーと議会は区画変更について4対3で賛成票を投じてヘンダーソンは反対でこれは悪い前例を設定すると引用終わり明日都市計画局にフォローアップ」――どの音声エンジンでも、こういう句読点のない塊が返ってきます。クリーンアップの部分でモードの違いが出ます。

Windows Voice Typing は話しながら句読点を追加し、macOS Dictation は「コンマ」「ピリオド」と言えば基本的な処理をします。より重い整形――フィラーの除去、流れの修正、話し言葉のパラグラフを実際に原稿に使えるものに変換する――には、Whisper が AI パスを実行できます。「Hey whisper」と言えば、テキストが整形されてから挿入されます。ローカルモデルでは Ollama を通じて動作し、Cloud モードではデフォルトで gpt-5-mini が使われます。

Thinking...
Raw

okay the council voted four to three on the rezoning um henderson against quote this sets a bad precedent end quote follow up with the planning office tomorrow

Cleaned

Council voted 4–3 on the rezoning. Henderson against: "This sets a bad precedent." Follow up with the planning office tomorrow.

重要な注意点があります。これはジャーナリズムであり、正確さが仕事です。AI によるクリーンアップパスは自分の草稿やメモのためのもの――自分が話した言葉を整えます。掲載する逐語引用を生成させることには頼らないでください。掲載する引用は、録音やメモと照合してください。毎回必ず。音声入力は下書きを素早く作るものであり、引用を保証するものではありません。音声エンジンが掲載可能な一語一句正確な引用を出せると言う人は、実演を売っているのであり、本番を売っているのではありません。

この「話して整える」フローは取材の枠をはるかに超えて役立ちます――同じホットキー一つでどの文章作成アプリにもきれいな文章を書き込むことができるため、長い段落がいくつかの話し言葉の文に変わります。

音声入力を使わず文字起こしツールを使うべき場面

インタビュー用にセットアップされた机の上のハンドヘルド音声レコーダーとマイク

このガイドの核心部分なので、率直に言います。別の人物を録音する瞬間――インタビュー、電話での取材相手、パネル、複数の声が入る記者会見――音声入力は間違ったツールです。音声入力は、自分が話す言葉をカーソルに打ち込むために作られています。1人の話者、リアルタイムで。話者を分離しませんし、他者の音声の逐語記録を生成するようにはチューニングされていません。掲載する引用の場で初めてそれを知るのは避けたいことです。

その仕事には専用の文字起こしサービスを使ってください――複数話者の音声、話者ラベル、タイムスタンプ、引用を確認できるテキスト記録に特化したカテゴリです。本当に異なる製品であり、他者の言葉の正確さが成果物であるときは、優れたものに費用をかける価値があります。認証済みまたは法的効力のある文字起こしが必要なら、それはさらに専門のサービスの仕事であり、音声入力のホットキーがカバーするとは言いません。

ときには、マシンにすでに無料で入っているツールが正解のこともあります。2行のメモや素早いリマインダーだけなら、OSで十分です。Windows では Windows キー + H を押せば、カーソルの位置に内蔵の Voice Typing バーが開きます。自動的に句読点を付加し、短い入力には十分ですが、Microsoft のサーバーを経由しインターネットが必要なため、オフラインオプションではありません――情報源の名前が含まれるメモでは重要な点です。Mac の Dictation は、タイプできる場所ならどこでもテキストを声で入力でき、システム設定のキーボードから設定します。Apple Silicon では一般的なテキストをオンデバイスで処理できます。内蔵ツールでは辛くなってきたとき――長い草稿、多言語作業、オフラインのプライバシー、CMS・ドキュメント・メモで同じ動作をする一つのホットキー――専用のシステム全体ツールに切り替えてください。

キャプチャするものの大半が本格的な草稿ではなく短いメモなら、音声テキスト変換メモのアプローチが最も合っており、長文作成よりも素早いキャプチャを重視しています。

音声入力は記事を書いてくれませんし、インタビューを文字起こしもしません――それはもともとこのツールの仕事ではありません。音声入力がすることは、自分の原稿を書き、自分のメモを記録する間、キーボードをループから外すことです。素早く、素材が機密ならオフラインで。このガイドの大半は、どのウィンドウを使っているかを気にしないホットキーを使って普通のメモファイルに話し込み、後でクリーンアップして原稿に移しました。取材のインタビューは文字起こしサービスに送りました。正しいツール、正しい仕事。それがすべてのコツです。

次の草稿で試してみる

ホットキーを押し続け、話し、離す。カーソルのあるアプリ――CMS、ドキュメント、メモファイル――に最初の草稿が入ります。インタビューはこれまで通り文字起こしツールへ。

ログイン済みアカウントなら無料のローカルモード。開始にカード不要。

Denys Medvediev の写真

Denys Medvediev

サポートメールを読んでいるのは私です。おそらく返信も音声入力で書いています。

関連資料