日本マイクロソフトが公式ブログで公開したところによると、Windows 10 Insider Preview ビルド21301以降で音声入力機能が刷新された。Windows 10 バージョン20H2以前も音声入力機能は備わっていたが、日本語に対応していないため、使ったことがあるというユーザーは多くないだろう。

    Windows 10 バージョン20H2の音声入力。日本語は未サポートだった

    Windows 10 Insider Preview ビルド21301以降の音声入力

テキストエディターなどがアクティブな状態で「Win」+「H」キーを押すと、PC内蔵もしくは接続したマイクから音声を聞き取り、テキスト化する機能だ。Windows 10の音声認識機能はデバイスベースとクラウドベースの2種類があり、Windows Vista時代から実装した音声認識機能は前者。Windows 10 Insider Preview ビルド21301以降が実装した機能は後者だ。

英語版のように、Windows 10を操作する音声コマンドも一部対応。音声入力を終了する「音声入力を停止」、選択文字列や直前に入力した文字列を削除する「それを削除」、直前の入力文字列を選択する「それを選択」をサポートしている。

Windows 10はファーストリリースからCortanaに代表される音声認識のアプローチを続けているが、Microsoft 365 Apps(Office 365)は積極的に実装してきた。Microsoftは2017年4月からプレビュー版として、Microsoft PowerPointアドオン「Microsoft Translator live Add-in」で話者の発言をリアルタイムで字幕・翻訳する機能を実現(2019年2月に一般提供開始)している。

2020年8月にはMicrosoft Word(以下、Word)のWeb版に「トランスクリプト」を追加した。以前からWordは、入力した音声を書き起こす「ディクテーション」を備えているが、Microsoftは公式ブログにて、トランスクリプトは「インタビューから完璧な引用を引き出したい」場面に利用する機能だと説明している。

    デスクトップ版Wordの「ディクテーション」機能。入力した音声をテキスト化する

    Web版Wordの「トランスクリプト」機能。録音した音声ファイルからの文字起こしにも対応する

Web版Wordのトランスクリプト機能は、Wordで録音・テキスト化、音声ファイルをアップロードしてテキスト化が可能。話者分離機能なども備えているため、個人的には音声認識の精度がさらに向上すれば、常用レベルになるという印象を持った。多くの音声認識機能はクラウドベースの音声認識技術を用いており、日々進化するクラウド技術を考えれば、数年内にはその域に達するはずだ。こうした背景を踏まえて、Microsoftは日本を含む各国のローカルチームとともに、音声認識機能の刷新に至ったのだろう。

他方では、Microsoft Outlookにテキスト予測機能を展開し、2021年3月にはWordにも同様の機能を提供する予定だ。Microsoft Edgeに対しても、フォームに自動入力するオートフィルを拡張して、一時的なフォームでの情報入力を支援する機能をCanary版で検証している。MicrosoftはWindows 10に限らず、Microsoft 365 Appsや周辺のアプリに対しても、テキスト入力の手間を省いて人間の生産性を高める努力を続けてきた。その取り組みはクラウドパワーの発展とあわせて加速している。