Googleは端末で再生する動画にリアルタイムで字幕を表示する「Live Caption」機能をPixel 4でも利用可能にすることを発表しました。「Live Caption」機能は最初にPixel 4に搭載されますが、年内にはPixel 3にも搭載されます。
Googleは米現地時間9月16日、2019年5月のGoogle I/Oで発表したリアルタイムで字幕を表示する「Live Caption」機能が「Pixel 4」でも利用可能になることを発表しました。まずは英語のみですが、サポート言語は徐々に拡大していく計画です。
また、Pixel 3以降のPixelシリーズ(Pixel 3、Pixel 3 XL、Pixel 3a、Pixel 3a XL)でも年内に利用可能になる予定となっています。
「Live Caption」機能とは、スマートフォン上の通話・ビデオ通話を除くあらゆる音声をテキスト化し、字幕のように表示できる機能です。
Googleは、音声テキスト変換機能などと共に「Live Caption」機能を聴覚障害者のために開発しました。この機能は聴覚に障害がある人はもちろん、音を出せない場面や周囲がうるさくて音声が聞き取れないようなシーンでも活躍する機能と言えます。
「Live Caption」機能の仕組みとしてはネットワークを必要とせず、処理を端末内で完結するシステムとしていて、技術的にはPixel 4の新機能として発表されているボイスレコーダーと同じものと考えられます。
オーディオメッセージやSNS上の動画コンテンツ、自分で録画した動画などを再生し、端末の音量ボタンを押すと表示される音量調節バーの下に字幕をオン/オフするアイコンが表示されるようになり、これをタップすると字幕の表示が始まります。
この字幕の位置は、指で上下に移動でき自由に配置することが可能です。字幕の精度に関しては音声の品質にも依存するため不正確な場合もありますが、今後も技術を改善し続けるとしています。
さらにGoogleは「Pixel 4」の中に新たなボイスレコーダーアプリを搭載することを発表しました。新ボイスレコーダーアプリには音声からの自動文字起こし機能を統合して、音声からリアルタイムで文字に書き起こしします。
アプリ内には検索機能があり、スピーチやインタビュー、講義などで話された言葉をそのまま検索することが可能です。
同じような文字起こし機能としては「otter.ai」など英語では複数存在するほか、当のGoogle自身もAndroid向けアプリ「音声文字変換」として提供しています。
しかしこれらの文字起こしアプリは全てクラウドサービスとなっているのに対して、「Pixel 4」ではオンデバイスAI(エッジAI)技術によって、端末上で高精度な自動文字起こしを可能としている点が大きく違います。
この新ボイスレコーダーの自動文字起こし機能に関しては、アプリを披露した後に「機内モード」で実行していたことが明かされ、会場から喝采を浴びていました。
「Pixel 4」の新しいボイスレコーダーアプリでの文字起こしは当初、英語のみに対応していますが近日中により多くの言語への対応が追加される予定としています。