- ハウツー
画像:D. Griffin Jones/Cult of Mac
iOS 16のライブキャプション機能は、iPhone上のあらゆるアプリで再生されている音声に字幕を生成します。Appleのカスタムシリコンに搭載されたNeural Engineを搭載し、音楽や動画の言葉をリアルタイムでテキストに変換できるこの機能は、多くのユーザーにとって、様々な場面で大きなメリットとなります。
例えば、耳が遠い方にとって、画面に瞬時に字幕が表示される機能は画期的なものです。また、夜遅くベッドでパートナーが寝ている時にヘッドフォンを持っていない場合、あるいはバスやオフィスなど、音を立てたくない状況にいる場合でも、ライブキャプションをオンにすれば字幕を表示できます。
活用方法は無限大で、ワクワクします。iOS 16でライブキャプションを使う方法をご紹介します。
ライブキャプションは、AppleがiOSに導入予定の他の新しいアクセシビリティ機能とともにこの機能を発表した5月に、大きな話題を呼びました。これらの機能は、AppleがiOS 16をはじめとするOSの計画を発表したWWDC22に先立ち、世界アクセシビリティ啓発デーを記念して特別に特集されました。
これらの機能を使用するには、iOS 16 をインストールする必要があります。iOS 16 は 2017 年以降にリリースされたすべての iPhone と互換性がありますが、この機能は iPhone 11、12、13、14 モデルおよび iPhone SE (第 2 世代および第 3 世代) でのみ利用できます。
この機能も米国とカナダに限定されています。どうしても試してみたい場合は、デバイスの地域を変更することもできますが、そこまで妥協する価値はないと思います。
ライブキャプションを有効にする

スクリーンショット:D. Griffin Jones/Cult of Mac
iOS 16 の準備がすべて整ったら (そしてカスタム ロック画面の作成をいろいろ試した後)、リストの下部近くにある[設定] > [アクセシビリティ] > [ライブ キャプション (ベータ)]に移動します。
ライブキャプションを有効にすると 、この機能がオンになります。フローティングウィジェットが表示され、キャプションを待ちます。設定画面の別の場所で、コントロールセンターまたはサイドボタンをトリプルクリックすることで、このウィジェットの表示と非表示を設定できます。まずは、その仕組みを見てみましょう(こちらをクリックして先に進んでください)。
また、FaceTime でライブキャプションを有効にすると、次回 FaceTime 通話時に字幕が表示されます。
ライブキャプションはどの程度機能しますか?
正直に言っておきますが、一生懸命頑張ってみたにもかかわらず、スクリーンショットにライブキャプションウィジェットが表示されませんでした。スマートフォンをパソコンに接続してQuickTimeで画面を録画しようとしたのですが、うまくいきませんでした。
以下は、(古い)iPadで撮ったスマホの写真です。すみません。
YouTube動画のライブキャプション

写真:D. Griffin Jones/Cult of Mac
ライブキャプションをテストしたので、字幕の精度を直接確認できます。実は、ここ2年間YouTubeでWikipediaの記事を全文ナレーションする動画実験を行ってきました。これは、ライブキャプションが私のナレーションを画面上の元のテキストとどれだけ正確に書き起こしているかを比較できるので便利です。
ご覧の通り、結果は…あまり良くありません。少し驚きです。iMessageでの音声入力は私にとっては非常にうまく機能しています。Siriも私の声をかなり正確に認識してくれます。私の知る限り、動画内での私の声は、普段iPhoneを使っている時と全く同じように聞こえます。それなのに、ライブキャプションによるYouTube動画の文字起こしは、かなりひどい出来です。
ポッドキャスト

写真:D. Griffin Jones/Cult of Mac
NetNewsWireでニュースを読み、ポッドキャストで解説を聞くのが好きです。ライブキャプションを使ってポッドキャストを文字に変換すれば、さらに便利になるでしょうか? まあ、できるかもしれません。
たとえ最も効果的に機能する場合でも、実装上の問題に対処する必要があります。ポッドキャストのエピソード全体をLive Captionsで再生し、表示されるテキストをスクロールして記事のように読むことはできません。Live Captionsは、音声を聞きながら処理します。
つまり、会話のスピードに合わせて、一度に数行ずつ読むことができます。さらに、ライブキャプションは文末を聞き取ると、iPhoneの音声入力時のように、文頭を逆方向に修正し、句読点を追加したり、似た発音の単語を置き換えたりすることがあります。つまり、3行のテキストから実際に読めるのは1行だけなのです。
全画面矢印をタップすると、一度に続きを読むことができますが、一時停止や章のスキップを行うためのアプリのコントロールが隠れてしまいます。
また、二人の男が話すポッドキャストというジャンルには合わないことも明らかです。テキストだけを読んでも、誰が何を言っているのか分かりません。
音楽の歌詞のライブキャプション

写真:D. グリフィン・ジョーンズ/Cult of Mac
歌詞を理解するのが本当に苦手です。文字通り何百回も聴いたアルバムなのに、歌詞を覚えられないどころか、理解できないことさえあります。Apple Musicでは多くのポピュラーミュージックの歌詞をリアルタイムで配信しているのですが、不思議なことに、世界最高のインディーロックバンド、ドリフトレス・ポニー・クラブのディスコグラフィー全てが配信されているわけではないのです。
では、Live Captions を使って歌詞を解析することはできるのでしょうか?これもまた玉石混交です。歌詞を認識できる場合は、概ねかなり正確です。しかし、予測不能なタイミングで現れたり消えたりすることがあります。
簡単にホームランを打てると思っていたアコースティックソングを、Live Captions が歌詞ではなく、バックで軽くかき鳴らされるギターの音だけを「デ・デ・デ・デ」と読み上げてしまいました。開発者ベータ3にアップデートした後、上記のスクリーンショットを撮ろうとしたところ、Live Captions は歌詞の一部だけを拾ってしまいました(左の写真)。
ライブキャプション機能の誤認識を防ぐために、難解なことで知られる2曲も試してみました。The Music Manの「Ya Got Trouble」のスポークンワード・イントロは驚くほどうまくキャプションがつきました。ただし、フル再生が始まるまでは(右の写真)。「The Elements」もまた嬉しい驚きでした。ライブキャプションは、早送り録音で読み上げられた要素の約半分を正確に認識しました。
ライブキャプションウィジェットを素早くオン/オフにする

スクリーンショット:D. Griffin Jones/Cult of Mac
ライブキャプションを使い続けたい場合、毎回設定を開いてフローティングコントロールメニューを有効または無効にする必要はありません。
この機能を維持するには、「設定」>「アクセシビリティ」>「アクセシビリティショートカット」(一番下)に移動し、「ライブキャプション」を有効にしてください 。これで、iPhoneのサイドボタンをトリプルクリックすることで、ライブキャプションの有効/無効を切り替えることができます。

スクリーンショット:D. Griffin Jones/Cult of Mac
コントロールセンターにボタンを追加することもできます。 「設定」>「コントロールセンター」に戻り、 「アクセシビリティショートカット」の横にある 緑色の「 +」をタップします。有効にしたら、画面の右上(iPhone 8またはiPhone SEの場合は下端)から下にスワイプしてコントロールセンターを表示します。アクセシビリティアイコンをタップし、「ライブキャプション」を選択してオンにします。
ライブキャプションはどのように改善できるでしょうか?
AppleはNeural Engineで飛躍的な進歩を続けています。機械学習は明らかにAppleが得意とする分野であり、その改善のペースは加速する一方です。
字幕自体は、時間の経過とともに精度が向上するはずです。Appleの現在の音声入力機能とSiriの音声処理はどちらも、はっきりと話してスマートフォンを顔に近づけた時に最も効果的に機能します。YouTube動画の撮影や家族とのFaceTime通話など、様々な環境での音声翻訳をLive Captionが習得するには、しばらく時間がかかるでしょう。
この機能の開発者向けAPIがあれば嬉しいです。問題は、ライブキャプションはスピーカーから再生される音声をそのまま文字起こししてしまうことです。この機能は、再生中の音声、音声の長さ、そして次に何が来るかといった情報を把握していません。音声を事前に処理することも、アプリのインターフェース内で連携させることもできません。
Podcastアプリで、ボタンを押すだけでエピソード全体を一気に処理できたらどうなるか想像してみてください。聴いている間、テキストはスクロールしながら流れていきますが、早送りしたり巻き戻したりすることもできます。
iOS 17ではそうなるかもしれません。🤞
この記事は7月19日に初公開されました。iOS 16のリリース後に再公開されました。