Appleが「Hey Siri」の背後にあるAIの魔法を明らかに

ニュース

Siri、邪魔しないで — AppleはSiriに多くのAI技術を投入している。
*写真：Ste Smith/Cult of Mac*

「Hey Siri」というフレーズを常に聞き取る小型で低電力の補助プロセッサにより、Apple の AI アシスタントの最も基本的な機能の 1 つが実現します。

iPhoneのモーションコプロセッサに組み込まれたこのプロセッサは、「Hey Siri」コマンドがデバイスのメインプロセッサで一日中実行されるのを防ぎます。この発見は、Appleの機械学習チームが本日発表した研究論文で明らかになりました。この論文では、AppleがAIをどのように活用して「Hey Siri」を実現しているかを詳細に分析しています。

Appleエコシステムにおいてますます重要な位置を占めるAIアシスタント、Siriは2011年にiPhone 4sでデビューしました。現在、SiriはMac、iPad、HomePodなど、多くのデバイスで利用できます。ユーザーはSiriを使うことで、日常的なタスクを素早く実行したり、よくある質問への回答を得たりすることができます。

Siriは進化を続けているものの、機能にはまだ改善の余地があります。また、AppleはGoogleアシスタントのようなよりスマートなサービスとの競争激化に直面しています。

Appleのデータサイエンティストたちは、Siriをよりスマートで便利なものにするために、日々努力を続けています。本日ブログに掲載された論文の中で、Appleは機械学習を用いて「Hey Siri」コマンドの誤作動を防ぐ独自の方法を発見した経緯について説明しています。

「Hey Siri」の仕組み

Hey Siriのワークフロー — 「Hey Siri」のワークフロー。
写真：Apple

誰かが実際にSiriを起動したいタイミングを検知するのは、想像以上に複雑です。Appleはこれを実現するために、ディープニューラルネットワークを用いてあなたの声を音声の確率分布に変換します。そして、そこから信頼度スコアを生成します。そのスコアが十分に高ければ、Siriは起動します。

Appleは、下限しきい値を設定したスコアも利用しています。信頼度スコアが上限しきい値に達しているものの上限しきい値を超えていない場合、iPhoneのプロセッサは数秒間、より高感度な状態になります。つまり、コマンドを繰り返した際にSiriをより早く起動できるということです。

Siriの精度向上

Siriの精度をさらに高めるため、Appleはモデル向けに「Hey Siri」フレーズの言語固有の音声仕様を作成しました。英語では、Appleは2つのバリエーションを使用しています。1つは「Siri」の最初の母音が「serious」のように聞こえるもので、もう1つは「Syria」のように聞こえるものです。

機械学習に興味があり、クパチーノがそれを音声認識にどのように活用しているかを知りたい場合は、Apple の論文全文を読んでみてください。