HomePodの「Hey Siri」があなたを驚かせる理由

ニュース

Siriスピーカー — HomePodの最大音量での再生能力は、最も印象的な機能の一つです。
*写真：Ste Smith/Cult of Mac*

Appleは今朝、新しいブログ記事で「Hey Siri」検出に使われている機械学習技術の詳細を述べ、HomePodスマートスピーカーの最も複雑な機能のいくつかを公表した。

スマートスピーカーの開発における最大の課題の一つは、何を聞き取るかだけでなく、その過程でどの音を捨てるかを考えることです。Appleのエンジニアたちは、HomePodのスピーカーから大音量で音楽を流しているときでもSiriが機能するように、いくつかの興味深い方法を考案しました。

Appleのチームは、機械学習に関する新しいブログ記事で、HomePodにSiriを導入するのはiPhoneよりもはるかに難しいと説明しています。これは、ユーザーがはるかに遠くからマイクにコマンドを送る必要があるためです。ユーザーはソファやキッチンからでもSiriを起動したいと考えており、HomePodの位置は気にしないため、エコー、残響、ノイズが遠距離環境でのSiriの最大の障害となっています。

Appleは、Siriがすべてのコマンドを認識し、応答できるように、マルチチャンネル信号処理システムを採用しています。同社によると、これを実現するために2つのアプローチを採用しています。1) ディープラーニングを用いたマスクベースのマルチチャンネルフィルタリングによるエコーと背景ノイズの除去、2) 同時発生している音源を分離する教師なし学習と、干渉する音声を除去するトリガーフレーズベースのストリーム選択です。

AppleのA8チップと6つのマイクを搭載したHomePodは、電力が最も低い状態でも継続的にコマンドを聞き取ることができます。フィルタリングアルゴリズムは、騒音状況、部屋の物理的な状態、そして話している人の動きに合わせて常に適応します。

マルチチャンネルエコーキャンセレーション、マスクベースエコー抑制、残響除去、マスクベースノイズ低減といった機能に込められた緻密な処理の量は、ほとんどのユーザーが意識しない機能としては実に驚異的です。HomePodの使用中、スピーカーの音量が大きすぎて部屋の向こう側からの音声コマンドが聞こえないことがよくあります。Appleはマルチチャンネル信号処理システムによって、Siriの精度をエラーを減らしながら向上させ、ユーザーエクスペリエンス全体を向上させました。

AppleがHomePodでSiriを魔法のように動作させる仕組みの詳細にご興味がおありの方は、Appleのウェブサイトにあるブログ記事全文をご覧ください。Appleは、細かな点についてもグラフや数式を用いて解説しています。