「Hey Siri」には想像以上に多くの機能が含まれています

「Hey Siri」には想像以上に多くの機能が含まれています

  • Oligur
  • 0
  • vyzf
「Hey Siri」には想像以上に多くの機能が含まれています
  • ニュース
Siri Alexaの音声レポート
iPhoneには「Hey Siri」と話しかけることで反応するニューラルネットワークが搭載されていることに気づいていない人も多いだろう。
写真:Apple

iPhoneが「Hey Siri」に反応するのは簡単そうに見えますが、実際には非常に複雑です。このコードフレーズと、それを発した人物を認識することは、Appleの音声認識システムにとって非常に重要です。

本日公開された Apple のMachine Learning Journalの記事では、これを実現するために開発者が克服した多くの課題について説明しています。

複雑な点の一つは、「Hey Siri」の認識がiPhoneまたはiPad側で行われる必要があることです。Siriの音声認識の大部分は、ユーザーの言葉をリモートサーバーにアップロードすることで行われますが、これはiPhoneが「Hey Siri」というフレーズを認識した後で初めて開始されます。Appleはプライバシーを重視しているため、iPhoneは聞き取ったすべての情報をサーバーに送信することができません。 

iPhone 6s以降のすべてのスマートフォンとほとんどのAppleタブレットには、低消費電力で常時オンのプロセッサが搭載されており、「Hey Siri」というキーフレーズを常に認識しています。このチップの役割はこれだけです。  この音声認識プロセッサは、人間の脳のレイアウトを模倣したニューラルネットワークを採用しています。

Machine  Learning Journalの記事は「Hey Siri」についてのみ言及しています。Siriの音声認識機能はサーバー上で処理されるためです。これは全く異なるプロセスであり、多くの問題を抱えています。それでも、Appleはこれらの問題を解決するために人材採用に躍起になっています。

なぜ「Hey Siri」なのでしょうか?

Appleがこのキーフレーズを選んだのは、短くて発音しやすいからです。Siri音声認識システムは数年前にiPhone 4Sでデビューしましたが、起動にはホームボタンを押す必要がありました。Appleによると、このフレーズが使われるようになる前から、多くの人が「Hey Siri」でリクエストを始めていたそうです。

欠点は、このキーフレーズが「本気ですか?」といった他のフレーズと似ていることです。iPhoneの専用プロセッサは、近くで話している他の人たちの声も処理しなければなりません。中には自分のiPhoneに向かって話している人もいるかもしれません。

本日の機械学習ジャーナルの記事によると 、チップはまず聞いたものの中から「Hey Siri」というフレーズを選び出し、次にそのフレーズが聞き取るように訓練された人物によって言われたものかどうかを確認するという。

プロセッサは音声を13次元ベクトルに変換し、「Hey Siri」と発声したことを認識します。次に、音声を442次元ベクトルに変換し、キーフレーズを発声したのが正しい話者かどうかを確認します。

Appleは10月にMachine Learning Journalの記事で、重要なフレーズを空中から拾い上げる仕組みの詳細を公開しました。最新の記事では、ニューラルチップがどのようにして所有者を認識するかを学習するかについて解説しています。

「Hey Siri」のトレーニング

誰もが覚えていると思いますが、iPhoneに自分の声を認識させるには、「Hey Siri」と何度も話しかけてトレーニングする必要がありました。これは明示的な登録と呼ばれます。

あまり知られていないことですが、システムはトレーニングセッション後もユーザーの声の聞こえ方を学習し続けます。これは、トレーニングセッションがほぼ常に理想的な条件下で行われるのに対し、iPhoneはあらゆる環境ノイズの中で「Hey Siri」を認識できるように学習する必要があるためです。トレーニングが正式に終了してからしばらくの間は、「Hey Siri」を使用するたびに、さらなる学習が行われます。

そのため、iPhone があなたの声を学習している間は、他の人があなたの iPhone の近くで「Hey Siri」と言わないようにしてください。

プライバシーは重要です

Appleはスマートフォンで直接音声認識を行うという難題に直面しました。しかし、代替案  として、iPhoneの近くで話されたすべての音声を録音し、リモートサーバーに送信してキーフレーズを認識する必要がありました。Appleは自社のデバイスをスパイにするつもりはありませんでした。

もちろん、Amazonはそんなことは気にしません。Echoデバイスはまさにその方法で音声認識を行っているのです。