Appleがディープニューラルネットワークと機械学習を活用した「Hey Siri」の仕組みを説明c

By Lomsen
Estimated read time min read
rtodci

Appleは今月、機械学習ジャーナルに興味深い記事を掲載しました。音声起動の「Hey Siri」検出機能の仕組みを詳細に解説しています。こうした記事の多くは、一般読者（つまり私）には難しすぎる内容が多いのですが、10月のSiriチームによる記事には、iPhoneやApple Watchで「Hey Siri」を使う際に舞台裏で何が起こっているのか、興味深い（そして分かりやすい！）豆知識がいくつか含まれています。

Appleは、iPhoneとApple Watchのマイクが「ユーザーの声を1秒あたり16000の速度で瞬間的な波形サンプルのストリームに変換」し、その後、デバイスの検出器がユーザーの声でSiriを起動する意図があるかどうかを判断すると説明しています。

スペクトル分析ステージでは、波形サンプルストリームをフレームシーケンスに変換します。各フレームは約0.01秒の音響スペクトルを表します。これらのフレームは一度に約20フレーム（0.2秒の音声）ずつ音響モデル（ディープニューラルネットワーク（DNN））に送られ、音響モデルはこれらの音響パターンを、音声クラス（「Hey Siri」フレーズで使用されるもの、無音部分、その他の音声）の集合にわたる確率分布に変換します。この合計約20の音声クラスは、このDNNの音声クラスに相当します。

Apple には、Siri を呼び出そうとしているかどうかを判断するための可変しきい値もあります。

困難な状況でも Siri を簡単に起動できるように、誤作動を大幅に増やさずに柔軟性を組み込みました。Siri には、通常動作に必要な基本しきい値と、通常は起動しない下限しきい値があります。スコアが下限しきい値を超えても上限しきい値は超えていない場合、本物の「Hey Siri」イベントを見逃した可能性があります。スコアがこの範囲内にある場合、システムは数秒間、より高感度な状態になり、ユーザーが特別な操作をしなくてもフレーズを繰り返すだけで Siri が起動します。このセカンドチャンスメカニズムにより、システムの使いやすさが大幅に向上します。また、この非常に高感度な状態は短時間のみであるため、誤報率もそれほど高くなりません。

ご存知の通り、「Hey Siri」はiPhoneのコプロセッサを利用してトリガーワードを聞き取るため、物理的な操作やバッテリー消費を必要とせず、Apple Watchではディスプレイがオンの状態であることが求められるため、「Hey Siri」の扱いが異なります。Appleによると、この方法では「Hey Siri」のコンピューティングリソースは全体の約5%しか消費しないとのことです。

「Hey Siri」検出機能は、Watchのモーションコプロセッサが手首を上げるジェスチャー（画面の点灯）を検出した場合にのみ動作します。その時点では、WatchOSは電源投入や画面の準備など、多くの処理を実行する必要があるため、システムは限られたコンピューティングリソースのごく一部（約5%）のみを「Hey Siri」に割り当てます。トリガーフレーズの開始に合わせて音声キャプチャを開始するのは困難なため、検出機能を初期化する際には、音声が途中で途切れる可能性を考慮しています。

最後に、Apple が「Hey Siri」というフレーズをトリガーとして選択したのはなぜでしょうか?

Hey Siri機能が登場するずっと前から、少数のユーザーがボタンを押してリクエストを開始する際、「Hey Siri」と発声していました。私たちは、このような「Hey Siri」発話を、米国英語検出モデルの初期トレーニングセットに使用しました。また、メインの音声認識システムのトレーニングに使用した一般的な音声サンプルも含めました。どちらの場合も、トレーニングフレーズには自動書き起こしを使用しました。Siriチームのメンバーは、書き起こしのサブセットの正確性を確認しました。

「Hey Siri」というフレーズについて、言語固有の音声仕様を作成しました。アメリカ英語では、「Siri」の最初の母音が異なる2つのバリエーションがあり、1つは「serious」、もう1つは「Syria」の発音です。

全文を読むと、特に音声認識に興味がある人や、iPhone や Apple Watch で「Hey Siri」を使う人にとっては興味深い内容です。

Appleのニュースをもっと知りたい方は、YouTubeで9to5Macを購読してください。

lomsen.com を Google ニュースフィードに追加します。

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。

Facebook、メッセンジャーアプリの音声を「数百人の請負業者」とレビューしていたことを認めるc

rtodci

Facebook、メッセンジャーアプリの音声を「数百人の請負業者」とレビューしていたことを認めるc AppleとGoogleが音声アシスタントが録音したユーザーの音声を人間が確認しているとして非難を浴びているが、ブルームバーグの今日の報道によると、Facebookも約1週間前まで同じことをしていたという。 Facebookは、Messengerアプリのユーザーからの音声クリ

クアルコムはアップル幹部を訴訟に引きずり込み「嫌がらせ」している

rtodci

クアルコムはアップル幹部を訴訟に引きずり込み「嫌がらせ」しているクアルコムはアップルの幹部らを無関係の訴訟の証人として召喚し、嫌がらせをしていると、クパチーノのアップル社の弁護士らが明らかにした。アップルは召喚状の撤回を求め、このチップメーカーが両社間の過去の紛争に対する復讐を単に求めていると非難した… 背景アップルとクアルコムは特許をめぐって長期にわたる激しい法廷闘争を繰り広げ、最終的にi

iOS版HomePassは、重要なセットアップコードをすべて保存できる便利なHomeKitアプリですc

rtodci

iOS版HomePassは、重要なセットアップコードをすべて保存できる便利なHomeKitアプリですc 8桁のセットアップコードをどう管理するかは、HomeKit愛好家なら誰もが直面する課題の一つです。アクセサリメーカーは、コードを紛失すると将来デバイスを再セットアップできなくなる可能性があると警告しており、すべてのアクセサリにデバイスにコードのコピーが含まれているわけではありま

ビデオセルフィーでInstagramやFacebookのアカウントを復元

rtodci

ビデオセルフィーでInstagramやFacebookのアカウントを復元 Metaは、InstagramやFacebookのアカウントにログインできなくなった場合に即座にアカウントを回復できる方法として、顔認証をテストしています。動画の自撮り写真を送信する手順は、Face IDの登録方法とほぼ同じで、頭を様々な方向に動かす必要があります。同社はまた、この技術を有名人を利用した詐欺行為の検出とブロ

Apple、新型MacBook Airを「AI搭載の世界最高のコンシューマー向けラップトップ」と発表c

rtodci

Apple、新型MacBook Airを「AI搭載の世界最高のコンシューマー向けラップトップ」と発表c Appleは新型M3 MacBook Airのプレスリリースで、このマシンを「世界最高のAI搭載コンシューマー向けラップトップ」と称する大胆な主張を展開した。この主張はWWDC 2024に先立って行われたもので、AppleはWWDCで全プラットフォームに搭載される多数の新しいA

iPadOS 26、watchOS 26など

rtodci

iPadOS 26、watchOS 26など 9to5Mac のその日のトップストーリーの要約をお聞きください。9to5Mac Daily は、iTunes、Apple の Podcast アプリ、Stitcher、TuneIn、Google Play、または Overcast やその他の Podcast プレーヤー専用の RSS フィードからご利用いただけます。 iMazing提供： iMaz

DirecTV Now、Safariのサポートを終了、7月からChromeのみ対応へc

rtodci

DirecTV Now、Safariのサポートを終了、7月からChromeのみ対応へc AT&Tのテレビサービスに便乗したライブTVストリーミングサービス「DirecTV Now」は、ケーブルテレビを解約したユーザーがお気に入りの番組をオンラインで視聴できる手段の一つです。しかし、本稿執筆時点では公式通知もなく、SafariとInternet Explorerでサイトにアクセスし

Instagram、ユーザーの位置情報やストーリーの保存などを秘密裏に追跡する広告パートナーを禁止c

rtodci

Instagram、ユーザーの位置情報やストーリーの保存などを秘密裏に追跡する広告パートナーを禁止c Business Insider が本日発表した詳細な新レポートでは、マーケティングスタートアップのHyp3rがInstagramの抜け穴を悪用し、ユーザーに関する膨大な情報を収集した経緯を詳述しています。Hyp3rは「設定ミスとInstagramの監督の甘さ」を巧みに利用し、「

You May Also Like