ポータブルスピーカやスマートヘッドセットへの音声アシスタントの組み込み

著者 Majeed Ahmad

DigiKeyの北米担当編集者の提供

AmazonのAlexa、AppleのSiri、MicrosoftのCortana、Google Assistantなどの仮想アシスタントは、スマートな音声対応デバイスを生み出す原動力になっていると言えるでしょう。そのようなデバイスは、スマートフォンなどのモバイル機器とペアリングして使うBluetoothヘッドセットから、ホーム/オフィスオートメーション環境用のスマートスピーカ、TVなどの民生用電子機器など幅広い領域に及びます。音声対応サービスを使用した音楽鑑賞、通話、生体認証センサの実行などの機能制御が徐々に増えている中で、設計者は、音響的および電気的なノイズの多い環境で音声を識別、キャプチャしてワイヤレスで伝送することの難しさを実感しています。

そこで必要になるのが、堅牢なノイズキャンセル技術、それと同様に堅牢なワイヤレスインターフェース、そして、それらすべてを1パッケージに含んだソリューションであり、開発者はそのパッケージを試して短時間で適用すれば時間とコストの両方を節約できます。

この記事では、Cirrus LogicXMOSQualcommが提供するいくつかの音声キャプチャソリューションを紹介します。これらのソリューションにより、次世代の音声対応モバイルデバイスやヘッドセットの設計をすぐに始められます。

音声キャプチャソリューション

AppleやMicrosoftなどの企業が自社のソリューションをスマートフォンやコンピュータに実装し始めている一方、AmazonはAlexaをEchoスマートスピーカで実装し、その応用範囲をさらに多くのデバイスに拡大し始めました。

Echoは7つのマイクロフォンを内蔵しますが、この数は空間、コスト、電力が優先される小型のハンドヘルドデバイスに内蔵するには多すぎます。とはいえ、Cirrus Logicなどのチップメーカーは、Alexaをさまざまなスマートデバイスや他のオーディオシステムのフォームファクタに導入できるように、よりシンプルな設計ソリューションの開発に取り組んでいます。

たとえば、Alexa Voice Service(AVS)を使用するスマートホームの用途として、音声制御の照明や家電製品、ハンズフリーのポータブルスピーカ、ネットワークスピーカについて考えてみましょう。これらの用途で必要になるのが、ノイズなど環境的な干渉を抑えてより正確で確実な音声指示を実現しユーザーエクスペリエンスを高めるための、音声キャプチャソリューションです。

音声アシスタントを実装する場合、ノイズの多い環境や音楽の再生中でも、高い精度でウェイクワードによる起動やコマンドが理解されることが要求されます。エコー除去も優れたユーザーエクスペリエンスを得るための重要な要素です。エコーを除去することで、大音量の音楽再生を中断してAlexaが応答でき、ユーザーの新しいリクエストに確実に対応できるようになります。

AVSの設計を試すのに最適なスタート地点として考えられるのは、Cirrus LogicのAVS用音声キャプチャ開発キット、598-2471-KITの活用です。このキットは、音響調整されたオーディオ処理ハードウェア/ソフトウェアコンポーネントをともなうコンパクトなオーディオ機器にAlexa機能を統合するための製品です(図1)。Raspberry Pi 3プラットフォームをベースにしており、Cirrus LogicのCS47L24-CWZRスマートコーデック、デジタルMEMSマイクロフォン、および音声制御、ノイズ抑圧、エコーキャンセル用のSoundClear® アルゴリズムを備えたリファレンスボードが付属しています。

Cirrus Logicの598-2471-KIT音声キャプチャ開発キットの画像図1:Cirrus LogicのAVS対応デバイス用音声キャプチャ開発キット598-2471-KITにより、音声キャプチャボード(右上)をRaspberry Pi 3(左上)にケーブルで装着するか、またはHATとしてRaspberry Pi 3の上に装着できます。(画像提供:Cirrus Logic)

音声キャプチャ構成ブロック

音声キャプチャプロセスは、デュアルコア300 MMAC DSPとオーディオハブコーデックを組み合わせたCS47L24音声プロセッサから始まり、さまざまな高電力効率、固定機能のオーディオ処理ブロックに対応します(図2)。プログラマブルDSPコアは、マルチマイクノイズ抑圧、音響エコー除去(AEC)、音声認識などの高度なオーディオ処理機能を幅広くサポートします。

Cirrus LogicのCS47L24音声プロセッサの図図2:キットの音声キャプチャは、デュアルコア300 MMAC DSPとオーディオハブコーデックを組み合わせたCS47L24音声プロセッサから始まり、さまざまな高電力効率、固定機能のオーディオ処理ブロックに対応します。(画像提供:Cirrus Logic)

CS47L24スマートコーデックは、2ワットのモノラルスピーカドライバを備えたオンチップD/Aコンバータ(DAC)を使用して、ハイファイオーディオを再生できます。自動サンプルレート検出をサポートし、広帯域および狭帯域の音声通話ハンドオーバーに役立ちます。CS47L24プロセッサには3つのデジタルオーディオインターフェースがあり、それぞれが幅広い標準オーディオサンプルレートとシリアルインターフェース形式をサポートします。

CS47L24は1.8Vと1.2Vの外部電源で稼動し、その電力、クロッキング、出力ドライバアーキテクチャはすべて、音声、音楽、およびスタンバイの各モードで低電力を実現できるように設計されています。また、CS47L24には、1.8Vを超えるマイクロフォン動作用のMICVDD入力も別個に備えています。

デジタルMEMSマイクロフォンICおよび付随するSoundClearアルゴリズムは、音声制御、ノイズ抑圧、エコー除去に対応し、入力時に高品質なオーディオを可能にして、しかもマイクロフォンの消費電力を抑えます。このICは2つの動作モードをサポートしています。1つは常時オンの音声アクティビティ検出に適している低電力モード、もう1つはハイファイ録音に最適化された高性能モードです。このモードは適用されるクロック周波数によって決まります。

マイクロフォンにはA/Dコンバータ(ADC)が組み込まれており、パルス密度変調(PDM)エンコーディングを使用してシングルビットデータストリームを出力し、さらにステレオ構成とアレイ構成で複数のマイクロフォンを効率的に接続します。設計者にとって、マルチマイクロフォンICを選ぶことは重要です。なぜなら、これらのICを最適化して、ビームフォーミング技術を駆使した非常に効果的なノイズリダクションやエコー除去を実現し、最も鮮明な全二重通信とオーディオキャプチャを達成できるからです。

MEMSマイクロフォンは、ノイズフロアと音響過負荷ポイント間に広いダイナミックレンジ(目安として100dBから)をもたらす必要があります。これにより、静かな環境と騒がしい環境の両方でハイファイオーディオ録音が可能になります。たとえば、クラシック音楽や音声などの低入力レベルのオーディオコンテンツをバックグラウンドのヒスノイズなしで録音できます。同時に、ロックコンサートや風切り音などの大音量の入力時に、マイクロフォンの歪みが発生しません。

ハードウェアを最大限に活用できるように、SoundClearアルゴリズムは、ノイズ抑圧、自動音声認識(ASR)Enhance™、エコー除去などの処理機能によりノイズを除去します。

遠隔音声キャプチャ

もう1つの音声キャプチャソリューションは、Amazon AVSに対応するXK-VF3500-L33-AVS VocalFusion™ステレオ開発キットです。この製品は、スマートTV、サウンドバー、セットトップボックス、デジタルメディアアダプタなどの遠隔ユースケースを対象にしたものです。これらのアプリケーションでは、ステレオAECによる「部屋全体」の音声インターフェースソリューションのサポートが必須になっており、音声指示でテレビのスイッチを入れたり、卓上ランプを調光したりできます。

遠隔音声キャプチャのアプリケーションでは、AEC基準信号を正確に較正し、レイテンシを慎重に調整する必要があります。これを行うことで、コンテンツの量や周辺環境を問わず、設計する遠隔音声アクセサリがユーザーの音声指示を正確に聞き取ることができるようになります。

VocalFusionキットはリニアのマイクロフォンアレイ用ソリューションで、Amazonにより遠隔性能が認定されています。これにより、AlexaをスマートTV、照明、家電製品など部屋の端に寄せて置くデバイスに組み込むことができます。このキットは、XVF3500-FB167-C音声プロセッサを中心に構築されており、2チャンネルの全二重AECを実現して、複雑な音響環境での音声キャプチャに対応します(図3)。DSP対応のAEC機能により、残響除去、自動ゲイン制御、ノイズ抑圧を容易に行い、騒音の多い環境でも明瞭な音声対話が可能になります。

XMOS XVF3500音声プロセッサの図図3:XVF3500音声プロセッサは、適応ビーム形成を駆使することで目的のスピーチソースを特定してステレオのオーディオ音声から音声指示を効果的に分離し、バックグラウンドノイズや部屋のエコーを抑制します。(画像提供:XMOS)

次に、マイクロフォン4個のVocalFusionキットではInfineonのXENSIV™ IM69D130V01XTSA1 MEMSマイクロフォンが使われており、このマイクロフォンからXVF3500音声プロセッサでオーディオ信号処理アルゴリズムを実行するためのローオーディオデータが得られます。このIM69D130マイクロフォンは、遠くの声とささやき声をピックアップする性能を発揮し、音圧レベル(SPL)最大128dBで全高調波歪み率(THD)1%未満を実現するように設計されています。

音声キャプチャ設計に含まれる「バージイン」機能により、ユーザーは音楽再生中のデバイスを中断または一時停止でき、ステレオホームエンターテインメントやウォールマウントAV機器にAlexaベースの設計の新機軸をもたらすことができます(図4)。

音声キャプチャプロセッサとマイクロフォンの図(クリックして拡大)図4:音声キャプチャプロセッサとマイクロフォンが連動することで、遠隔音声認識Alexaアプリケーション用の音声インターフェースが生まれます。(画像提供:Infineon Technologies)

実際の実装例には、Skyworthの人工知能(AI)対応スマートTVがあり、このTVはXVF3500音声プロセッサをベースにしています。常時オンのスマートTVがウェイクアップし、180度全方位の音源識別により最大5m離れた場所からの音声指示に応答します。

スマートヘッドセットの設計

その対極にある製品設計は、イヤホンとヘッドセットです。スマートフォンやタブレットと組み合わされる一方で、これらはカレンダー管理、スマートホームコントロール、音楽ストリーミング、最新の天気情報のために音声アシスタントとの統合がますます求められています。スマートスピーカと同様に、Bluetoothヘッドセットも騒音の多い環境で高品質のオーディオを伝送できるように改善し続ける必要があります。

AVSおよびGoogle Assistantプラットフォーム向けにQualcommが提供するスマートヘッドセットのリファレンス設計/開発キットは代表的な構成ブロックで、これを使用することで音声起動式のヘッドセットやヒアラブルデバイスの開発を始めやすくなります。リファレンスボードは音声アシスタントの評価に役立つ一方で、設計キットを使用することで設計技術者は完全な開発環境に移行できます。

次に取り上げるのは、Googleアシスタント用にQualcommが提供するDK-QCC5124-GAHS-A-0 スマートヘッドセット開発キットです。この製品は、Google AssistantアプリがインストールされているAndroidスマートフォンで、押ボタンによるGoogle音声アシスタントのアクティベーションがサポートされています。また、QualcommのBluetoothオーディオチップセットを中心に構築されており、Qualcomm Clear Voice Capture(cVc™)ノイズリダクション技術を使用することで、ノイズ抑圧や他のオーディオ強化により周囲の音を低減し通話者の音声を聞き取りやすくします。

cVc 6.0テクノロジでは、明瞭な通話を可能にするノイズリダクションアルゴリズムのセットにより、パケット損失とビットエラーを隠すことができます。また、もう1つの注目すべき技術としてQualcommのaptX™ HDがあります。この技術によってレイテンシの低減が容易になり、安定したオーディオストリーミングを実現します。これは高品位Bluetoothオーディオコーデックで、S/N比を改善しバックグラウンドノイズを下げるように設計されています。

QualcommのAmazon AVS向けDK-QCC5124-AVSHS-A-0スマートヘッドセットリファレンス設計は、cVc 6.0ノイズリダクションとaptX HDワイヤレスオーディオ技術の両方をサポートします。またAlexaアプリがインストールされた携帯電話での押ボタンによるAlexaのアクティベーションに対応します。

QualcommのQCC5124 Bluetoothトランシーバチップセットを中心に構築されたプラットフォームは、Alexaモバイルアクセサリ(AMA)キットもサポートするので、ユーザーがAndroidやiOSデバイス上のAlexa携帯アプリにBluetoothを簡単に接続できるようになります(図5)。AMAキットでは、ヘッドセットからモバイルフォンを通じてAlexaに音声で指示する通信が容易になる一方、Amazon AVSは自然言語処理の重い処理も実行します。

QualcommのAmazon AVS用DK-QCC5124-AVSHS-A-0開発ボードの図図5:Amazon AVS向けDK-QCC5124-AVSHS-A-0開発ボードにはスマートヘッドセット設計の中心的な構成ブロックが含まれています。(画像提供:Qualcomm)

ここには2つの要点として、開発者がAlexaの統合で符号化の大部分を監修する必要がないこと、さらにBluetoothコネクティビティ以外の通信ハードウェアを追加する必要がないことがあります。

さらにより高次では、AMAキットによってAmazon AVSがスマートヘッドセットなどの音声アクセサリとAlexaサービスとの間で通信を行いやすくなります。それを可能にするのが、音声アクセサリとAlexa携帯アプリの間で動作する制御メカニズムです。

開発者は評価後にオープンな基板開発キットを使用できます。なお、このオープンな基板開発キットのプログラミングにはトランザクションブリッジ(DK-TRBI200-CE684-1)が必要になりますが、これはキットに付属せず別途購入となります。

まとめ

音声アシスタントを次の設計に統合することを目指す設計者のために、半導体サプライヤは、ウェイクワード認識、ノイズキャンセレーション、低電力、常時オン機能など、時間のかかる多くの開発作業をすでに行っています。このようなサプライヤのリファレンス設計と開発キットを使用することで、設計者はスマートヘッドセットやスマートスピーカから家全体の音声制御に至る、幅広いインテリジェント音声制御サービス向けの音声キャプチャソリューションを開発できます。

 
DigiKey logo

免責条項:このウェブサイト上で、さまざまな著者および/またはフォーラム参加者によって表明された意見、信念や視点は、DigiKeyの意見、信念および視点またはDigiKeyの公式な方針を必ずしも反映するものではありません。

著者について

Image of Majeed Ahmad

Majeed Ahmad

Majeed Ahmad氏は、B2Bテクノロジメディアで20年以上の経験を持つ電子エンジニアです。彼は、EE Timesの姉妹誌であるEE Times Asiaの前編集長です。

Majeedは、電子に関する本を6冊書いています。彼はまた、All About Circuits、Electronic Products、およびEmbedded Computing Designを含むエレクトロニクス設計の出版物に頻繁に寄稿しています。

出版者について

DigiKeyの北米担当編集者