音声起動設計において音声検出とキーワード認識を支えるMEMSマイクロフォン

著者 Majeed Ahmad

DigiKeyの北米担当編集者の提供

2020-04-23

利用者がユーザーインターフェースとしての音声に頼る度合いが高まるにしたがい、最大限に正確で信頼性の高い音声ユーザーインターフェース（VUI）を実現することが設計者にとって課題になりつつあります。しかも可能な限りの低消費電力と短い応答時間を達成するとともに、より厳しいスペースおよびコストの要件を満たし、これまで以上に設計スケジュールを短縮しなければなりません。設計者がこれらの目的を達成するのを支援するため、VUI向けの確実なウェイクワード検出とボイスコマンド処理に有効な性能特性を備えた、先進的なマイクロエレクトロメカニカルシステム（MEMS）マイクロフォンをベンダー数社が発売しています。

MEMSマイクロフォン（シリコンマイクロフォンとも呼ばれる）は、リモコンだけでなく既にスマートフォン、スマートウォッチ、ワイヤレスイヤホン、自動車、スマートTVで普及しています。これは主に、AmazonのAlexa、Googleアシスタント、AppleのSiriなど、音声を利用したパーソナルアシスタントの成功が影響していると言えそうです。これらのアシスタントは、ウェイクワード検出アルゴリズムを使用して特定の音声コマンドを聴き、それらを周囲から抽出します。設計者にとってのポイントは、周囲のノイズに左右されない信頼性、正確さ、離れた場所の音声キャプチャ機能を高めつつ、この抽出機能を迅速にコスト効率良く実装することです。

この記事では、VUI設計に影響するMEMSマイクロフォンの特性である信号雑音比（SN比）、ダイナミックレンジ、感度、起動時間などについて説明します。次に、TDK InvenSense、CUI Devices、STMicroelectronics、Vesper Technologiesの各社によるハードウェアおよびソフトウェアのソリューションを紹介し、音声起動設計に応用する方法を示します。

MEMSマイクロフォンの動作原理

MEMSマイクロフォンは、一般に単一パッケージに収めた2つの部品、音波を電気信号に変換するMEMS薄膜と、インピーダンス変換器として動作して使用可能なアナログ出力をオーディオ信号チェーンに送るアンプで構成されています。デジタル出力が必要な場合は、3つ目の部品となるA/Dコンバータ（ADC）も同じダイに内蔵している場合があります。

MEMSマイクロフォンの基本構造の図図1：2つの主要構成要素であるMEMSトランスデューサと信号処理チェーン（ASIC内）を示しているMEMSマイクロフォンの基本構造。（画像提供：CUI Devices）

MEMS技術は、アナログまたはデジタルの出力を備えたミニチュアマイクロフォンを可能にするとともに、位相のマッチングおよびドリフトに関しても優れた性能を達成できます。

MEMSマイクロフォンの主な特性

音声制御機器の設計者がMEMSマイクロフォンに関して注目する主なパラメータには、以下のものがあります。

信号雑音比（SN比）：これは、マイクロフォン出力信号の基準信号レベルとノイズレベルの比です。SN比の測定値には、マイクロフォン素子と、MEMSマイクロフォンパッケージに組み込まれているICなどのすべてのデバイスに起因するノイズが含まれます。
感度：音圧レベル（SPL）が94dB、つまり圧力の尺度で1Paの1kHzの正弦波に対するアナログまたはデジタルの出力値。
感度許容差：ある特定の個別のマイクロフォンの感度の範囲。厳密な感度許容差では、多数のマイクロフォンを使用する場合の一貫性が保証されます。
ダイナミックレンジ：マイクロフォンが線形応答するSPLの最大値と最小値の差の尺度。
周波数応答：マイクロフォンが作動可能な音声の範囲。
起動時間：マイクロフォンがトリガ事象に応答して、どれだけすばやく起動し、有効な信号を出力できるかを示します。

リモコン、TV、スマートスピーカなどの音声制御機器は、多くの場合周囲に大きなノイズがある中で動作します。また、ユーザーが近くにいる場合もあれば、離れた場所での動作で1～10mの距離にいる場合もあります。これらの状況によって、マイクロフォンのダイナミックレンジ、感度、SN比が非常に重要になります。複数のマイクロフォンをアレイにして使うアプリケーションでは、感度許容差がきわめて重要になります。

各マイクロフォンがある特定の感度レベルを備えるように仕様で規定されていても、微小な構造変化が変動の原因になる場合があります。しかし、MEMSマイクロフォンは厳しく制御された半導体製造工程で製造されるため、マイクロフォンアレイの効果的な信号処理に必要な範囲に厳格に一致する感度許容差を実現しています（図2）。

アレイで使用されるマイクロフォンの図 図2：アレイで使用されるマイクロフォンは、望ましい信号処理性能を実現するように厳密に適合している必要があります。（画像提供：CUI Devices）

この厳密な許容差はきわめて重要であり、VUI対応設計でのマイクロフォンアレイの採用を増大させています。マイクロフォンアレイでは、2つ以上のマイクロフォンを使用して信号を収集し、各マイクロフォンからの信号を個別に処理（増幅、遅延、またはフィルタ処理）してから、それらの信号を結合して最終的な信号を形成します。マイクロフォンアレイでは、複数の入力から指向性応答を生成し（ビーム形成とも呼ばれる）、より目的にかなった方向からの音に焦点を合わせつつ、望ましくないノイズを除去することができます。

MEMSマイクロフォンの起動時間も、キーワードの全体を捕捉してキーワードの正確さを保証することに関して重要です。電力を節約するため、VUI対応機器は低電力状態に維持されます。しかしマイクロフォンが起動トリガに応答する起動時間が短いと、VUIの起動時間に影響し、その結果ウェイクワード検出性能および消費電力に影響します。

これらの特性を念頭においてマイクロフォンを選択すると、大きな周囲ノイズがある場合やユーザーが離れたところで発話する場合、またはその両方の場合に、後続の音声処理アルゴリズムがユーザー音声の抽出をより良く行うことができます。

アナログ式とデジタル式のMEMSマイクロフォンインターフェース

MEMSマイクロフォンの動作原理の節で触れたように、MEMSマイクロフォンからの出力はアナログとデジタルのどちらかです。アナログMEMSマイクロフォンは、内蔵アンプでマイクロフォンの出力信号を低出力インピーダンスにより十分な高レベルに増幅します。このため、音声プロセッサとのインターフェース接続が容易です。VUIの場合、設計者は関連するプロセッサがADCを内蔵していることを確認する必要があります。または特定要件を満たすADCを選択することもできます。後者の場合には複雑さとコストが増す場合があります。

デジタルMEMSマイクロフォンの場合は、マイクロフォン出力を直接、デジタル回路、一般的にはマイクロコントローラかデジタル信号プロセッサ（DSP）に印加できます。デジタル出力信号はアナログ出力信号に比べてノイズ耐性に優れているため、電気ノイズの多い環境向けのVUI設計ではデジタルマイクロフォンが好まれる傾向があります。

また、一般にデジタルMEMSマイクロフォンは、パルス密度変調（PDM）でアナログ信号電圧を、対応する密度のロジックハイ信号を含んだシングルビットデジタルストリームに変換します。このため、さらに無線周波数妨害（RFI）および電磁妨害（EMI）に対する耐性が高くなります。これは特に、大規模マイクロフォンアレイと音声対応車両インフォテインメントシステムのような物理的に大型のシステムにおいて重要です。

感度に関しては、アナログマイクロフォンの場合、1ボルトを基準にしたデシベル単位の音圧レベルで測定されます（dB/V）。デジタルマイクロフォンの場合は、通常、フルスケールを基準とするデシベル値（dB FS）として測定されます。

VUI向けMEMSマイクロフォンソリューション

TDK InvenSense社のアナログMEMSマイクロフォンICS-40740は、VUIアプリケーションで重要となる多くのマイクロフォン性能要件を満たしています。MEMSマイクロフォン素子、インピーダンスコンバータ、差動出力アンプで構成され、4.00 x 3.00 x 1.20mmの小型面実装パッケージに収められています。実際に消費電流がわずか165µAの1.5V電源で動作します（図3）。

InvenSense製アナログMEMSマイクロフォンICS-40740の画像図3：アナログMEMSマイクロフォンICS-40740は、スマートスピーカとノイズ防止ヘッドセットなどのウェアラブル機器においてサイズと電力バジェットの両方に適合。（画像提供： TDK InvenSense）

SN比は70dBA（A特性補正デシベル）であり、これと108.5dBの広いダイナミックレンジの組み合わせにより、周囲ノイズが大きい場合および遠方場の条件下でも音声を検出できます。また、動作周波数応答は80Hz～20kHzの広い範囲に及び、リニア応答は132.5dB、感度許容差は±1dBです。この感度許容差により、マイクロフォンアレイに最適となっています。

ICS-40740は小さなフットプリントおよび低消費電力という特長を備えているため、スマートスピーカおよびノイズ防止ヘッドセットなどのウェアラブル機器を中心として構築されるモノのインターネット（IoT）アプリケーションに適しています。

Vesper Technologies社のVM3000は、200µs未満の超高速起動を特長とする無指向性の下部ポート型デジタル圧電MEMSマイクロフォンで、ウェイクワード全体の捕捉に十分な高速起動ができます（図4）。

Vesper製圧電デジタルMEMSマイクロフォンVM3000の画像図4：圧電デジタルMEMSマイクロフォンVM3000は、200µs未満の超高速起動を特長とし、ウェイクワード全体の捕捉に十分な高速起動が可能。（画像提供： Vesper Technologies）

圧電MEMSマイクロフォンでは、音波が圧電カンチレバーに当たると、それを動かして電圧を発生させます。この電圧を超低消費電力コンパレータ回路が感知して、起動信号を音声システムに送信します。

圧電MEMSマイクロフォンにバイアス電圧が必要ない場合、VM3000はウェークワードコマンドによって起動するまで事実上まったく電力を消費しません。また、わずか0.35µAの消費電力でスリープモードを維持でき、100µs未満でパフォーマンスモードに切り換わることができます。超低消費電力のスリープモードは、高速のモード切り換えとの組み合わせにより、音声機器の起動時に情報が失なわれないことを保証します。

デジタルマイクロフォンであるVM3000は、事実上、どのような音声チップとも組み合わせて使うことができ、その出力は2つのマイクロフォンを単一のデータライン上に多重化できることが特長です。1kHz信号で標準的な63dBのSN比を達成し、SPLが122dBの音響過負荷ポイント（AOP）を実現しています。

VM3000のパッケージはサイズが3.5 x 2.65 x 1.3mmで、ADCの内蔵により部品点数（BOM）を削減しています。またVM3000は、単層の圧電水晶振動子を使用しているため、感度ドリフトに対する耐性があり、塵、水、湿気、その他の環境粒子から保護されます。

VM3000などの圧電MEMSマイクロフォンは、複数のマイクロフォンを覆う保護用のメッシュまたは膜が不要であるため、アレイ向けのオーディオ設計もシンプルになります。そのようなメッシュまたは膜は、通常、環境汚染に対する保護要素として音響ポートに取り付けられますが、MEMSマイクロフォンの感度低下につながる場合があります。

VM3000は、直接コーデックや他のプロセッサに接続できるという点で実装も比較的容易です（図5）。マスターシステム（コーデックなど）は、マスタークロックであるCLKを供給し、これがDATAライン上のビット送信レートを規定します。

Vesper社のVM3000を外部プロセッサに直接接続できることを示す図 図5：VM3000は外部プロセッサに直接接続可能で、2つのマイクロフォンを単一のDATAラインに接続できます。（画像提供：Vesper Technologies）

興味深いことに、2つのマイクロフォンを単一のDATAラインで接続できます。これは、データがクロック（CLK）の立ち上がりエッジまたは立ち下がりエッジでセットされるためです。どちらのエッジかはL/R Selectピンによって決まり、L/R Select = GNDの場合（上）は立ち下がりエッジでデータをセットし、L/R Select = VDDの場合（下）は立ち上がりエッジでデータをセットします。したがって、コーデックまたはプロセッサはCLKエッジのアライメントに基づいてビットストリームを分離できます。

使い始める：MEMSマイクロフォン評価キット

主なパラメータを評価し、MEMSマイクロフォンを使用した音声システムの設計を簡素化するため、サプライヤはリファレンスボードとソフトウェア開発キットを提供しています。たとえば、Vesper社は、デジタルMEMSマイクロフォンVM3000と0.1µFの電源バイパスコンデンサ、およびエッジコネクタで構成された評価ボードS-VM3000-Cを提供しています。

同様に、TDK InvenSense社は同社のアナログMEMSセンサICS-40740用に差動アナログ出力マイクロフォンの性能を迅速かつ効率的に分析できる評価ボードEV_ICS-40740-FXを提供しています。MEMSマイクロフォンを別にして、この開発キットに用意されている他の部品は0.1µFの電源バイパスコンデンサだけです。

アナログとデジタルの両方のMEMSマイクロフォンを提供しているCUI Devices社は、設計の試作およびテスト用開発キットDEVKIT-MEMS-001を提供しています（図6）。この評価ボードは、4つの独立したマイクロフォン評価回路が特長です。

CUI Devices製開発ボードDEVKIT-MEMS-001の画像 図6：DEVKIT-MEMS-001は4つの分離可能なマイクロフォン評価回路（アナログ出力用2つ、デジタル出力用2つ）が特長。（画像提供：CUI Devices）

このボードには、2つのアナログMEMSマイクロフォン（下部ポート型のCMM-2718AB-38308-TRと上部ポート型のCMM-2718AT-42308-TR）と2つのデジタルMEMSマイクロフォン（下部ポート型のCMM-4030DB-26354-TRと上部ポート型のCMM-4030DT-26354-TR）が搭載されています。設計に柔軟性を持たせるため、アナログ出力とデジタル出力の両タイプのマイクロフォン向けとして上部音響ポートおよび下部音響ポートの選択肢があります。

この2つのアナログデバイスを比較すると、CMM-2718AB-38308-TRは感度が-38dB、SN比が65dBAです。CM-2718AT-43208-TRは感度が-42dB、SN比が60dBAです。どちらも周波数範囲は100Hz～10kHzで、2Vの電源レールからの80µAを消費します。

2つのデジタルマイクロフォンについては、CMM-4030DB-26354-TRは感度が-26dB FS、SN比が64dBAです。CMM-4030DT-26354-TRは感度が-26dB FS、SN比が65dBAです。どちらも1ビットPDMデータ形式を使用して周波数範囲100Hz～10kHzで動作し、2V電源からの0.54mAを消費します。

まとめ

MEMSマイクロフォン（アナログとデジタルの両タイプ）を詳しく見ると、システムレベルの性能の利点と、常時オンの音声インターフェースの設計がいかに補完されるかが明らかになります。最新のMEMSマイクロフォンは、電池寿命を延ばし、遠方場の音声品質を高め、環境汚染に耐える新技術を採用しています。キーワード認識の確度向上は、設計上のもうひとつの考慮事項であり、SN比、感度許容差、起動時間などのパラメータと強く関連しています。最新のデバイスではこれらすべてが対処されていて、より良くVUI設計に対応することが可能となっています。