マシンビジョンは今、オートメーションをどう進化させるか

著者 ジョディ・ムエラナー

マシンビジョンとは、自動機器(産業用など)に、画像から周囲の環境を高度に理解させる技術の集合体のことです。マシンビジョンソフトウェアがなければ、デジタル画像は、そのような機器にとって、さまざまな色値や階調強度を持つ、単なるつながりのない画素の集合体でしかないのです。マシンビジョンは、コンピュータ(通常は機械制御に接続されている)が画像内のエッジや形状を検出し、上位の処理ルーチンが事前に定義された物体を識別することを可能にします。この意味での画像は、必ずしも可視光線の画像に限らず、赤外線、レーザー、X線、超音波などの信号を用いて得られる画像も含まれます。

より高度なロボットアプリケーションへのマシンビジョンの活用の画像図1:より高度なロボティクスアプリケーションへのマシンビジョンの利用が増加しています。(画像出典: John6863373|Dreamstime.com

産業環境でよく見られるマシンビジョンの応用として、ランダムに配置された(乱雑に混ざった)部品が入ったビンの中から特定の部品を識別するというものがあります。ここでは、マシンビジョンによって、ピックアンドプレイスロボットが自動的に正しい部品をピックアップするのを補助することができます。もちろん、トレイの上に同じ向きにきれいに並んでいれば、画像フィードバックで認識することは比較的容易です。また一方、ロバストなマシンビジョンアルゴリズムは、カメラからの距離が異なる(つまり、画像センサで異なるサイズに見える)物体や、異なる向きの物体を認識することができます。

最も高度なマシンビジョンシステムは、ビンピッキングよりもはるかに高度な最新の設計を可能にしました。例えば、自動運転車ほど理解しやすいものはないかもしれません。

マシンビジョンで環境を高度に理解させるシステムを提供するという画像図2:マシンビジョンは、画像から環境設定を高度に理解するシステム(産業用など)を提供します。(画像提供: Wikimedia

マシンビジョンの関連技術

マシンビジョン という用語は、画像から情報を抽出する、より確立された効率的な数学的手法を参照するために予約されることもあります。一方、 コンピュータビジョン という用語は、機械学習や人工知能(AI)を使ったブラックボックス的なアプローチなど、より近代的で計算量の多いシステムを指すことが一般的です。しかし、マシンビジョンは、画像から高度な情報を抽出する方法を包括する用語でもあり、そうした中で、コンピュータビジョンがその基本的な動作原理を示しています。

画像から高度な情報を抽出する技術は数多く存在します。研究者の間では、このような技術はマシンビジョンとは別物として扱われることもあります。しかし、実際には、どれもマシンビジョンを実現するための異なる方法であり、多くの場合、それらは部分的に共通しています。

デジタル画像処理 とは、デジタル信号処理の一種で、画像強調、復元、符号化、圧縮などを行うものです。アナログ画像処理と比較すると、ノイズや歪みが少なく、アルゴリズムが豊富であることが利点です。初期に使用した画像処理のひとつに、近距離からの 月面の画像があります。このため、写真測量マッピングやノイズフィルタ、画像カメラと月面の位置関係から生じる幾何学的な歪みの補正などを行いました。

Texas Instruments DLPC350集積回路(IC)コントローラの画像図3: DLPC350 集積回路(IC)コントローラは、表示パターンをカメラと同期させるためのトリガ信号を入出力します。産業機器、医療機器、セキュリティ機器に3Dマシンビジョンを付加するために設計されたデジタルマイクロミラーデバイス(DMDs)に対応します。実際、用途には、3Dスキャンだけでなく、計測システムも含まれています。(画像出典: Texas Instruments

デジタル画像強調では、コントラストを上げることが多く、視野角やレンズの歪みなどの幾何学的な補正をすることもあります。圧縮は通常、複素信号をコサイン関数の組み合わせに近似させることで実現します。フーリエ変換の一種で、離散コサイン変換(DCT)として知られています。DCTの応用としては、JPEGファイル形式が最も一般的です。画像の復元では、ノイズや輪郭などのぼやけを除去するためにフーリエ変換を使用することもあります。

写真測量 では、画像から計測値を抽出するために、ある種の特徴識別を行います。この計測は、同じシーンを異なる位置から複数枚撮影した場合、3D情報が含まれます。最も単純な写真測量システムは、スケールを使って画像内の2点間の距離を測定します。このためには、通常、画像に既知のスケールリファレンスを含めることが必要です。

特徴検出 により、コンピュータは画像内のエッジやコーナー、ポイントを識別することができます。これは、物体や運動の識別だけでなく、写真測量のために必要な最初のステップです。ブロブ検出は、エッジ検出やコーナー検出では滑らかすぎるエッジを持つ領域を識別することができます。

パターン認識 は、特定の物体を識別するために使用されます。簡単に言うと、コンベア上の特定の明確な機械部品を探すということです。

3D再構成 は、2D画像から物体の3D形状を決定するものです。写真測量法では、(異なる観測点からの画像で識別される)共通の特徴の高さを三角測量で決定することで実現できます。また、1枚の2D画像を用いて3D再構成を行うことも可能です。この場合、エッジや濃淡の領域の幾何学的な関係などは、ソフトウェアが解釈します。

3Dスキャナで物体の2D画像を撮影する画像図4: 3Dスキャナ で物体の2D画像を取り込み、3Dモデルを作成します。場合によっては、デジタルモデルを採用してコピーを3Dプリントすることもあります。(画像提供: Shenzhen Creality 3D Technology Co.

人間は、単純な線画から立方体を、陰影のある円から球体を、簡単に頭の中で再構成することができます。陰影をつけることで、表面の勾配を表現することができます。しかし、陰影は1次元のパラメータであるのに対し、傾きは2次元で発生するため、このような推論のプロセスは案外複雑です。これは、物理的に不可能なものを描いたアートが証明しているように、曖昧さの原因になる可能性があります。

2次元画像からワークピースの3次元形状をコンピュータで判定する画像図5:2次元画像からワークの3次元形状をコンピュータで決定することには、課題があります。

マシンビジョンタスクの順序

多くのマシンビジョンシステムは、低レベルの操作から始めて、1つずつ高次の操作に進むことで、上記の技術を徐々に組み合わせています。最も低いレベルでは、画像のすべてのピクセルが高帯域幅のデータとして保持されます。そして、一連の各操作は、比較的少ないデータ量で画像の特徴を識別し、注目すべき情報を表します。

画像の強調と復元という低レベルの操作が最初にあり、その後に特徴検出が続きます。そのため、複数のセンサを使用する場合、低レベルの操作は、個々のセンサ専用の分散プロセスで実行されることがあります。個々の画像の特徴を検出すると、より高度な写真測量が可能になり、複数の画像やセンサのデータを組み合わせて、あらゆる物体の識別などを行うことができます。

直接計算および学習アルゴリズム

マシンビジョンにおける 直接計算 とは、人間のプログラマが手動で定義した数学的関数の集合を指します。画像の画素値などを入力し、オブジェクトのエッジの座標などを出力します。一方、学習アルゴリズムは、人間が直接書くのではなく、入力と出力を関連付けたサンプルデータセットによってトレーニングさせるものです。つまり、ブラックボックスとして機能します。現在、こうした機械学習のほとんどは、人工ニューラルネットワークをベースとしたディープラーニングを採用して計算を行います。

Banner Engineering iVuシリーズイメージセンサの画像図6: iVu シリーズのイメージセンサは、ワークの種類、大きさ、位置、向き、色合いなどでワークを識別することができます。マシンビジョンコンポーネントは、統合画面、リモートHMI、PCの設定や監視を行うことができます。カメラ、コントローラ、レンズ、ライトがあらかじめ一体化されています。(画像提供: Banner Engineering

産業用途の単純な機械学習は、直接計算をベースにした方が信頼性が高く、計算量も少なくて済むことが多いです。もちろん、直接計算で実現できることには限界があります。例えば、顔で個人を識別するのに必要な高度なパターン認識を、特に混雑した公共の場のビデオフィードから行うことは不可能です。これに対して、機械学習はそのような用途に巧みに対応します。そのため、画像強調や復元、特徴検出など、より低レベルのマシンビジョン操作に機械学習が導入されることが多くなっているのも不思議ではありません。

ティーチングアプローチ(アルゴリズムではなく)の改善

ディープラーニング技術の完成度が高まるにつれ、学習アルゴリズム自体の改善ではなく、トレーニング方法の改善が必要であることが明らかになりました。そのような改善されたトレーニングルーチンの1つが、 データ中心型コンピュータビジョンと呼ばれるものです。ディープラーニングシステムは、数1000枚、数100万枚、数10億枚の画像からなる非常に大きなトレーニングセットを受け入れ、それぞれの画像からアルゴリズムが抽出した結果を保存します。アルゴリズムは、成功例を実行し、正しい値を導き出せたかどうかを「answer book」で検証することで効率的に学習することができます。

デジタルパターン認識の初期にまつわる昔話は、教訓的な意味合いもあります。米軍はマシンビジョンによる標的認識を計画しており、軍事企業によるデモンストレーションでは、米国製とロシア製の戦車を確実に識別することができました。さまざまな戦車が、サプライヤからの航空写真から、次々と正しく識別されていくのです。しかし、米国国防総省が所有する写真ライブラリで再度テストを行ったところ、システムは間違った答えを出し続けました。問題は、軍事企業の画像に、砂漠の米軍戦車と緑地のロシア軍戦車がすべて描かれていたことでした。戦車の違いではなく、背景の色の違いを認識していたのです。それが教訓ですか。学習アルゴリズムが有用であるためには、慎重にキュレートされたトレーニングデータが提示される必要があります。

結論:ロボットのワークセルの安全性に関するビジョン

マシンビジョンは、もはやニッチな技術ではありません。産業用アプリケーションで最も導入が進んでいます。特に、工場作業員がヘルメットやマスクなどの保護具を着用せずに作業区域に入ると、アラームや音声で知らせる安全システムを、マシンビジョンが補完するようになったことは、画期的な進歩です。また、フォークリフトなどの移動機械が人に近づきすぎたことを知らせるシステムも、マシンビジョンで実現することができます。

このようなマシンビジョンシステムは、産業用ロボットを囲むハードガードの代わりとして、より効率的な運用を可能にすることもあります。また、工場作業員がワークセルに入ると機械が止まるだけのライトガードによる安全システムの置き換えや強化も可能です。ワークセル周辺の床面をマシンビジョンで監視することで、人が近づくとセル内のロボットが徐々に速度を落とすことが可能です。

工場環境の設計が発展し、作業員が安全に移動できる(作業中も)協働ロボットやその他のワークセル機器に対応できるようになれば、マシンビジョンに基づくその他のシステムは、工場のプロセスにおいてより一般的なものとなります。

免責条項:このウェブサイト上で、さまざまな著者および/またはフォーラム参加者によって表明された意見、信念や視点は、DigiKeyの意見、信念および視点またはDigiKeyの公式な方針を必ずしも反映するものではありません。

著者について

Image of Dr. Jody Muelaner

ジョディ・ムエラナー

ジョディ・ムエラナー博士は、製材所や医療機器の設計、航空宇宙製造システムの不確実性への対応、革新的なレーザー機器の開発などに携わってきたエンジニアです。同氏は、数多くの査読付き専門誌や政府の概要資料に寄稿しています...また、Rolls-Royce、SAE International、Airbusのための技術報告書も書いています。現在は、電動自転車を開発するプロジェクトを率いています。詳細はbetterbicycles.orgをご覧ください。また、同氏は脱炭素化技術に関する動向もカバーしています。