ランダムビンピッキングのコスト効率の高いアプローチ

著者 Keith Larson

DigiKeyの北米担当編集者の提供

2026-02-10

製造ラインの自動化が進むにつれて、かつては人の手で行っていた多くの複雑な作業が、現在では機械によって行われるようになりました。その中でも最も複雑な作業の1つが、ランダムビンピッキングです。つまり、トレイに無雑作に並べられた多くの部品の中から、ラインの次の作業に合致する部品を識別し、取り出す能力を指します。その部品は、他の部品の下に半分隠れている場合もあります。

ランダムビンピッキングの応用範囲は、機械への部品投入からセット揃え、選別まで多岐にわたり、この技術は自動車、電子機器、電子商取引、医療機器産業で広く活用されています。人間にとっては比較的単純な作業でも、ロボットアームでこの作業を成功させるためには、高速3Dマシンビジョン、パターン認識、経路計画アルゴリズムを活用しなければなりません。さらに最近では、機械学習によるアプローチも活用され、容器内部品の識別と確実な取り出しの精度向上に貢献しています。

構造化光とレーザースキャニングの比較

レーザー光を用いて表面を丁寧にスキャンし、マッピングする手法は広く知られていますが、最新のランダムビンピッキングシステムの多くは、レーザーマッピングよりも高速で安全、かつコスト効率の高い「構造化光」のアプローチを採用しています。ビンピッキング以外にも、構造化光スキャニングは、工業デザイン、品質管理、拡張現実ゲーム、医療画像診断などの分野で広く活用されています。周囲の照明条件や部品表面の反射は、潜在的な複雑化要因となる可能性があります。

構造化光では、縞模様や格子模様などの一連のパターン（図1）を容器の内容物に高速で投影します。プロジェクタ以外の角度からは、これらのパターンは歪んで見えます。これらの歪みは、容器の内容物の3次元的な複雑さを明らかにし、一連の静止画像として取り込まれます。ここで高速連続性高性能コンピューティングの必要性が重要となります。

物体の識別、位置、向きを明らかにする構造光スキャンの画像図1：構造化光スキャニングは、部品でいっぱいの容器内に投影された明暗パターンによって生成される画像を取り込み分析することで、容器内の各種部品の識別、位置、向きを明らかにします。（画像提供：Lattice Semiconductor）

FPGAは反復作業を担う

ほとんどの構造化光ソリューションは、Ethernetを経由で接続された2つのモジュール（センサモジュールとコンピューティングモジュール）で構成されています。センサモジュールはプロジェクタに接続され、容器内への一連の構造化光パターンの投影を開始します。プロジェクタに対して軸をずらして配置されたカメラが、その結果として投影された画像を撮影します。Lattice Semiconductorの構造化光ソリューションの場合、ポジ、ネガ、水平、垂直パターンを含む41枚の一連の離散的画像が生成されます。カメラが撮影した一連の画像は、MIPIカメラシリアルインターフェース（CSI）リンクを介してセンサモジュールに戻されます。

センサモジュールには、フィールドプログラマブルゲートアレイ（FPGA）リソースも搭載されており、一連の41枚の画像を1枚の10ビットコード化画像にエンコードします。この際、生成された画像における共通の「対応画素」の位置が示されます。このコード化画像は、Ethernetリンクを介してコンピューティングモジュールへ送信されます。このエンコーディングにより、コンピューティングモジュールへの伝送速度が大幅に向上するとともに、システム全体の応答性と性能も向上します。たとえば、1920 × 1080ピクセル解像度の41枚の生画像を送信する場合、データトラフィックは680MBになりますが、1枚のエンコードされた画像ではわずか41MBのデータ量にしかなりません。これは、データ量が16分の1に削減にされたことを意味し、それに伴うシステム性能の向上をもたらします。

センサモジュール内の追加FPGAは、さらにコンピューティングモジュールのタスクを軽減します。具体的には、容器内の個々の物体を効果的に輪郭化するピクセル単位の深度マップを生成し、関連するロボットアームの最適なピックポイント目標値を演算するのを支援します。これは非常に反復的な作業で、各ピクセルに対して並列処理が可能です。あるいは、ユーザーは同じコンピューティングモジュールリソースを使用しながら、機能を追加することもできます。同様に、FPGAは、機械学習ベースの物体検出とセグメンテーションの全部または一部を実行し、コンピューティングモジュールへの負荷をさらに軽減することができます。

ハードウェアとソフトウェア

センサモジュール内のFPGAと、コンピューティングモジュールのCPU/GPUの組み合わせが、このアプリケーションで非常に効果的に機能する理由は、各プラットフォームの補完的な強みにあります。FPGAは、41枚分の画像情報を1枚のエンコード済み画像に統合するために必要なセンサ固有の処理やフレームレベルの同期など、高度に反復的なタスクに優れています。これは、構成可能なハードウェア実装に最適なタスクです。一方、CPU/GPUの強みは、最適化や意思決定などの複雑で高レベルの演算にあり、これはソフトウェアで最も容易に実装できます（図2）。

図2：FPGAとCPU/GPUリソースの間で演算負荷を適切に分割することで、Lattice Semiconductorのランダムビンピッキングへのアプローチは、システム性能を最適化すると同時に、部品コストの観点からシステムコストを削減します。（画像提供：Lattice Semiconductor）

ランダムビンピッキングアプリケーションが、センサモジュールにおけるローカルFPGAエンコーディングにより、コンピューティングモジュールへ送信する必要のあるデータ量が劇的に削減され、ピッキング実行速度が向上します。また、FPGAはコンピューティングモジュール内のCPU/GPUに対する演算負荷も軽減するため、より低コストのプロセッサの使用が可能となります。

小型のフォームファクタと低消費電力特性により、センサモジュールはファンやヒートシンクといった放熱対策が不要な、比較的小型のプラスチック製エンクロージャに収めることが可能です。結果として、ソリューション全体の部品コスト削減が実現されます。

ループの完結

エンコードされた画像がセンサモジュールからコンピューティングモジュールに転送されると、CPU/GPUは三角測量を用いて、海底の地形図のようにエンコードされた画像から深度画像を生成します。この深度画像は、物体検出（セグメンテーション）およびその後のピックポイント演算に使用されます。物体の識別やピッキングポイントの演算ではコンピュータビジョンが主な役割を担いますが、より複雑なアプリケーションでは、幾何学的マッチングによる物体の検出を容易にするためCADモデルが使用される場合があります。最近では、より複雑な状況対応するため、機械学習をベースとしたアプローチが開発されており、ディープラーニングを活用して各ピック結果に基づく性能向上を図る手法もあります。

最後に、容器の内容物の3Dレンダリングが完了し、次の部品を取り出すための適切なピックポイントが選択されると、ロボットに実行のための指示が伝達されます。ランダムピックが完了すると、サイクルが再び開始されます。

まとめ

構造化光は、ランダムビンピッキング用途において、レーザーよりも安全かつ高性能です。さらに、FPGAとCPU/GPUリソースの両方を活用するハイブリッド方式が最高の性能を発揮し、部品コストの観点から最もコスト効率に優れています。これは、2つの半導体技術の適切な役割分担と、センサモジュール内のFPGAの比較的低い消費電力によるものです。これにより、補助的な冷却対策が不要となります。