連載
» 2015年11月16日 07時00分 公開

組み込みにおけるコンピュータビジョンを整理するSYSTEM DESIGN JOURNAL(3/5 ページ)

[Ron Wilson,Altera Corporation. MONOist]

オブジェクトを取得する

 ビジョン・パイプラインの次のステージは、抽出した特徴を安定した関連があると思われるパターンにまとめた後、その特徴のパターンからシーンにオブジェクトが存在することを推測することです。光学式文字読取装置(OCR)では、接続したストロークのグループや、互いに他のストロークよりは近くに存在するストロークのグループは、文字を構成すると考えられます。

 特徴を結び付けてオブジェクトを形成するという課題は、写真やビデオなどの色調が連続したイメージを扱うシステムではさらに厄介になります。そのようなシステムには、近さ、色、取り囲むエッジ、または主題の先験的知識から示唆されるその他のルールによって特徴をグループ化しようとする際に、幾つかの連続したパターン抽出レイヤーが必要になる場合があります。特徴をグループ化してパターンとした後、システムが特徴のパターンをオブジェクトとして認識するためには、多くの場合、それ以上のルールを適用しなければなりません。あるいは、システムが訓練した畳み込みニューラル・ネットワーク・レイヤーを使用してパターンを見つけ、オブジェクトを推測することもあります。

 多くのシステムでは、分類しようとせずにオブジェクトの場所を見つけるだけで十分です。Embedded Vision Summitに寄稿された2本の論文、Videantisのマーケティング担当バイス・プレジデントである Marco Jacobs(マルコ・ヤコブス)氏のシングルカメラ 3D ビジョンに関する説明とDysonのエレクトロニクス・リーダーである Mike Aldred(マイク・アルドレッド)氏による同社のビジョン駆動型ロボット掃除機「360 Eye」に関する基調講演がこの点を例証しています。

 ヤコブス氏の説明によれば、アルゴリズム開発会社のViscodaが3D方式を作り上げた後、Videantisがそれを同社独自の単一命令マルチデータ・ビジョン処理チップに採用しました。そのアルゴリズムは、オブジェクトを分離してからオブジェクトへの距離を測定するのではなく、ヤコブス氏が「特徴点のクラウド」と呼ぶシーン内の独特の特徴を、ピクセル値の勾配に基づく一連の行列演算で特定します。そのアルゴリズムは、勾配の変化が最大であるピクセルを見つけることにより、基本的にコーナー検出機能として動作します。

 そのアルゴリズムは、カメラが少し動いた後でキャプチャーしたイメージを2回目に抽出します。そして、2つのイメージにある特徴点の場所を比較してどの特徴点が2つのイメージの間で一致するかを判断し、ビデオ圧縮に使用されるモーション・ベクトルと同じようなモーション・ベクトルを作り出します。統計的ソルバはこのベクトルを使用してカメラの動き、各特徴点への距離、そして、視差が原因ではなく、特徴点が存在するオブジェクトが移動したと考えられる動きを、推定します。

 ヤコブス氏は「フレーム間の特徴点を特定する作業には多くの曖昧な面があります。そのため、オブジェクトへの範囲を正しく知るには約1000〜1500の特徴点のクラウドが必要です」と述べています。

 アルドレッド氏は、360 Eyeに使用したものと同じような方式を説明しました。同氏の説明では、Dysonがロボットを作ることに決めたとき、現実的にはほぼビジョンベースのシステムしか考えられなかったとのことです。Dysonの特徴的な遠心式電気掃除機には強力な高速回転モーターが必要で、アルドレッド氏は「掃除して充電ステーションに戻るには45分のバッテリー寿命が必要でした。そのため、迷うことはできませんでした。正確な地図を作り上げてそれを系統的にカバーする必要がありました」と述べています。

「ダイソン 360 Eye ロボット掃除機」 「ダイソン 360 Eye ロボット掃除機」 上面中央が360度の撮影が行えるパノラマカメラ

 開発者は垂直搭載カメラとリング状のレンズを選択し、360 Eyeの周りの床から部屋の壁のかなり上まで届く全周イメージを得ました。ですがアルドレッド氏は、「ほとんどの部屋の天井には、それほど多くの有用な情報があるわけではありません」と指摘しています。

360 Eyeが搭載カメラから得ている映像 360 Eyeが搭載カメラから得ている映像

 Viscodaと同じようなアプローチを取ったDysonのビジョンプロセッサは、この円筒状の表面を独特の特徴点で埋めています。アルドレッド氏は、「非常に豊富な一連の特徴が必要です。ロボットは、壁に壁紙が貼られていない、空の部屋ではいい仕事をしません」と述べています。システムは連続的なイメージからモーション・ベクトルを計算し、オブジェクトを抽出し、カルマン・フィルタを使用して同時局所化とマッピング(SLAM)を実行します。

 アルドレッド氏は、360 Eye の開発で最も時間を要したプロセスはアルゴリズムのテストと改良であったと報告しました。同氏は「アイデアは2008年に形作られました。私たちは継続的にシミュレータを開発し続け、実世界のデータ、しかも大量のデータの記録によってシミュレーションの計算結果を検証しました。一方、家庭でもテストを行いました。8年にわたって10万回行いました」と述べています。

Copyright © ITmedia, Inc. All Rights Reserved.