組み込みにおけるコンピュータビジョンを整理する：SYSTEM DESIGN JOURNAL（1/5 ページ）

画像認識（コンピュータビジョン、マシンビジョン）の需要は高まっており、その方法はさまざまです。画像による入力を有用なものとする実装方法について分類と整理を試みます。

[Ron Wilson，Altera Corporation. MONOist] PC用表示関連情報

LINE

Hatena

　2015年5月に開催された「Embedded Vision Summit」への寄稿論文では、集束光をエンベデッドシステムの入力として使用するさまざまな方法、また、その入力を有用なものとするために、必要な多くのアルゴリズムとハードウェアの実装方法が提案されていました。アプリケーションは、シンプルなコンピュータビジョンから、リアルタイムのマルチカメラまで多岐にわたり、ハードウェアもマイクロコントローラーから専用スーパーコンピュータ、ニューラルネットワーク・エミュレータのアレイまでさまざまです。

　ただ驚くべきことに、要件と実装方法はさまざまであっても、ほとんどのシステムは 1 本の処理パイプラインのセグメントとして記述できます。最も単純なシステムはパイプラインの最初のステージしか実装しません。要求が厳しいシステムであっても、深いステージを実装してマシン・インテリジェンスを実現します。これにはパイプラインの全てのステージが存在し、1つの巨大なニューラルネットワーク・モデルとしてコード化することが可能です。

　個々のステージの実装は簡単ではないとしても、説明することは簡単です（図1.）。

　最初のステージでは、通常は単純なアルゴリズムによってイメージから特徴を抽出します。この場合の特徴とは、エッジ、コーナー、ウェーブレットなどの簡単に検出可能なパターンであり、位置や照明のような外的条件が変化しても安定している傾向がある、オブジェクトの持つ属性です。印刷された文字の直線セグメント、円弧セグメント、人間の顔の明るい部分、暗い部分のパターンがその例です。最良のツールは、抽出しようとする特徴の種類により、イメージを横断してスキャンする畳み込みカーネル、または、ピクセルの色や密度が急激に変化するポイントを探す勾配ベースのマトリックス分析などです。

図1. ほとんどのビジョン・システムは予測可能なパイプラインをたどります

　次のステージでは、特徴リストにあるパターンをシステムが探します。単純なシステムは、空間的関係しか探さないかもしれません。あるいは、それぞれの特徴がこのフレームと前のフレームの間でどのように動いたか、常にともに動く特徴はあるか、といった時間的関係を探すシステムもあり得ます。このパターン探索を繰り返して、パターンの間に存在するパターン、さらにそれらの間のパターンなどを探すことができます。このようなパターン探索は、ルールベースシステムや畳み込みネットワークで行うことができます。

　次のステージは、さらに困難なオブジェクトの位置認識です。抽象的な意味でオブジェクトとは、お互いに隣合っている、どれも同じ色である、エッジ境界で取り囲まれている、全てが一緒に動く、といった何らかの関連要素によって互いにグループ化できる持続的なパターンのセットです。ここでも、オブジェクトはルールベースのシステム（極めて複雑になる可能性がありますが）や畳み込みニューラル・ネットワークで抽出できます。

　次のステージではオブジェクトの分類、つまりオブジェクトに名前を付けて属性を設定することを試みます。分類には、位置、形状、色などの観察された情報、どのオブジェクトも10進数でなければならないという知識などの、状況に関する既知の情報、ニューラル・ネットワークの中で学習したパラメータなどを使用できます。

　最後に、最も意欲的なシステムの最終ステージでは、分類したオブジェクトとそれらの間の関係を使用して予測シーンのモデル（オブジェクトが行っていること、及び、恐らく次イベントのシーケンス）を作成します。このステージでは、それらのイベントに価値判断を加えることもあります。これは、一般にカルマン・フィルタかニューラル・ネットワーク・レイヤーに実装します。

組み込みにおけるコンピュータビジョンを整理する：SYSTEM DESIGN JOURNAL（1/5 ページ）

関連キーワード

アルゴリズム | アルテラ | ディープラーニング | 画像認識 | 画像処理