ニューラル・ネットワークと力の指輪SYSTEM DESIGN JOURNAL(2/5 ページ)

» 2016年07月06日 09時00分 公開
[Ron Wilson(Editor-in-chief,Altera),MONOist]

CNNの実用化に向けた問題

 CNNの最も強力な主張の1つは、IMAGE NETで示した精度です。実際、ほぼ全てのカテゴリーの物体認識で勝利を得たMicrosoftの実装は高いスコアを記録しました。しかし、そのスコアは課題の構造を理解するまでやや誤解を招くものであったかもしれません。

 物体分類テストには、提示された画像内の物体を検出し、その周囲にバウンディング・ボックスを置き、用意された1000のリストから、物体を最もよく特定する5つのカテゴリーラベルを付加するアルゴリズムが必要です。スコアリングは、いかにボックスを接近させ、正確なラベルを付加するかに基づきます。

 「このコンペは5万枚のサンプル画像でトレーニングされたアルゴリズム間の比較としては有効かもしれないが、トレーニング方法が異なるアルゴリズムや人間との比較としては参考にならない」と批評家は指摘しています。

 人間は画像内の「柔毛のサル」を問題なく特定できるでしょう。しかし、どれほど多くの人が、十分にトレーニングされたネットワークと同様に、問題のサルをテングザルとしてではなく、グエノンと見なすでしょうか。鼻の長いサルであるテングザルを知っている人のうち、どれだけの人がグエノンを正しくドリアスモンキーと見なすでしょうか。

 これはIMAGE NET本来の目的に対するあら探しです。しかし、CNNが人間の代わりに、人間に説明可能な方法で機能することが期待されるアプリケーションでは、現実的な問題となります。恐らく、この問題は誤り率ではなく、誤りの大きさです。人間は、道にいるサルをグエノンと認識できないかもしれませんが、水たまりと勘違いして、あるいは高い可能性の答えがないとして、その上を車で通り過ぎることはありません。

 CNNが新たな状況において致命的誤りを犯さないと確信できないことは、むしろネットワークの構造に起因します。CNNは、いったんトレーニングすると、新しい入力に対する応答を解析的にまたは定性的に予測することはほぼ不可能になります。しかし、私たち人間はCNN内で起こることについて概念的な言葉で語り、ネットワークの応答の範囲をある程度考えることはできます(図.2)。

photo 図.2 CNNは、各層が前層を基礎として連続する抽象的命題を形成する層ノードで構成される

 大まかに言うと、トレーニング後のCNN層内の各ノードは、ネットワーク入力で提示されたデータに関する具体的命題の真実の推定を保持します。入力に最も近い層から出力に最も近い層に移動するに従って、命題はより抽象的になります。

 入力の近くにあるノードは、画像内の特定位置に青い縦線の存在を示しているかもしれません。別のノードは、赤い点の存在を示しているかもしれません。ネットワーク内の層をさらに深く進み、前の多くのノードを利用したノードは、赤い点を囲む青い台形の存在を示すかもしれません。ネットワークの出力側に向かって、ノード値は、赤いロゴの付いた青いトラックが目の前の交差点を通り過ぎていく可能性を示すかもしれません。

 各抽象化層で検討可能な異なる原子命題の数は、その層のノード数によって制限されるように思われます。特に、CNNが物体に対して選択可能なタグ数は、ネットワークの最終段階からの出力数より多くすることはできません。その数は、慎重に制約されたIMAGE NETチャレンジの場合で1000でしょう。IBMアルマデン研究所ディレクターのJeffrey Welser氏によれば、このチャレンジには20〜50ステージで約500万ノードを持つCNNが妥当であることが分かっています。こうした規模は現在、データセンター以外では対応できません。

 しかし、可能なタグが任意に制限された物体タグ付けCNNは、実際の道路を走る自動車の運転に責任を負うネットワークに比べれば、非常に小さいと考えられます。視覚的に曖昧な物体または全く新しい物体について重要な結論を下すには、どのくらいのタグが必要なのでしょうか。最適とはいえない実際の走行状況でネットワークが最適な軌道を確実に選択するようにするためには、どのくらいの命題を評価しなければならないのでしょうか。

 そして、自動車のどこにデータセンターを積めばよいのでしょうか。

Copyright © ITmedia, Inc. All Rights Reserved.