ロボット制御AIのオフライン強化学習で東芝が世界初と世界最高精度を達成：人工知能ニュース（1/2 ページ）

東芝は、あらかじめ作成したデータでロボット制御に用いられるAIの機械学習を行う「オフライン強化学習」において、少量の画像データで複雑なロボット操作を高精度に制御する技術を開発した。

LINE

Hatena

　東芝は2024年5月10日、あらかじめ作成したデータでロボット制御に用いられるAI（人工知能）の機械学習を行う「オフライン強化学習」において、少量の画像データで複雑なロボット操作を高精度に制御する技術を開発したと発表した。これまでロボット制御AIのオフライン強化学習では数千以上のデータが必要だったが、新技術は10分の1以下のとなる100程度のデータで精度を向上できる。公開ベンチマーク環境によるシミュレーション評価の結果、平均成功率が従来比で2倍となる72％に向上した。少量の画像データから複雑なロボット操作を高精度に制御するAI技術は「世界初」（東芝）、公開ベンチマーク環境における72％の成功率は「世界最高精度」（同社）だという。

東芝が新たに開発したオフライン強化学習のAI技術による公開ベンチマーク環境のシミュレーション評価結果。平均成功率が従来の36％から72％に向上した［クリックで拡大］出所：東芝

　産業用ロボットは、製造業の工場における加工や組み立てなどで広く用いられてきた。単純作業を人手よりも効率良く行えることが利点であり、作業内容の入力方法は実際にロボットを動かして記録する「ティーチング」が一般的だ。一方、モノの仕分け作業や物流倉庫のピッキングのように、対象物や周辺の状況によって毎回異なる複雑な作業を求められる場合、産業用ロボットの作業内容をティーチングによって人手で入力することは大きな負荷になり、導入のハードルが高くなる。

ロボットの作業内容の自動化にはティーチングなどの導入負荷がかかる。より複雑な作業が対象になると導入不可も高くなる［クリックで拡大］出所：東芝

　この導入のハードルを下げると期待されているのが、AIが自律的に試行錯誤しながら適切な制御方法を学習する強化学習である。強化学習の中でも、実際の運用環境で産業用ロボットに試行錯誤を繰り返させる「オンライン強化学習」と、あらかじめ作成した操作データから制御を学習するオフライン強化学習がある。ただし、オンライン強化学習は試行錯誤を繰り返す際に安全上の懸念があり、オフライン強化学習はそういった安全上の懸念がないものの、一定以上の精度を確保するのに必要な大量の操作データを作成する膨大な手間と労力が課題になる。

オンライン強化学習とオフライン強化学習の違い［クリックで拡大］出所：東芝

　今回東芝が開発した技術は、少量のデータでもオフライン強化学習を効率良く行えるとともに高い精度を実現できることが特徴だ。従来のオフライン強化学習では、想定される物の配置や作業のパターンを網羅的に学習するため数千以上の学習データが必要であり、その学習データの作成に数週間～1カ月以上かかっていた。新開発の技術は、100程度の学習データを作成するだけで高い精度を実現でき、学習データの作成にかかる時間は半日程度で済む。

新技術はオフライン強化学習のためのデータ作成作業にかかる時間が約半日で済む［クリックで拡大］出所：東芝

ロボットアームの操作範囲を2段階に分けて制御し学習する

　　　　　　 | 次のページへ