両社による動作予測アルゴリズムの開発では、時系列データの解析で広く用いられているLSTM(Long Short Term Memory)を基に、過去動作の解釈と未来動作の予測を同時に行う時系列認識の手法であるRULSTM(Rolling-Unrolling LSTM)を採用し、3つの改善を施した。
改善の1つ目は「Class Balanced Loss」で、学習データにクラスごとのばらつきがある場合に学習の寄与率を調整し、過学習を抑制した。2つ目の「Deferred Re-weighting」では、Class Balanced Lossにおける寄与率調整の開始時期を後半から行うことで学習効率を向上した。3つ目の「Test Time Augument」はデータ拡張技術の1種で、入力データを水増しし、複数の推定結果を入力、組み合わせることで推定精度の向上につなげた。
EPIC-KITCHENS-100の動作予測部門では、予測の対象となる動作が起こる1秒前の映像データから、次に起こるであろう動作を示す「動詞+名詞」の組み合わせで予測する必要がある。ただし、予測した5つの候補の中に正解の動作が入っていればよいので、それほど難しくないようにも思える。「実際のところ、画像ベースで人の動作を予測するのはまだまだ難しい。データセットの映像が人の頭部に装着したカメラで撮影した1人称視点のものであり、時間も短い上に、予測すべき行動は台所内に限定されてはいるがそれでも3000種類くらいある。例えば、空いた状態の冷蔵庫の扉に手をかけたところから『冷蔵庫を閉める』という行動を予測するのは比較的容易だ。しかし、まだ行動の対象となっているモノが映っていない状態から行動を予測するのはかなり難しい」(里氏)。
なお、今回のEPIC-KITCHENS-100に向けたアルゴリズム開発はコロナ禍での取り組みとなり、リアルでの面会が難しいことなどが足かせになる可能性もあった。竹中氏は「互いの拠点が遠隔にあることもあり、以前の開発案件でもTV会議システムなどを活用して進めた実績がある。今回の開発でも特段に困ったことはなかった」と述べる。
開発期間が短く、EPIC-KITCHENS-100への参加は初めてということもあり、当初の目標は上位入賞だったが、結果として14.82%の予測精度を達成し、1位のFAIRに次ぐ2位の成績を収めることができた。藤松氏は「1位に入ったFacebookのAI研究開発組織であるFAIRや、3位のインペリアル・カレッジ・ロンドン、上海交通大学はAI研究の実績が広く知られている。そこに割って入れたことは大きな手応え。次の2022年度もEPIC-KITCHENS-100が開催されるのであれば、ぜひ参加したい」と意気込む。
また、今回のAIアルゴリズム開発で実装と評価を担当したPSNRD 技術センター 第1技術部 開発15課 第1係の花沢和紀氏も「AIコンテストへの参加という貴重な機会が得られ、よい経験になった。特に『偏りのあるデータセット』を扱う場合に、データへのアプローチが効果的なことがよく分かった」と述べている。
パナソニック CNS社としては、EPIC-KITCHENS-100などを通して将来的な動作予測AI技術の開発につなげて、重点事業領域として挙げている「パブリック」「製造」などの分野に適用したい考えだ。
Copyright © ITmedia, Inc. All Rights Reserved.