パナソニックHDが画像生成AIの効率を5倍に、一人称視点映像からの未来予測も人工知能ニュース(2/2 ページ)

» 2025年10月20日 06時15分 公開
[朴尚洙MONOist]
前のページへ 1|2       

一人称視点映像と頭部軌道の情報だけで動作を再構成/予測/生成

 ウェアラブルカメラやスマートグラスなどの一人称視点で映像を記録できるウェアラブルデバイスの登場により、装着者自身の視点からその動作をAIで理解/予測する技術への期待が高まっている。例えば、工場の現場などで熟練者の作業内容を映像で撮影しAIで解析することで技術承継などに活用するなどの取り組みがある。ただし多くの場合、映像の撮影は固定カメラで行っているが、設備やコスト制約で最適な位置にカメラを設置できないことが多いのが実情だ。ウェアラブルデバイスを用いた映像の撮影であればそういった制約に縛られない。

 ただし、一人称視点映像や頭部軌道からの動作推定は技術的に非常に困難とされている。装着者の身体が映像内に映らないため、固定カメラを用いた三人称視点の画像情報や周辺のシーン情報が追加で必要な場合が多く実用化には課題があった。

一人称視点映像からの動作推定は技術的に困難 一人称視点映像からの動作推定は技術的に困難[クリックで拡大] 出所:パナソニックHD

 今回、パナソニックHDとパナソニックR&Dカンパニー オブ アメリカ(PRDCA)、スタンフォード大学の研究者らが共同開発したUniEgoMotionは、ウェアラブルデバイスから得られる一人称視点映像と頭部軌道の情報だけで動作を再構成/予測/生成できる統合型モーション拡散モデルとなっている。

 UniEgoMotionの技術のポイントとなるのが「画像基盤モデルによるシーン情報抽出」と「マスキングによる多様なタスクの学習」の2つである。「画像基盤モデルによるシーン情報抽出」では、一人称視点映像から周辺状況の高精度な画像特徴を抽出できる「DINO v2」を活用することでウェアラブルデバイス以外の情報に依存しないシーン情報抽出に成功した。「マスキングによる多様なタスクの学習」では、学習時に入力のマスキング(欠損)を意図的に設計し、入力映像に対応する部分だけでなく、入力映像がない未来の推定も学習できるようにした。

「UniEgoMotion」の技術のポイント 「UniEgoMotion」の技術のポイント[クリックで拡大] 出所:パナソニックHD
「画像基盤モデルによるシーン情報抽出」の概要 「画像基盤モデルによるシーン情報抽出」の概要[クリックで拡大] 出所:パナソニックHD
「マスキングによる多様なタスクの学習」の概要 「マスキングによる多様なタスクの学習」の概要[クリックで拡大] 出所:パナソニックHD

 UniEgoMotionと他の手法について、一人称視点の映像や頭部軌道から現在の動作を推定する「動作の再構成」のタスクの精度を評価したところ、ポーズの再現精度や動作の自然さを示す指標で従来手法を上回る精度を達成した。

 なお、パナソニックグループが手掛ける事業へのUniEgoMotionの適用例としては、パナソニック コネクトが展開するサプライチェーンマネジメント事業における現場作業可視化の範囲の拡大などを想定。この他にも、リハビリ/ヘルスケア分野での動作モニタリングなど幅広い事業領域での活用が期待できるとしている。

⇒その他の「人工知能ニュース」の記事はこちら

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

特別協賛PR
スポンサーからのお知らせPR
Pickup ContentsPR
Special SitePR
あなたにおすすめの記事PR