パナソニック コネクトが生成AI技術を応用、画像認識学会のコンペで世界第2位に人工知能ニュース

パナソニック コネクトのAIマルチエージェントシステムが、画像認識の学会「CVPR2024」のコンペで世界第2位の評価を獲得した。3分間の動画を見て最適な回答を選ぶタスクに挑戦し、正解率71%を達成した。

» 2024年07月31日 14時00分 公開
[MONOist]

 パナソニック コネクトは2024年7月16日、同社のAI(人工知能)マルチエージェントシステムが、画像認識の学会「CVPR2024」のコンペ「Ego4D EgoSchema Challenge」で、世界第2位の評価を獲得したと発表した。

 AI認識技術を競うEgo4D EgoSchema Challengeでは、3分間の動画を見て、質問に対して最適な回答を5つの選択肢から選ぶタスク(Video Question Answering:VideoQAタスク)に挑戦した。同社が開発した生成AIマルチエージェントシステムは、正解率71%を達成し、世界で第2位の評価を得た。

キャプション コンペのタスク例[クリックで拡大] 出所:パナソニック コネクト

 動画の内容を理解して質問に答えるには、時間の経過に伴って変化する情報の中から重要な行動や目的を認識して判断し、同時に言語による質問と回答を解釈する必要がある。動画と言語を相互理解する高度な技術開発が求められるため、同社はさまざまな質問に適切な回答を生成できる大規模言語モデル(LLM)の活用に着目した。

 同社は既存のLLMに関する研究を基に、動画を分析して自動生成した複数エージェントを活用するVideoQAシステム(VDMA:Video Question Answering with Dynamically Generated Multi-Agents)を新たに開発。問題に合わせて専門とするAIを動的に生成して問題を解かせ、取りまとめ役のエージェントAIが回答を選択した。

キャプション 「VideoQA」システムのイメージ[クリックで拡大] 出所:パナソニック コネクト

 長い動画の内容を過去の経緯を理解して推測、判断できるようになることで、なぜ人がそこにいて、それを持っており、何をしようとしているのかなどの状況把握が可能になる。また、人が次に取るべき行動の推奨や、過去からの一連の行動の中から、修正や改善が望まれる行動の抽出などで活用が期待される。

⇒その他の「人工知能ニュース」の記事はこちら

Copyright © ITmedia, Inc. All Rights Reserved.