リコーは図表を含む文書の読み取りに対応したLMMの基本モデルの開発を完了した。日本語の質問応答データセット「JDocQA」や独自開発のベンチマークツールによる検証の結果、他のモデルと比較しても優れた性能を示すことを確認したという。
リコーは2025年6月10日、図表を含む文書の読み取りに対応したLMM(マルチモーダル大規模言語モデル)の基本モデルの開発を完了したと発表した。日本語の質問応答データセット「JDocQA」や独自開発のベンチマークツールによる検証の結果、他のモデルと比較しても優れた性能を示すことを確認したという。
2025年7月29日から開催される画像認識に関するシンポジウム「MIRU2025」で論文を発表し、開発した基本モデルや独自開発のベンチマークツールを無償で公開する。
企業にはさまざまな形式の社内文書が蓄積されている。膨大な文書の1つ1つに目を通すのではなく、的確に検索し、Q&A形式で知りたいことに対する回答が得られれば、蓄積された社内文書が有効活用できる。リコーは、社内用語や社外秘に対応して企業が設置可能なサーバで動作するモデルを開発するとともに、企業ごとに対応するファインチューニングで性能を高めた。
企業内で蓄積される文書は、請求書や領収書、事業戦略などの経営資料、マニュアルなど技術標準、品質管理基準などの技術文書や設計図など形式はさまざまだ。テキストのレイアウトが多段組で複雑である場合があり、図表や画像なども含まれている。図表や画像の読解が難しく検索性能が低下するため、テキスト検索では意図した結果が得られなかったり、検索のみでは効果的に活用できなかったりする課題があった。
また、既存のLMMではビジネス文書の読解精度が十分ではなかった。表の場合は余計な部分を読み取ったり記号の意味を誤読したりする場合がある他、サービスの展開地域を尋ねると事実と異なる国名を挙げる場合もあったという。複雑なフローチャートも読み解くのは難しい。海外勢のLMMは画像を圧縮することもあって、細かな図表への対応できていない。金融業界の約款から、いわゆる「Excel方眼紙」まで、日本の文書はLMMにとって難易度が高い。
こうした状況を受けて、リコーは経済産業省と新エネルギー・産業技術総合開発機構(NEDO)が実施するAI(人工知能)開発力強化のプロジェクト「GENIAC(Generative AI Accelerator Challenge)」において、生成AI基盤モデル開発第2期に採択され、2024年10月~2025年4月の期間に助成を受けて活動し、日本企業が活用できるLMMの開発に取り組んできた。
リコーは、今回発表した基本モデルの開発に当たって、文字の他、円グラフや棒グラフ、フローチャートなど視覚データを合計600万枚以上AIで生成した。学習用データの生成手法を確立することで大量の学習用データが整備でき、LMMの性能向上に貢献した。学習用/評価用のデータ収集とアノテーションは、開発パートナーのFastLabelから支援を受けた。FastLabelとリコーは、リコー主催のアクセラレータープログラムをきっかけに協業を始めていた。
Copyright © ITmedia, Inc. All Rights Reserved.