LLMじゃない、部品図の公差も読み解くリコーの「LMM」とは？：人工知能ニュース（1/2 ページ）

リコーは、複雑な図表や部品図を論理的に読み解く大規模マルチモーダルモデル（LMM）を開発した。大型モデルに匹敵する精度を小型サイズで実現し、オンプレミス向け業務エージェントの展開を加速する。

LINE

Hatena

　リコーは2026年3月30日、オンラインで会見を開催し、経済産業省主導の「GENIAC（Generative AI Accelerator Challenge）」プロジェクト第3期において、企業ドキュメントを多段推論で読解するマルチモーダル大規模言語モデル（LMM：Large Multimodal Model）の基本モデル「Qwen3-VL-Ricoh-32B-20260227」を開発したと発表した。

企業に眠る“秘伝のタレ”を読み解く

　日本の企業の多く、特に製造業においては、設計図や品質管理基準、サービスマニュアルなどには、独自のビジネスロジックが図表やフローチャートとして高密度に詰め込まれていることが多い。例えば、工程順を表す「矢印（⇒）」や、グラフ内のテキストボックスなどがそれにあたる。

現在のビジネス文書は考えさせるものが多い［クリックで拡大］出所：リコー

リコーの鈴木剛氏

　しかし、従来のテキスト検索やRAG（検索拡張生成）では、図表が表す文脈や、複数ページにまたがる関係性を正確に読み取ることが難しく、現場がほしい答えにたどり着けないという課題があった。リコーデジタル技術開発センター所長の鈴木剛氏は「日本ではビジネス文書にロジックを詰め込む文化がある。単に図表を視覚的に読み込むだけでなく、意図を正しく把握し、複雑な文書からQ&Aで知識を引き出せるモデルが必要だった」と開発の背景を語る。

　鈴木氏は「多くの日本企業に存在する、“秘伝のタレ”ともいえる暗黙知を可視化し、トップラインの向上を実現したい」と語り、情報資産のデジタル化に取り組む姿勢を見せる。

「LLM」と「LMM」の違いとは？

　LLM（Large Language Model：大規模言語モデル）は、膨大なテキストデータを深層学習し、自然な文章の理解や生成を行うAIモデルであり、テキストの処理に特化している。

　一方、LMM（Large Multimodal Model：大規模マルチモーダルモデル）は、テキストに加えて画像、図表、動画、音声といった複数のデータ形式を統合的に扱えるAIモデルである。「マルチモーダルLLM」と表現されることもあるが、リコーではこれをLMMと呼んでおり、図面やフローチャートといった非テキスト情報の活用に向けて開発を推進している。

リコーのLLM／LMMのラインアップ［クリックで拡大］出所：リコー

32BでGemini 2.5 Proに匹敵する精度を達成

　　　　　　 | 次のページへ