リコーが図表も読み取るマルチモーダル大規模言語モデル、「日本の文書は難しい」：人工知能ニュース（2/2 ページ）

リコーは図表を含む文書の読み取りに対応したLMMの基本モデルの開発を完了した。日本語の質問応答データセット「JDocQA」や独自開発のベンチマークツールによる検証の結果、他のモデルと比較しても優れた性能を示すことを確認したという。

LINE

Hatena

　リコーが開発したLMMは、アーキテクチャの改良により、オンプレミス環境でも追加学習が可能なコンパクトなモデルサイズを実現した。セキュリティやプライバシー、ガバナンスなどの観点からオンプレミス環境や自社のデータセンターなど社内の専用環境でAIを利用したい企業のニーズに対応する。

　リコーのLMMは図表を処理する第1階層のビジョンエンコーダー、その出力をLMMが理解できる形式に変換する第2階層のアダプター、第2階層で変換された情報と文字情報を統合処理するLLM（大規模言語モデル）の第3階層で構成されている。ビジョンエンコーダーは複数の方式を評価した上で、「Qwen2-VL-7B-Instruct」に採用されている手法を選定した。また、第3階層向けにはオンプレミス環境で実装可能な70Bクラスのモデルを複数評価し、「Llama-3.1-Swallow-70BInstruct-v0.3」を選んだ。

　さらに、第2階層のアダプターには独自の工夫を追加して精度を維持しながら、別々のモデルが由来になっている第1／第3階層を接続できるようにした。

3つの階層で日本の企業文書を理解［クリックで拡大］出所：リコー

基本モデルは無償公開

　今回開発したLMMでは、基本モデルを個社の業務に合わせてチューニングして精度を向上させる手法も確立した。保険の引受規定が記載された図表などを含む損害保険ジャパンのマニュアルを対象に、同社の保険業務に対応するようにファインチューニングを行ったところ、基本モデルに比べて性能が顕著に向上したとしている。今後は、保険業務に関する規定やマニュアル、Q&Aデータなどを学習させ、社内外からの照会に対して最適な回答案を自動生成するシステム「おしそんLLM」への適用を検討していく。

保険会社での検証事例［クリックで拡大］出所：リコー

　GENIACで得られた成果を社会に還元し、業務革新や効率的で付加価値の高い働き方を支援するため、リコーは今回発表した基本モデルとマルチモーダル性能の評価環境を無償で公開する。ファインチューニングなど企業ごとのきめ細かいインテグレーションはビジネスとして提供する。

顧客ごとのチューニングで性能をさらに高める［クリックで拡大］出所：リコー

2022年からLLMを開発

　リコーはLMMの開発に当たってアマゾンウェブサービス（AWS）から計算資源の提供や技術サポートを受けている。また、GENIAC採択事業者が計算リソース提供事業者と個別に調整するスキームを利用して、NVIDIA H200 Tensor Core GPUを搭載するAmazon EC2 P5e インスタンスが提供されている。LMM開発終盤での総合的な学習や顧客向けファインチューニングにおいて、安定的で大規模な資源提供を受けられたことが成果につながっているという。

　リコーでは2022年からOSS（オープンソースソフトウェア）のLLMをベースに独自のLLMを開発してきた。2023年に独自のLLMを発表した後、2024年1月にはリコーLLM（130億パラメータ）を発表。AWSのAIチップによる高速かつ安価な学習でOpenAIの「GPT3.5」と同等の性能を達成したとしている。

　2024年8月に発表したリコーLLM（700億パラメータ）では、Llama3をベースに日本語だけでなく英語や中国語にも対応。AWSのAIチップを最大512台使用しながら大規模な学習技術を確立するとともに、OpenAIの「GPT-4」と同等の性能をマークした。2024年9月にはリコーLLMやSwallow、Llamaを合体させるとともに、顧客モデルの最適化技術を確立。そして、2025年4月にはリコーLLMをOpenAIの「GPT-4o」と同等まで性能を引き上げた。

⇒その他の「人工知能ニュース」の記事はこちら

リコーが図表も読み取るマルチモーダル大規模言語モデル、「日本の文書は難しい」：人工知能ニュース（2/2 ページ）

基本モデルは無償公開

2022年からLLMを開発

関連記事

関連リンク