リコーが図表も読み取るマルチモーダル大規模言語モデル、「日本の文書は難しい」:人工知能ニュース(2/2 ページ)
リコーは図表を含む文書の読み取りに対応したLMMの基本モデルの開発を完了した。日本語の質問応答データセット「JDocQA」や独自開発のベンチマークツールによる検証の結果、他のモデルと比較しても優れた性能を示すことを確認したという。
リコーが開発したLMMは、アーキテクチャの改良により、オンプレミス環境でも追加学習が可能なコンパクトなモデルサイズを実現した。セキュリティやプライバシー、ガバナンスなどの観点からオンプレミス環境や自社のデータセンターなど社内の専用環境でAIを利用したい企業のニーズに対応する。
リコーのLMMは図表を処理する第1階層のビジョンエンコーダー、その出力をLMMが理解できる形式に変換する第2階層のアダプター、第2階層で変換された情報と文字情報を統合処理するLLM(大規模言語モデル)の第3階層で構成されている。ビジョンエンコーダーは複数の方式を評価した上で、「Qwen2-VL-7B-Instruct」に採用されている手法を選定した。また、第3階層向けにはオンプレミス環境で実装可能な70Bクラスのモデルを複数評価し、「Llama-3.1-Swallow-70BInstruct-v0.3」を選んだ。
さらに、第2階層のアダプターには独自の工夫を追加して精度を維持しながら、別々のモデルが由来になっている第1/第3階層を接続できるようにした。
基本モデルは無償公開
今回開発したLMMでは、基本モデルを個社の業務に合わせてチューニングして精度を向上させる手法も確立した。保険の引受規定が記載された図表などを含む損害保険ジャパンのマニュアルを対象に、同社の保険業務に対応するようにファインチューニングを行ったところ、基本モデルに比べて性能が顕著に向上したとしている。今後は、保険業務に関する規定やマニュアル、Q&Aデータなどを学習させ、社内外からの照会に対して最適な回答案を自動生成するシステム「おしそんLLM」への適用を検討していく。
GENIACで得られた成果を社会に還元し、業務革新や効率的で付加価値の高い働き方を支援するため、リコーは今回発表した基本モデルとマルチモーダル性能の評価環境を無償で公開する。ファインチューニングなど企業ごとのきめ細かいインテグレーションはビジネスとして提供する。
2022年からLLMを開発
リコーはLMMの開発に当たってアマゾンウェブサービス(AWS)から計算資源の提供や技術サポートを受けている。また、GENIAC採択事業者が計算リソース提供事業者と個別に調整するスキームを利用して、NVIDIA H200 Tensor Core GPUを搭載するAmazon EC2 P5e インスタンスが提供されている。LMM開発終盤での総合的な学習や顧客向けファインチューニングにおいて、安定的で大規模な資源提供を受けられたことが成果につながっているという。
リコーでは2022年からOSS(オープンソースソフトウェア)のLLMをベースに独自のLLMを開発してきた。2023年に独自のLLMを発表した後、2024年1月にはリコーLLM(130億パラメータ)を発表。AWSのAIチップによる高速かつ安価な学習でOpenAIの「GPT3.5」と同等の性能を達成したとしている。
2024年8月に発表したリコーLLM(700億パラメータ)では、Llama3をベースに日本語だけでなく英語や中国語にも対応。AWSのAIチップを最大512台使用しながら大規模な学習技術を確立するとともに、OpenAIの「GPT-4」と同等の性能をマークした。2024年9月にはリコーLLMやSwallow、Llamaを合体させるとともに、顧客モデルの最適化技術を確立。そして、2025年4月にはリコーLLMをOpenAIの「GPT-4o」と同等まで性能を引き上げた。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
イチから全部作ってみよう(20)生成AIを使えばイチから要求仕様書を作らずに済む
ソフトウェア開発の全工程を学ぶ新シリーズ「イチから全部作ってみよう」。第20回は、生成AIを活用してより効率の良い要求仕様書の作成に挑戦してみよう。生成AIを活用した独自ルールによるOCR結果最適化技術を開発
リコーは、生成AIを活用して、企業や担当者特有のルールでOCR結果を最適化する技術「適応型AI-OCR」を開発したこ。表記を自動修正するなど、独自の処理ルールによってOCR結果を出力できるようにする。リコーが“唯一無二”の複合機を開発、PFUのスキャナー技術を融合
リコーが新開発のA3カラー複合機「RICOH IM C6010SD」「RICOH IM C4510SD」「RICOH IM C3010SD」について説明。PFUの業務用スキャナー、リコーのA3カラー複合機というそれぞれ世界シェアトップの製品の技術を組み合わせたことを最大の特徴とする。パナソニックHDがマルチモーダル生成AIで新たな成果、学習データ量を60分の1に
パナソニック ホールディングスとパナソニックR&Dカンパニーオブアメリカは、カリフォルニア大学ロサンゼルス校の研究者と共同で、テキストや画像、音などの異なるデータ形式を自由に相互変換できる“Any-to-Any手法”のマルチモーダル生成AI「OmniFlow」を開発した。松下幸之助を生成AIで再現、「怖いくらい似ている」と親族驚く
パナソニックホールディングスとPHP研究所は松下幸之助氏を再現したAIを開発した。現在も改良を重ねている。