産業界で使い倒せる日本語LLMを リコーが自前のモデル開発に取り組み始めたワケ製造業×生成AI インタビュー(2/3 ページ)

» 2024年05月23日 08時00分 公開
[池谷翼MONOist]

AWSの支援プログラムに参加して開発

 リコーの130億パラメーターのLLMは、MetaのオープンソースLLMであるLlama2(130億パラメーター)に事前学習させて開発したものだ。AWSジャパンが提供した「AWS LLM 開発支援プログラム」に参加して、AWSのAI開発インフラや技術支援などを受けながら開発した成果物となる。

 学習インフラにはAWSのAI学習用チップ「Amazon Trainium」を用いた「Amazon EC2 Trn1 インスタンス」(最大サイズのtrn1.32xlargeを64ノード)を活用している。2022年にもAWSと協力して60億パラメーターのLLMを開発したが、こちらはGPUベースで作っており、今回がAmazon Trainiumを用いた初めての開発となる。

リコーが採用した学習環境 リコーが採用した学習環境[クリックして拡大] 出所:リコー

 学習データには日英両言語のオープンコーパスを使用した。日本語ではWikipedia、cc100、OSCAR、mc4などを用いている。日本語も英語も適切にクレンジングを行ったデータを使用した。

 学習手法として、学習の序盤と終盤に少量高品質なデータを、中盤に多量低品質なデータを多く含ませることで、高品質なデータ、中盤に低品質なデータを用いるという戦略を採用した。将来的に産業分野に適用した場合に、必ずしも質が担保されないデータを扱う可能性もあるが、そうした場合でも頑強な日本語性能を発揮できるようにする。

リコーが採用した学習戦略 リコーが採用した学習戦略[クリックして拡大] 出所:リコー

 なお、まだリコーは独自LLMに対して具体的な名称を定めておらず、「グローバルの展開を視野に入れた名称を検討中だ」(梅津氏)という。

連携のしやすさを視野に入れてインフラを選定

 リコーがLLMの自社開発を進めるのは、日本語への対応力が高く、高いオープン性を持ち、かつ、追加学習可能なLLMが日本全体でまだまだ足りていないと考えるからだ。産業向けにLLMを展開していく上では、企業向けにカスタマイズされたLLM提供が必要不可欠になる。「社内データベースの検索システムを構築する場合、文脈によって“ジャム”という言葉が、食べ物ではなく紙詰まりであることを理解できるかが大事になる」(梅津氏)。このため、追加学習に適した形態のLLMを自前で用意することを決めた。

 梅津氏によると60億パラメーターのLLMを開発した時点で、「130億パラメーターのモデル開発にも着手していた」という。ただし、機械学習インフラの選定などで課題があり開発はなかなか進まなかった。

 その後、機械学習の学習と推論プロセスを最適化するSDK「AWS Neuron SDK」の存在や、リコーが業務特化型のAIソリューションを開発する上で、「Amazon SageMaker」などデータの追加学習や分散学習に適した機能やサービスが用意されていることから、AWSをインフラとして活用することを決めた。リコーのデジタルサービスの開発運用基盤である「RICOH Smart Integration」もAWS上で構築しており、将来的な連携のしやすさも視野に入れている。

Copyright © ITmedia, Inc. All Rights Reserved.