NTTは2023年11月1日、独自開発の大規模言語モデル(LLM)「tsuzumi(つづみ)」の開発を発表した。同月より社内外でトライアルを開始し、2024年3月から商用サービスを開始する計画だ。
日本電信電話(NTT)は2023年11月1日、独自開発の大規模言語モデル(LLM)「tsuzumi(つづみ)」の開発を発表した。同月より社内外でトライアルを開始し、2024年3月から商用サービスを開始する計画だ。
tsuzumiはモデルの“軽さ”と日本語処理性能の高さなどを特徴とする国産LLMだ。名前は和楽器の「鼓(つづみ)」に由来する。
Web上で公開されている日本語や英語など1兆以上のトークン数を持つデータで事前学習を行った。その後、インストラクションチューニングの段階で、NTTが蓄積してきた翻訳や要約、対話、読解などのタスクに関する内製データや、LLMの安全性などを確保するためのデータを用いた学習を行うことで、軽量でありながら高パフォーマンスを発揮するLLMを開発できたという。
なおモデルの学習は、光ネットワーク構想「IOWN」に関わる通信基盤「APN(All Photonics Network)」を用いて、横須賀研究開発センタ(神奈川県横須賀市)のデータベースに保管されている学習データを、武蔵野研究開発センタ(東京武蔵野市)の研究所のGPUクラウドにつないで実行した。これによってセキュアかつ低遅延の通信環境を実現し、「ローカル環境とそん色ない学習環境」(NTT)を構築した。
今回発表したtsuzumiのモデルは、6億パラメーターの「超小型版」と70億パラメーターの「小型版」の2種類で、OpenAIが開発した「GPT-3」(1750億パラメーター)などと比較するとパラメーター数が抑えられている。超小型版はCPUで、小型版はGPU1基でそれぞれ動作可能だ。両者は対応可能なタスクの幅、言語、チューニング方法が異なる。
モデルの小型化は学習/推論コストの削減につながる。NTTの試算では、仮に学習データを3000億トークンとした場合、GPT-3と比較して、超小型版はCPUクラウド利用時の学習コストを約300分の1、推論コストを約70分の1にそれぞれ抑えられる可能性があるという。学習時の消費電力も軽減可能だ。GPT-3相当のモデル規模のLLMは、1回当たりの学習で約1300MWhを消費するといった試算がある。消費電力の削減によってサステナビリティへの貢献も期待できる。
Copyright © ITmedia, Inc. All Rights Reserved.