tsuzumiのもう1つの特徴が、高い日本語処理性能だ。LLMの日本語処理性能に関するベンチマークテスト「Rakuda Benchmark」で計測したところ、「GPT-3.5」の他、「Elyza」など他の国産LLMのスコアを上回る結果が得られた。このことから、日本語処理性能に関して「世界トップクラス」（NTT）の性能を実現したとしている。

日本語性能の比較［クリックして拡大］出所：NTT

　Rakuda Benchmarkが「GPT-4」を活用した測定方法を採用していることから、tsuzumiとGPT-4の性能比較は難しい面がある。その上でNTT 執行役員研究企画部門長の木下真吾氏は「GPT-4の性能はかなり高い。現時点でGPT-3.5と互角なので、今後はGPT-4に向けてさらに性能を向上させる」と語った。

　なお、tsuzumiの小型版は日本語だけでなく英語でも、MetaのLLM「LlaMa2」（70億パラメーター）と同等の処理性能を発揮している。NTTは今後、中国語、韓国語、フランス語、ドイツ語に加えて、プログラミング言語への対応をさらに進めていく方針だ。

　小規模なモデルでありながら高パラメーターのモデルとそん色ないパフォーマンスを発揮する理由について、木下氏は「同じ日本語のデータを学習させるにしても、単語の区切り方などでモデルの性能は大きく変わってくる。インストラクションチューニングの段階で適切に処理したデータを与えることで、小型なモデルでも大規模なLLMと同等の性能を発揮できる。こうした処理には、形態素データの研究で大量の知見を持つ当社の強みが生かされている」と説明した。

　tsuzumiの小型版ではプロンプトエンジニアリングやファインチューニングに加えて、追加学習によるチューニングも可能だ。特定の業界データや部門ごとの社内データを追加学習させることで、特化型のモデルを作成できる。さらに言語だけでなく、請求書や仕様書、図版など、文書が記載された画像を使って質問することも可能だ。音声認識による質問にも対応する。

追加学習によるチューニングも可能［クリックして拡大］出所：NTT

　今後、超小型版と小型版に加えて、130億パラメーター以上を持つ「中型版」も開発する計画がある。1つの基盤モデル上で複数の追加学習データを搭載できるマルチアダプター機能を搭載する。さらにtsuzumiのマルチモーダル性を拡張して、ユーザーの置かれた状況に応じて応答する機能なども導入していく予定だ。中型版のリリースは2024年4月以降を見込む。

　tsuzumiの商用サービスはNTTグループ各社が顧客ニーズに合わせたソリューション形式で国内企業を対象に展開していく。2027年までにtsuzumiによる収益のみで1000億円の売り上げを目指す。一部、コールセンター機器メーカーなどには個別にtsuzumiを提供する形となる。

　木下氏は「何でも知っている1つの巨大なLLMを作るのではなく、高い専門性を備えた小規模のLLMを複数集めて有機的に組み合わせる。これによってLLM間で意見交換しながら、最適解を導いて大きなタスクを解決できる、人間の社会のような仕組みを作っていきたい」と展望を語った。