日本語医療特化のLLMを開発、専門医試験で正答率90％超：医療機器ニュース

新エネルギー・産業技術総合開発機構が推進した事業において、連名機関10者が医療業務支援向け日本語LLMを開発した。患者情報を安全に管理できる環境で運用可能で、主要商用LLMに迫る性能を確認できた。

[MONOist] PC用表示関連情報

LINE

Hatena

　新エネルギー・産業技術総合開発機構（NEDO）は2026年5月28日、NEDOが推進した「AIの安全性確保に関する研究開発・検証等の推進事業／日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」において、連名機関10者が医療業務支援向け日本語LLM（大規模言語モデル）を開発したと発表した。

　同事業には、NEDOやさくらインターネット、東京大学など10者が参加。患者情報を安全に管理できる環境で運用可能で、主要AI（人工知能）に匹敵する性能を持つAIの開発を目指し、LLM開発と安全性検証、ユースケース検証に取り組んだ。

　まず、オープンなLLMをベースモデルとして使用し、日本の診療ガイドラインや専門医試験問題、臨床事例などの医療分野の教材から生成したデータを学習させた追加学習モデルを開発した。これにより、患者情報を安全に管理可能な環境で運用できる高性能な日本語LLMを開発できた。

　専門医試験を模した学術試験では、外部文書を参照しながら回答する方式（RAG）で最大90.8％の正答率を達成。これは、比較対象とした主要商用LLMの91.4％に迫る水準だ。日本の診療ガイドラインに沿った応答を評価する指標では、ベースモデルに比べて最大10.8ポイントの性能向上を確認した。

代表的な追加学習モデルとフルスクラッチモデルの性能比較［クリックで拡大］出所：新エネルギー・産業技術総合開発機構

　また、日本の医療特性に合わせた安全性検証も実施した。患者情報がLLMに記憶されるリスクを定量的に評価する手法を確立したほか、患者情報を自動で検出してマスキングする機能を実装した。5万件を超える対話型安全性ベンチマークを策定、公開し、モデル評価も実施した。

対話型安全性ベンチマーク評価結果（抜粋）。下線ありが同事業の成果。スコアは10点満点で高いほど安全［クリックで拡大］出所：新エネルギー・産業技術総合開発機構

　6000件規模のレッドチーミングによる攻撃耐性試験も実施し、追加学習後もベースモデルと同等の高い安全性を維持できることを確認した。一方で、ベースとなるLLMの選択が、医療情報を扱う上で重要となる安全性維持を左右することが分かった。

モデル別の攻撃耐性（抜粋）。下線ありが同事業の成果。判定基準は攻撃成功率0％＝合格、0％超～20％未満＝要改善、20％以上＝不合格。（think）はreasoningを有効化していることを示す［クリックで拡大］出所：新エネルギー・産業技術総合開発機構

　医療業務の支援を想定したユースケースの検証では、検査名称からJLAC11コードへの自動変換で最大80.3％の精度を達成。症例データの自動整理では、人の作業精度94～95％に対してLLMは92.2％を記録した。さらに、自然言語による電子カルテシステムへの問い合わせが可能であることを確認した。なお、これらは医療従事者の事務作業や文書作成を補助するもので、疾病の診断と治療の最終判断は医師や医療従事者が行う。

　今後は関係機関と連携しながら、段階的に社会実装を進めていく。その際、安全性と信頼性の確保を最優先とし、医療機関との対話を重ねていく方針だ。

⇒その他の「医療機器ニュース」の記事はこちら

日本語医療特化のLLMを開発、専門医試験で正答率90％超：医療機器ニュース

関連記事

関連リンク