日本語医療特化のLLMを開発、専門医試験で正答率90%超:医療機器ニュース
新エネルギー・産業技術総合開発機構が推進した事業において、連名機関10者が医療業務支援向け日本語LLMを開発した。患者情報を安全に管理できる環境で運用可能で、主要商用LLMに迫る性能を確認できた。
新エネルギー・産業技術総合開発機構(NEDO)は2026年5月28日、NEDOが推進した「AIの安全性確保に関する研究開発・検証等の推進事業/日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」において、連名機関10者が医療業務支援向け日本語LLM(大規模言語モデル)を開発したと発表した。
同事業には、NEDOやさくらインターネット、東京大学など10者が参加。患者情報を安全に管理できる環境で運用可能で、主要AI(人工知能)に匹敵する性能を持つAIの開発を目指し、LLM開発と安全性検証、ユースケース検証に取り組んだ。
まず、オープンなLLMをベースモデルとして使用し、日本の診療ガイドラインや専門医試験問題、臨床事例などの医療分野の教材から生成したデータを学習させた追加学習モデルを開発した。これにより、患者情報を安全に管理可能な環境で運用できる高性能な日本語LLMを開発できた。
専門医試験を模した学術試験では、外部文書を参照しながら回答する方式(RAG)で最大90.8%の正答率を達成。これは、比較対象とした主要商用LLMの91.4%に迫る水準だ。日本の診療ガイドラインに沿った応答を評価する指標では、ベースモデルに比べて最大10.8ポイントの性能向上を確認した。
また、日本の医療特性に合わせた安全性検証も実施した。患者情報がLLMに記憶されるリスクを定量的に評価する手法を確立したほか、患者情報を自動で検出してマスキングする機能を実装した。5万件を超える対話型安全性ベンチマークを策定、公開し、モデル評価も実施した。
6000件規模のレッドチーミングによる攻撃耐性試験も実施し、追加学習後もベースモデルと同等の高い安全性を維持できることを確認した。一方で、ベースとなるLLMの選択が、医療情報を扱う上で重要となる安全性維持を左右することが分かった。
モデル別の攻撃耐性(抜粋)。下線ありが同事業の成果。判定基準は攻撃成功率0%=合格、0%超〜20%未満=要改善、20%以上=不合格。(think)はreasoningを有効化していることを示す[クリックで拡大] 出所:新エネルギー・産業技術総合開発機構
医療業務の支援を想定したユースケースの検証では、検査名称からJLAC11コードへの自動変換で最大80.3%の精度を達成。症例データの自動整理では、人の作業精度94〜95%に対してLLMは92.2%を記録した。さらに、自然言語による電子カルテシステムへの問い合わせが可能であることを確認した。なお、これらは医療従事者の事務作業や文書作成を補助するもので、疾病の診断と治療の最終判断は医師や医療従事者が行う。
今後は関係機関と連携しながら、段階的に社会実装を進めていく。その際、安全性と信頼性の確保を最優先とし、医療機関との対話を重ねていく方針だ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
島津とアステラス、最大768サンプル同時処理のHTE自動化装置を開発
島津製作所とアステラス製薬は、低分子、中分子医薬品の反応条件スクリーニング用ロボットHTE自動化装置「AtmosOrchestra」を共同開発した。最大768サンプルの処理が可能だ。
米国医療機関が迫られるAIサプライチェーンリスク管理とSBOMからAIBOMへの進化
本連載第127回で、米国メディケア・メディケイドサービスセンター(CMS)が推進するAI駆動型デジタルヘルスについて取り上げたが、AIを導入する医療機関側では、サプライチェーンリスク管理の取り組みが進んでいる。
川崎重工が米国にフィジカルAI社会実装拠点、注力分野は医療/介護など
川崎重工は、米国シリコンバレーにフィジカルAIの社会実装を推進する拠点として「Kawasaki Physical AI Center San Jose」を開設した。
キヤノンが医療ITをブランド統合、AI解析で新ソリューションの展開へ
キヤノンは、多様なヘルスケアIT製品を「Abierto」ブランドに統合した。AI技術と専門性を融合させ、医療現場の業務効率化と臨床的価値の向上を両立するソリューションを展開する方針だ。
外科医と対話する生成AI、胃がん手術の実証実験で有用性80%達成
Direavaは、手術状況をリアルタイムに理解し、医師と対話する外科特化型生成AIを開発した。実際の胃がん手術現場において、解剖学的正確性や臨床的有用性などの評価項目で目標の80%以上を達成した。
東大が医療特化型LLMを開発、医師国家試験の正答率93.3%
東京大学は、日本語医学知識を付与した医療特化型LLMを開発し、対話型AIサービスを公開した。医師国家試験ベンチマークの正答率は93.3%で、OpenAIの「GPT-4o」などの性能を上回った。

