東大が医療特化型LLMを開発、医師国家試験の正答率93.3％：医療機器ニュース

東京大学は、日本語医学知識を付与した医療特化型LLMを開発し、対話型AIサービスを公開した。医師国家試験ベンチマークの正答率は93.3％で、OpenAIの「GPT-4o」などの性能を上回った。

[MONOist] PC用表示関連情報

LINE

Hatena

　東京大学は2026年3月5日、日本語の医学知識を付与した医療特化型のLLM（大規模言語モデル）を開発し、対話型AI（人工知能）サービスを公開した。2025年医師国家試験ベンチマークで正答率93.3％を記録し、OpenAIの「OpenAI-o1」「GPT-4o」を上回る性能を示した。同サービスは、同年8月31日まで、研究目的限定で研究者向けに提供している。

2025年医師国家試験の正答率比較表出所：東京大学

　同モデルは、東京大学大学院工学系研究科技術経営戦略学専攻／附属人工物工学研究センター松尾・岩澤研究室（松尾研）が、さくらインターネット、ELYZA、ABEJA、理化学研究所および医療機関と連携して開発した。

　松尾研では、オープンLLM「Qwen-2.5-72B-Instruct」をベースに、モデルサイズの拡張や医学系コーパスを用いた継続事前学習、指示学習を重ねて「Weblab-MedLLM-Qwen-2.5-109B-Instruct」を構築。既存モデルが保持していない日本国内の医療制度に関する知識を備えており、2025年医師国家試験ベンチマークで正答率93.3％を達成した。外部知識を参照するRAG（Retrieval-Augmented Generation、検索拡張生成）や、多数決方式で精度を高める技術を組み合わせることで、図の参照や計算を要する問題を除き正答率は最大で約98％まで向上する。

　実際の医療現場を想定した電子カルテデータ標準化のユースケース検証では、感染症や検査情報の名称を厚生労働省が定める標準名称に変換するタスクを実施した。

電子カルテデータ標準化の自動化の概念図出所：東京大学

　その結果、F1スコア85％の精度で標準名称へ変換が可能であり、国内外の既存LLMの性能を大きく上回った。医学知識を付与したLLMによる標準形式への自動マッピングは、医療データの利活用を促進する可能性がある。

感染症、検査情報の標準名称への変換精度の比較表出所：東京大学

　今後は複数の医療機関の電子カルテシステムと連携し、治験患者の探索やレジストリ構築を自動化するLLMエージェントの構築を進める。これにより、労働集約的に実施されている治験患者の探索やレジストリの構築などの業務を効率化し、製薬企業へ任意形式でデータを提供できる体制を整える。なお、公開された対話型AIサービスは研究目的限定であり、診断や治療などの診療行為には利用できない。

⇒その他の「医療機器ニュース」の記事はこちら

東大が医療特化型LLMを開発、医師国家試験の正答率93.3％：医療機器ニュース

関連記事

関連リンク