医学分野に対する「ChatGPT」の正答率は文献数により向上する：医療技術ニュース

横浜市立大学は、OpenAIの「ChatGPT」に、医学に関する質問をする際の注意点を科学的に検証した。ChatGPTの性能は、各医学分野における情報量の影響を受けている可能性が示された。

[MONOist] PC用表示関連情報

LINE

Hatena

　横浜市立大学は2023年11月15日、OpenAIの「ChatGPT」に、医学に関する質問をする際の注意点を科学的に検証したと発表した。ChatGPTの性能は、各医学分野の情報量の影響を受けている可能性があり、新薬や新興感染症など情報量が少ない分野を質問する際は、回答が正しいか注意する必要性が示唆された。

　研究では、ChatGPTに日本の医師国家試験3年分の問題を出題。旧モデルの「GPT-3.5」と最新モデルの「GPT-4」を使用し、正答率と回答の一貫性を集計したところ、GPT-3.5に比べてGPT-4は性能が大幅に向上していた。正答率は、GPT-3.5が56.4％、GPT-4は81.0％で、回答の一貫性は56.5％から88.8％に向上していた。

　次に、試験問題を出題形式や出題内容に応じて分類し、正答率に関連する因子を検証した。各分野における正答率は、その分野のこれまで出版された文献数と有意な関連を示し、文献数が少ない領域では正答率が相対的に低かった。

医学分野ごとに集計した正答率との関連性。A.同一問題への回答内容の一貫率と正答率との関係。B.各医学分野における総文献数と正答率との関係［クリックで拡大］出所：横浜市立大学

　同一問題を連続して出題した場合では、回答内容の一致率と正答率は有意な関連を示した。複数の答えを同時に選ばせる多肢選択問題や計算を必要とする問題では、単肢選択問題に比べて不正答となる可能性が高かった。

医学分野に対する「ChatGPT」の正答率は文献数により向上する：医療技術ニュース

関連記事

関連リンク