ソースは共同通信。ChatGPTに2022年度米国医師国家試験で出題された問題350問を開頭させたところ、正解率は52～75％で、60％前後という合格ラインに達した、との報道があった。

センセーショナルな見出しで書かれている記事ではあるが、医師の立場から見れば、不思議でも何でもない。ごくごく当たり前の結果である。

ChatGPTは2019年までのネット上の情報を学習し、アクセスできるものである。人とのインターフェイスに「通常の英語」を使っているだけで、基本は「スーパー電子辞書」でもある。

日本にせよ、米国にせよ、国家試験はMCQ（multiple choice question）形式で行われている。理由は簡単で、採点の簡便性、迅速性があり、その人に「知識があるかないか」を問う試験形式では最も正確であるとされているからである。

言葉は悪いが、現時点での国家試験は「仕事を遂行するに足る知識があるかどうか」を問うている試験である。しかもMCQなので、問題文もあやふやなものではなく、正しい知識があれば、必ず回答できるように厳密性をもって作成されている。

となれば、逆に正答率が52～75％、というのは低すぎるのではないか、と思ってしまう。国家試験に出題されるような基礎的な知識、少なくとも信頼されるサイトであれば出てくるはずである。

「医師」という仕事の難しさは、相手が「人間」だという事である。内科診断学（内科はすべての診療科の基礎、と考えれば、「診断学」そのもの）では、問診の重要性が語られており、いわゆる「伝説のスーパードクター」たちはみんな、「問診の重要性」についてそれぞれの言葉で触れておられる。

国家試験であれば、診断に必要な情報はすべて問題文に記載されている（はず）であるが、現実はそういうわけには行かない。患者さんが「言いたくないこと」の中に問題解決の「カギ」が潜んでいたり、肝心な情報を患者さんが「取るに足らない」と考え答えてくれなかったり、あるいは適当なことを言ったり、という事も珍しくはない。なんとなれば、意識障害の方や認知症の方では「問診」そのものが成り立たない。

問診と、問診で想定した鑑別疾患を踏まえたうえでの身体診察がなければ、行う検査はいわゆる「絨毯爆撃」とならざるを得ず、また、鑑別診断が上がっていなければ、それぞれの検査の「重み」も変わるわけで、重きを置くべきではない検査結果に引きずられたり、逆に重きを置くべき結果を軽く見たりしてあさっての方向に進んでいくこともしばしばである。

医師の診察の補助としてのAIはとても有効で便利なものになると思うが、AIが「医師」としての正確性を担保させるためには、乗り越えるべき壁が多い（これはもちろん人間の医者にとっても乗り越えるべきもの）と思った次第である。