醫師國考 - HackMD

除了用來答美國的USMLE考題外，GPT-4也被用於中國大陸和台灣的醫師國考。在中國大陸，其表現大約為75%的正確率；在台灣則是84%。我猜測這可能是因為中國大陸有些醫學專有名詞經過本地化，例如「B型肝炎」被稱為「乙型肝炎」。由於這些專有名詞在訓練數據中較少，因此在中國的表現較差。