除了用來答美國的USMLE考題外,GPT-4也被用於中國大陸和台灣的醫師國考。 在中國大陸,其表現大約為75%的正確率;在台灣則是84%。 我猜測這可能是因為中國大陸有些醫學專有名詞經過本地化, 例如「B型肝炎」被稱為「乙型肝炎」。由於這些專有名詞在訓練數據中較少,因此在中國的表現較差。