p/pi38nn

DaveC

@davecode

Thu, Jan 4, 2024 2:38 AM

Thu, Jan 4, 2024 2:39 AM

8

1

测试大语言模型的生物推理能力，GPT-4、PaLM2等均在测试之列

ref
大型語言模型（LLM）的最新進展，為將通用人工智慧 (AGI) 整合到生物研究和教育中提供了新機遇。

在最新的研究中，佐治亞大學和梅奧診所的研究人員評估了幾個領先的 LLM（包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova）回答概念生物學問題的能力。

這些模型在包含 108 個問題的多項選擇考試中進行了測試，涵蓋分子生物學、生物技術、代謝工程和合成生物學等生物學主題。在這些模型中，GPT-4 獲得了 90 分的最高平均分，並且在不同提示的試驗中表現出最大的一致性。

DaveC

@davecode

Thu, Jan 4, 2024 2:39 AM

「本文的主要目標是評估和比較領先的 LLM（例如 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova）理解和推理生物學相關問題的能力。」Liu 說，「這是通過包含 108 個問題的多項選擇考試進行的仔細評估，涵蓋分子生物學、生物技術、代謝工程和合成生物學等不同領域。」

DaveC

@davecode

Thu, Jan 4, 2024 2:40 AM

---用特定領域，去探討未知的問題。