DaveC
@davecode
Thu, Jan 4, 2024 2:38 AM
Thu, Jan 4, 2024 2:39 AM
8
1
测试大语言模型的生物推理能力,GPT-4、PaLM2等均在测试之列
ref
大型語言模型(LLM)的最新進展,為將通用人工智慧 (AGI) 整合到生物研究和教育中提供了新機遇。
在最新的研究中,佐治亞大學和梅奧診所的研究人員評估了幾個領先的 LLM(包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova)回答概念生物學問題的能力。
這些模型在包含 108 個問題的多項選擇考試中進行了測試,涵蓋分子生物學、生物技術、代謝工程和合成生物學等生物學主題。在這些模型中,GPT-4 獲得了 90 分的最高平均分,並且在不同提示的試驗中表現出最大的一致性。
DaveC
@davecode
Thu, Jan 4, 2024 2:39 AM
「本文的主要目標是評估和比較領先的 LLM(例如 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova)理解和推理生物學相關問題的能力。」Liu 說,「這是通過包含 108 個問題的多項選擇考試進行的仔細評估,涵蓋分子生物學、生物技術、代謝工程和合成生物學等不同領域。」
DaveC
@davecode
Thu, Jan 4, 2024 2:40 AM
---用特定領域,去探討未知的問題。
載入新的回覆
大型語言模型(LLM)的最新進展,為將通用人工智慧 (AGI) 整合到生物研究和教育中提供了新機遇。
在最新的研究中,佐治亞大學和梅奧診所的研究人員評估了幾個領先的 LLM(包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova)回答概念生物學問題的能力。
這些模型在包含 108 個問題的多項選擇考試中進行了測試,涵蓋分子生物學、生物技術、代謝工程和合成生物學等生物學主題。在這些模型中,GPT-4 獲得了 90 分的最高平均分,並且在不同提示的試驗中表現出最大的一致性。