DaveC
@davecode
Wed, Jun 7, 2023 5:22 AM
16
8
OpenAI出手解决GPT-4数学推理:做对一步立刻奖励!论文数据集全开放,直接拿下SOTA
ref
OpenAI一個簡單的動作,讓大模型數學能力直接達到SOTA。
而且直接開源論文資料集,包含80萬個人類反饋標籤!
這就是OpenAI的最新研究。基於GPT-4,他們微調了幾個模型,分別採用不同的監督方法。
一種是傳統的結果監督,只對最終正確答案進行獎勵。
另一種則是過程監督,區別在於獎勵增加,對每一個正確的推理步驟進行獎勵。
結果這一點改變,讓採用過程監督的模型Process Reward Model(PRM),可以解決MATH測試集代表子集中78%的問題,達到SOTA。
DaveC
@davecode
說
Wed, Jun 7, 2023 5:22 AM
OpenAI表示:
我們認為探索過程監督在數學之外領域的表現非常重要。如果這些結果具有普遍性,那意味著過程監督將成為比結果監督更有效的方法。
載入新的回覆
ref
OpenAI一個簡單的動作,讓大模型數學能力直接達到SOTA。
而且直接開源論文資料集,包含80萬個人類反饋標籤!
這就是OpenAI的最新研究。基於GPT-4,他們微調了幾個模型,分別採用不同的監督方法。
一種是傳統的結果監督,只對最終正確答案進行獎勵。
另一種則是過程監督,區別在於獎勵增加,對每一個正確的推理步驟進行獎勵。
結果這一點改變,讓採用過程監督的模型Process Reward Model(PRM),可以解決MATH測試集代表子集中78%的問題,達到SOTA。
我們認為探索過程監督在數學之外領域的表現非常重要。如果這些結果具有普遍性,那意味著過程監督將成為比結果監督更有效的方法。