p/pa68c3

@davecode

Wed, Jun 7, 2023 5:22 AM

OpenAI出手解决GPT-4数学推理：做对一步立刻奖励！论文数据集全开放，直接拿下SOTA

ref
OpenAI一個簡單的動作，讓大模型數學能力直接達到SOTA。

而且直接開源論文資料集，包含80萬個人類反饋標籤！

這就是OpenAI的最新研究。基於GPT-4，他們微調了幾個模型，分別採用不同的監督方法。
一種是傳統的結果監督，只對最終正確答案進行獎勵。

另一種則是過程監督，區別在於獎勵增加，對每一個正確的推理步驟進行獎勵。

結果這一點改變，讓採用過程監督的模型Process Reward Model（PRM），可以解決MATH測試集代表子集中78%的問題，達到SOTA。

DaveC

@davecode

說

Wed, Jun 7, 2023 5:22 AM

OpenAI表示：

我們認為探索過程監督在數學之外領域的表現非常重要。如果這些結果具有普遍性，那意味著過程監督將成為比結果監督更有效的方法。