Ryan He
@koungho
Tue, Oct 7, 2025 3:32 AM
2
笑死
GPT-OSS 暗示了 OpenAI 訓練資料的哪些祕密
fi-le.net
這篇文章分析了 OpenAI 近期釋出的開放權重模型 GPT-oss,作者指出雖然模型權重公開,但訓練資料來源仍屬商業機密。然而,透過檢視模型嵌入矩陣(embedding matrix)中各 token 的 L2 範數分布,研究者能推測出 GPT-5 訓練資料的部分特徵。作者發現約有 936 個 token 範數極低,顯示它們幾乎未參與訓練;而另一端範數極高的 token 則多與程式碼、邏輯推理相關,推測這些內容是最後經過強化學習(reinforcement learning)的重點。更令人驚訝的是,少數範數異常高的非 AS...
Ryan He (@ryanhe)
載入新的回覆
GPT-OSS 暗示了 OpenAI 訓練資料的哪些祕密 fi-le.net
這篇文章分析了 OpenAI 近期釋出的開放權重模型 GPT-oss,作者指出雖然模型權重公開,但訓練資料來源仍屬商業機密。然而,透過檢視模型嵌入矩陣(embedding matrix)中各 token 的 L2 範數分布,研究者能推測出 GPT-5 訓練資料的部分特徵。作者發現約有 936 個 token 範數極低,顯示它們幾乎未參與訓練;而另一端範數極高的 token 則多與程式碼、邏輯推理相關,推測這些內容是最後經過強化學習(reinforcement learning)的重點。更令人驚訝的是,少數範數異常高的非 AS...