p/3ht9uiy6h3

@koungho

Tue, Oct 7, 2025 3:32 AM

笑死

GPT-OSS 暗示了 OpenAI 訓練資料的哪些祕密 fi-le.net

這篇文章分析了 OpenAI 近期釋出的開放權重模型 GPT-oss，作者指出雖然模型權重公開，但訓練資料來源仍屬商業機密。然而，透過檢視模型嵌入矩陣（embedding matrix）中各 token 的 L2 範數分布，研究者能推測出 GPT-5 訓練資料的部分特徵。作者發現約有 936 個 token 範數極低，顯示它們幾乎未參與訓練；而另一端範數極高的 token 則多與程式碼、邏輯推理相關，推測這些內容是最後經過強化學習（reinforcement learning）的重點。更令人驚訝的是，少數範數異常高的非 AS...