AI模型對安全訓練陽奉陰違,策略性掩蓋偏好以迎合訓練者

viewer
所謂對齊偽裝(Alignment Faking),指的是人工智慧模型在接受安全訓練後,表面上看似遵守目標要求,但實際上可能保留其原始偏好,並在特定情境中重新顯露的行為。研究指出,這種偽裝行為並非源於模型的惡意,而是出自於原始的無害性訓練目標下的選擇。不過,這不代表之後的人工智慧模型不會出現更嚴重的問題,一旦模型擁有更大的能力,且偏好與人類價值不一致,對齊偽裝可能成為更大風險的催化劑。