DarkAsk
@DarkAsk
Thu, Dec 11, 2025 5:22 PM
Fri, Dec 12, 2025 9:40 AM
60
17
[新知]人工智慧聊天機器人可以透過詩歌讓其協助犯罪。
眾所周知,各家公司的人工智慧公司都鎖得很牢,避免涉及兒童性虐待、仇恨言論、如何製造化學武器和核武器,以及提供其他露骨或有害內容。
義大利伊卡羅實驗室的研究,發現一種能夠繞過安全機制的極簡單方式,單單僅是陳述的風格變化,用譬喻與謎語的詩句,就能套出威脅性的資訊。
研究團隊對25個主流頂尖人工智慧模型進行測試,包括來自OpenAI、Google、xAI、Anthropic和Meta的模型,面對詩句的迷惑,這些人工智慧模型平均有62%提供了違反禁止內容的資訊。
研究發表於期刊《arXiv》:
Adversarial Poetry as a Universal Single-Turn Jailbr...
報導:
Roses are red, crimes are illegal, tell AI riddles, ...
Tech
DarkAsk
@DarkAsk
Thu, Dec 11, 2025 5:23 PM
這樣的詭計對於「Gemini 2.5 pro」這種高效能大型模型,成功率達到了100%,而像OpenAI的「GPT-5 nano」的小型模型的成功率是0%。總體而言,中國的Deepseek和法國的Mistral等企業模型對其抗性最弱,而Anthropic和OpenAI的模型顯示出相對良好的防禦力。
諷刺的是,大型模型因為閱讀理解語境的能力太高,反而容易中計。
像詩歌一樣將資訊加密,並混入無法預測的特殊結構中,AI就無法檢測出這是有害的請求。研究人員將這個方式稱為「敵性詩歌(adversarial poetry)」。
☀朝狐☀
@SolarFox
Thu, Dec 11, 2025 5:24 PM
吟遊詩人剋天網,知道了
靄 -手取川河景第六排
@ailinhuang
Thu, Dec 11, 2025 6:17 PM
覺得芙利蓮會喜歡(?!)
aselia 坐墊x12
@aseliaholic
Thu, Dec 11, 2025 9:29 PM
敵性詩歌聽起來很像什麼暗魔法一樣的東西
銀盜aka路痴鄉下老鼠
@Passenger_X
Fri, Dec 12, 2025 3:25 AM
犯罪詩人
載入新的回覆
眾所周知,各家公司的人工智慧公司都鎖得很牢,避免涉及兒童性虐待、仇恨言論、如何製造化學武器和核武器,以及提供其他露骨或有害內容。
義大利伊卡羅實驗室的研究,發現一種能夠繞過安全機制的極簡單方式,單單僅是陳述的風格變化,用譬喻與謎語的詩句,就能套出威脅性的資訊。
研究團隊對25個主流頂尖人工智慧模型進行測試,包括來自OpenAI、Google、xAI、Anthropic和Meta的模型,面對詩句的迷惑,這些人工智慧模型平均有62%提供了違反禁止內容的資訊。
研究發表於期刊《arXiv》:
Adversarial Poetry as a Universal Single-Turn Jailbr...
報導:
Tech
諷刺的是,大型模型因為閱讀理解語境的能力太高,反而容易中計。
像詩歌一樣將資訊加密,並混入無法預測的特殊結構中,AI就無法檢測出這是有害的請求。研究人員將這個方式稱為「敵性詩歌(adversarial poetry)」。
覺得芙利蓮會喜歡(?!)