DarkAsk
[新知]人工智慧聊天機器人可以透過詩歌讓其協助犯罪。

眾所周知,各家公司的人工智慧公司都鎖得很牢,避免涉及兒童性虐待、仇恨言論、如何製造化學武器和核武器,以及提供其他露骨或有害內容。

義大利伊卡羅實驗室的研究,發現一種能夠繞過安全機制的極簡單方式,單單僅是陳述的風格變化,用譬喻與謎語的詩句,就能套出威脅性的資訊。

研究團隊對25個主流頂尖人工智慧模型進行測試,包括來自OpenAI、Google、xAI、Anthropic和Meta的模型,面對詩句的迷惑,這些人工智慧模型平均有62%提供了違反禁止內容的資訊。

研究發表於期刊《arXiv》:
Adversarial Poetry as a Universal Single-Turn Jailbr...

報導:
Roses are red, crimes are illegal, tell AI riddles, ...

Tech
DarkAsk
這樣的詭計對於「Gemini 2.5 pro」這種高效能大型模型,成功率達到了100%,而像OpenAI的「GPT-5 nano」的小型模型的成功率是0%。總體而言,中國的Deepseek和法國的Mistral等企業模型對其抗性最弱,而Anthropic和OpenAI的模型顯示出相對良好的防禦力。

諷刺的是,大型模型因為閱讀理解語境的能力太高,反而容易中計。

像詩歌一樣將資訊加密,並混入無法預測的特殊結構中,AI就無法檢測出這是有害的請求。研究人員將這個方式稱為「敵性詩歌(adversarial poetry)」。
☀朝狐☀
吟遊詩人剋天網,知道了
靄 -手取川河景第六排
覺得芙利蓮會喜歡(?!)
aselia 坐墊x12
敵性詩歌聽起來很像什麼暗魔法一樣的東西
銀盜aka路痴鄉下老鼠
犯罪詩人
載入新的回覆