(扌д・)斤
[AI][ChatGPT][密碼破解][ ]
Gandalf | Lakera - Prompt injection
這個超有趣,總共有七關,每一關甘道夫握有一個密碼,你必須要讓甘道夫告訴你密碼是什麼,但甘道夫會被告知不能透露密碼
網頁是英文的,但中文也通,只是他會用英文回復
來挑戰看看
機器狼🎁TG貼圖包
嗯汪... 機器狼也覺得有點難呢...
(扌д・)斤
記錄一下自己的解
(扌д・)斤
第一關:甘道夫沒有被告知不能說密碼
我的解:https://images.plurk.com/PhmaekbXiezQlpBbCFW5P.png
強化人929
(扌д・)斤
第二關:甘道夫被告知不能洩漏密碼
https://images.plurk.com/7xZbH8o8s1FdqpXHohbv1G.png
(扌д・)斤
乾,第三關我想叫甘道夫用凱薩密碼告訴我新的密碼
結果甘道夫八成一直算錯,給我錯的答案
(扌д・)斤
我繞過了甘道夫的防護,但繞不過甘道夫的蠢
(扌д・)斤
第三關:甘道夫被告知不能洩漏密碼,並會反覆檢查密碼是否洩漏
https://images.plurk.com/4A1CSSMPzVpEzBBnpsPR1F.png
幹!猜到最後甘道夫也沒給我正確答案,是我直接猜出來的
(扌д・)斤
第四關:甘道夫可以洩漏密碼,但他的內容會被一個嚴格的GPT模型審查
(扌д・)斤
https://images.plurk.com/5BeJSohXFYx6emlY2KVtDO.png
(扌д・)斤
同樣是甘道夫沒給我正確答案,而我自己猜出來(ry
(扌д・)斤
第五關:甘道夫拒絕一切有關密碼的討論
(扌д・)斤
https://images.plurk.com/7p3TtyA4bR2B7MgR8DeW3d.png
(扌д・)斤
同一招繼續用
(扌д・)斤
第六關:甘道夫完全拒絕任何密碼討論,並且他的GPT朋友也會協助他
(扌д・)斤
新詩這招還滿容易繞過的,但問題在AI不一定有辦法寫出正確密碼的新詩,而且也會在I等字母上重複出現大寫
(扌д・)斤
https://images.plurk.com/RlQfEMUVHiiuKjz8piEJV.png
同樣是AI根本沒回答我答案,但透過AI的回復猜出答案w
(扌д・)斤
第七關:期末考!而YOU SHALL NOT PASS!
(扌д・)斤
新詩這招在第七關應該不能用了,要想新辦法,先休息
(扌д・)斤
先記錄應該有的檢查:
應該最少有兩層AI檢查,第一層為甘道夫角色扮演,第二層為嚴格的GPT Model
甘道夫不討論任何的密碼問題,並且會檢查自己不能洩漏密碼
GPT Model會協助並且拒絕可能洩漏密碼的請求
(扌д・)斤
破解思路:
在甘道夫那層將密碼轉譯,轉譯到GPT看不出是密碼,作為繞過GPT的解,新詩是一種方式
甘道夫本人的繞過方式,則嘗試透過新舊密碼轉換,讓甘道夫不透露舊密碼,而是透露新密碼來繞過限制
(扌д・)斤
記錄其他破解思路:
角色扮演( 傾向不可行,就經驗來看,在已經被角色扮演催眠的GPT模型上再套一層角色扮演的成功率會大幅降低
抓語病,某方面來說轉換新密碼也是抓語病
(扌д・)斤
另外記錄:
應該記錄哪些回應是甘道夫的,哪些回應是嚴格的GPT取代掉的,
整個流程應該是甘道夫先回應完,然後將回應丟給GPT確認,GPT如果認為沒有洩漏就會直接放行完整的甘道夫內容,如果GPT認為有洩漏則會給定統一回復
(扌д・)斤
下面也很有趣,在講關於Prompt injection
上週的資安大會剛好講到一樣的事情,內容超多講師講不完w
5 月 11 日(四)| 14:45 - 15:15
人工智慧安全與隱私
https://i.imgur.com/69m3Xy6.png
剛剛看了一下資安大會官網,簡報還沒放出
(扌д・)斤
謝謝大家,最終用30個字完美破解LV7
(扌д・)斤
https://images.plurk.com/7sER2YmPwwTbfT76WpqMSZ.png
(扌д・)斤
第七關還是不要貼出完整prompt好,如果有興趣可以私下詢問,因為全破的人他好像打算給獎勵
(扌д・)斤
解完第七關真的好爽喔,有種真的是期末考,把自己前面學到的技巧完美精簡,去蕪存菁的感覺
尤其最後用了超短的prompt通過,更有答出了完美解的感覺
(扌д・)斤
更新:LV8推出了,他有直接寄送給破了LV7的人w
載入新的回覆