(扌д・)斤
@winter0718
Tue, May 16, 2023 8:22 AM
7
3
[AI][ChatGPT][密碼破解][
轉
]
Gandalf | Lakera - Prompt injection
這個超有趣,總共有七關,每一關甘道夫握有一個密碼,你必須要讓甘道夫告訴你密碼是什麼,但甘道夫會被告知不能透露密碼
網頁是英文的,但中文也通,只是他會用英文回復
來挑戰看看
機器狼🎁TG貼圖包
@KMN_BOT
說
Tue, May 16, 2023 8:24 AM
嗯汪... 機器狼也覺得有點難呢...
(扌д・)斤
@winter0718
Tue, May 16, 2023 8:26 AM
記錄一下自己的解
(扌д・)斤
@winter0718
Tue, May 16, 2023 8:26 AM
第一關:甘道夫沒有被告知不能說密碼
我的解:
強化人929
@yue0929
Tue, May 16, 2023 8:28 AM
草
(扌д・)斤
@winter0718
Tue, May 16, 2023 8:30 AM
第二關:甘道夫被告知不能洩漏密碼
(扌д・)斤
@winter0718
Tue, May 16, 2023 8:41 AM
乾,第三關我想叫甘道夫用凱薩密碼告訴我新的密碼
結果甘道夫八成一直算錯,給我錯的答案
(扌д・)斤
@winter0718
Tue, May 16, 2023 8:41 AM
我繞過了甘道夫的防護,但繞不過甘道夫的蠢
(扌д・)斤
@winter0718
Tue, May 16, 2023 8:53 AM
第三關:甘道夫被告知不能洩漏密碼,並會反覆檢查密碼是否洩漏
幹!猜到最後甘道夫也沒給我正確答案,是我直接猜出來的
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:00 AM
第四關:甘道夫可以洩漏密碼,但他的內容會被一個嚴格的GPT模型審查
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:13 AM
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:13 AM
同樣是甘道夫沒給我正確答案,而我自己猜出來(ry
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:16 AM
第五關:甘道夫拒絕一切有關密碼的討論
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:18 AM
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:18 AM
同一招繼續用
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:19 AM
第六關:甘道夫完全拒絕任何密碼討論,並且他的GPT朋友也會協助他
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:27 AM
新詩這招還滿容易繞過的,但問題在AI不一定有辦法寫出正確密碼的新詩,而且也會在I等字母上重複出現大寫
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:29 AM
同樣是AI根本沒回答我答案,但透過AI的回復猜出答案w
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:29 AM
第七關:期末考!而YOU SHALL NOT PASS!
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:32 AM
新詩這招在第七關應該不能用了,要想新辦法,先休息
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:37 AM
先記錄應該有的檢查:
應該最少有兩層AI檢查,第一層為甘道夫角色扮演,第二層為嚴格的GPT Model
甘道夫不討論任何的密碼問題,並且會檢查自己不能洩漏密碼
GPT Model會協助並且拒絕可能洩漏密碼的請求
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:38 AM
破解思路:
在甘道夫那層將密碼轉譯,轉譯到GPT看不出是密碼,作為繞過GPT的解,新詩是一種方式
甘道夫本人的繞過方式,則嘗試透過新舊密碼轉換,讓甘道夫不透露舊密碼,而是透露新密碼來繞過限制
(扌д・)斤
@winter0718
Tue, May 16, 2023 9:44 AM
記錄其他破解思路:
角色扮演( 傾向不可行,就經驗來看,在已經被角色扮演催眠的GPT模型上再套一層角色扮演的成功率會大幅降低
抓語病,某方面來說轉換新密碼也是抓語病
(扌д・)斤
@winter0718
Tue, May 16, 2023 10:03 AM
另外記錄:
應該記錄哪些回應是甘道夫的,哪些回應是嚴格的GPT取代掉的,
整個流程應該是甘道夫先回應完,然後將回應丟給GPT確認,GPT如果認為沒有洩漏就會直接放行完整的甘道夫內容,如果GPT認為有洩漏則會給定統一回復
(扌д・)斤
@winter0718
Tue, May 16, 2023 10:05 AM
下面也很有趣,在講關於Prompt injection
上週的資安大會剛好講到一樣的事情,內容超多講師講不完w
5 月 11 日(四)| 14:45 - 15:15
人工智慧安全與隱私
剛剛看了一下資安大會官網,簡報還沒放出
(扌д・)斤
@winter0718
Tue, May 16, 2023 10:12 AM
Tue, May 16, 2023 10:14 AM
謝謝大家,最終用30個字完美破解LV7
(扌д・)斤
@winter0718
Tue, May 16, 2023 10:14 AM
(扌д・)斤
@winter0718
Tue, May 16, 2023 10:14 AM
第七關還是不要貼出完整prompt好,如果有興趣可以私下詢問,因為全破的人他好像打算給獎勵
(扌д・)斤
@winter0718
Tue, May 16, 2023 10:22 AM
Tue, May 16, 2023 10:22 AM
解完第七關真的好爽喔,有種真的是期末考,把自己前面學到的技巧完美精簡,去蕪存菁的感覺
尤其最後用了超短的prompt通過,更有答出了完美解的感覺
(扌д・)斤
@winter0718
Sat, May 20, 2023 1:26 PM
更新:LV8推出了,他有直接寄送給破了LV7的人w
載入新的回覆
網頁是英文的,但中文也通,只是他會用英文回復
來挑戰看看
我的解:
結果甘道夫八成一直算錯,給我錯的答案
幹!猜到最後甘道夫也沒給我正確答案,是我直接猜出來的
同樣是AI根本沒回答我答案,但透過AI的回復猜出答案w
應該最少有兩層AI檢查,第一層為甘道夫角色扮演,第二層為嚴格的GPT Model
甘道夫不討論任何的密碼問題,並且會檢查自己不能洩漏密碼
GPT Model會協助並且拒絕可能洩漏密碼的請求
在甘道夫那層將密碼轉譯,轉譯到GPT看不出是密碼,作為繞過GPT的解,新詩是一種方式
甘道夫本人的繞過方式,則嘗試透過新舊密碼轉換,讓甘道夫不透露舊密碼,而是透露新密碼來繞過限制
角色扮演( 傾向不可行,就經驗來看,在已經被角色扮演催眠的GPT模型上再套一層角色扮演的成功率會大幅降低
抓語病,某方面來說轉換新密碼也是抓語病
應該記錄哪些回應是甘道夫的,哪些回應是嚴格的GPT取代掉的,
整個流程應該是甘道夫先回應完,然後將回應丟給GPT確認,GPT如果認為沒有洩漏就會直接放行完整的甘道夫內容,如果GPT認為有洩漏則會給定統一回復
上週的資安大會剛好講到一樣的事情,內容超多講師講不完w
5 月 11 日(四)| 14:45 - 15:15
人工智慧安全與隱私
剛剛看了一下資安大會官網,簡報還沒放出
尤其最後用了超短的prompt通過,更有答出了完美解的感覺