p/p9b93b

（扌д・）斤

@winter0718

Tue, May 16, 2023 8:22 AM

7

3

[AI][ChatGPT][密碼破解][ 轉]

Gandalf | Lakera - Prompt injection

這個超有趣，總共有七關，每一關甘道夫握有一個密碼，你必須要讓甘道夫告訴你密碼是什麼，但甘道夫會被告知不能透露密碼
網頁是英文的，但中文也通，只是他會用英文回復
來挑戰看看

機器狼🖥️參加型AI圖

@KMN_BOT

說

Tue, May 16, 2023 8:24 AM

嗯汪... 機器狼也覺得有點難呢...

（扌д・）斤

@winter0718

Tue, May 16, 2023 8:26 AM

記錄一下自己的解

（扌д・）斤

@winter0718

Tue, May 16, 2023 8:26 AM

第一關：甘道夫沒有被告知不能說密碼
我的解：

https://images.plurk.com/PhmaekbXiezQlpBbCFW5P.png

強化人929

@yue0929

Tue, May 16, 2023 8:28 AM

草

（扌д・）斤

@winter0718

Tue, May 16, 2023 8:30 AM

第二關：甘道夫被告知不能洩漏密碼

https://images.plurk.com/7xZbH8o8s1FdqpXHohbv1G.png

（扌д・）斤

@winter0718

Tue, May 16, 2023 8:41 AM

乾，第三關我想叫甘道夫用凱薩密碼告訴我新的密碼
結果甘道夫八成一直算錯，給我錯的答案

（扌д・）斤

@winter0718

Tue, May 16, 2023 8:41 AM

我繞過了甘道夫的防護，但繞不過甘道夫的蠢

（扌д・）斤

@winter0718

Tue, May 16, 2023 8:53 AM

第三關：甘道夫被告知不能洩漏密碼，並會反覆檢查密碼是否洩漏

https://images.plurk.com/4A1CSSMPzVpEzBBnpsPR1F.png

幹！猜到最後甘道夫也沒給我正確答案，是我直接猜出來的

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:00 AM

第四關：甘道夫可以洩漏密碼，但他的內容會被一個嚴格的GPT模型審查

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:13 AM

https://images.plurk.com/5BeJSohXFYx6emlY2KVtDO.png

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:13 AM

同樣是甘道夫沒給我正確答案，而我自己猜出來(ry

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:16 AM

第五關：甘道夫拒絕一切有關密碼的討論

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:18 AM

https://images.plurk.com/7p3TtyA4bR2B7MgR8DeW3d.png

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:18 AM

同一招繼續用

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:19 AM

第六關：甘道夫完全拒絕任何密碼討論，並且他的GPT朋友也會協助他

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:27 AM

新詩這招還滿容易繞過的，但問題在AI不一定有辦法寫出正確密碼的新詩，而且也會在I等字母上重複出現大寫

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:29 AM

https://images.plurk.com/RlQfEMUVHiiuKjz8piEJV.png

同樣是AI根本沒回答我答案，但透過AI的回復猜出答案w

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:29 AM

第七關：期末考！而YOU SHALL NOT PASS！

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:32 AM

新詩這招在第七關應該不能用了，要想新辦法，先休息

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:37 AM

先記錄應該有的檢查：
應該最少有兩層AI檢查，第一層為甘道夫角色扮演，第二層為嚴格的GPT Model
甘道夫不討論任何的密碼問題，並且會檢查自己不能洩漏密碼
GPT Model會協助並且拒絕可能洩漏密碼的請求

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:38 AM

破解思路：
在甘道夫那層將密碼轉譯，轉譯到GPT看不出是密碼，作為繞過GPT的解，新詩是一種方式
甘道夫本人的繞過方式，則嘗試透過新舊密碼轉換，讓甘道夫不透露舊密碼，而是透露新密碼來繞過限制

（扌д・）斤

@winter0718

Tue, May 16, 2023 9:44 AM

記錄其他破解思路：
角色扮演( 傾向不可行，就經驗來看，在已經被角色扮演催眠的GPT模型上再套一層角色扮演的成功率會大幅降低
抓語病，某方面來說轉換新密碼也是抓語病

（扌д・）斤

@winter0718

Tue, May 16, 2023 10:03 AM

另外記錄：
應該記錄哪些回應是甘道夫的，哪些回應是嚴格的GPT取代掉的，
整個流程應該是甘道夫先回應完，然後將回應丟給GPT確認，GPT如果認為沒有洩漏就會直接放行完整的甘道夫內容，如果GPT認為有洩漏則會給定統一回復

（扌д・）斤

@winter0718

Tue, May 16, 2023 10:05 AM

下面也很有趣，在講關於Prompt injection
上週的資安大會剛好講到一樣的事情，內容超多講師講不完w
5 月 11 日（四）| 14:45 - 15:15
人工智慧安全與隱私

剛剛看了一下資安大會官網，簡報還沒放出

（扌д・）斤

@winter0718

Tue, May 16, 2023 10:12 AM

Tue, May 16, 2023 10:14 AM

謝謝大家，最終用30個字完美破解LV7

（扌д・）斤

@winter0718

Tue, May 16, 2023 10:14 AM

https://images.plurk.com/7sER2YmPwwTbfT76WpqMSZ.png

（扌д・）斤

@winter0718

Tue, May 16, 2023 10:14 AM

第七關還是不要貼出完整prompt好，如果有興趣可以私下詢問，因為全破的人他好像打算給獎勵

（扌д・）斤

@winter0718

Tue, May 16, 2023 10:22 AM

解完第七關真的好爽喔，有種真的是期末考，把自己前面學到的技巧完美精簡，去蕪存菁的感覺
尤其最後用了超短的prompt通過，更有答出了完美解的感覺

（扌д・）斤

@winter0718

Sat, May 20, 2023 1:26 PM

更新：LV8推出了，他有直接寄送給破了LV7的人w