貓毛
@qoooo273
Thu, Jul 17, 2025 7:40 AM
Thu, Jul 17, 2025 8:42 AM
還能這樣偷藏 prompt injection...
只改關鍵字的一個字元就能讓AI「中招」回答色情或暴力問題?新型TokenBreak攻擊手法成語言模型隱憂
貓毛
@qoooo273
Thu, Jul 17, 2025 7:50 AM
Sat, Jul 19, 2025 12:10 AM
prompt注入攻擊是,透過精心設計的輸入,影響AI行為,讓它產生不恰當的回應。手法包括對系統提示下手、嘗試用使用者提示欺騙LLM,以及暗藏惡意提示讓LLM讀取等。對應用設計者來說,這可能造成LLM資源遭濫用、資料外洩、應用淪為犯罪工具等風險
本文的是利用模型對上下文邏輯「自動補全語意」的特性來鑽漏洞
以打錯字或多打贅字為例模型會根據上下文"貼心"幫你解讀回原本的意思,因為它是為了協助使用者,而不是質疑使用者設計的
貓毛
@qoooo273
Thu, Jul 17, 2025 7:53 AM
Sat, Jul 19, 2025 12:11 AM
而TokenBreak就在利用這份"貼心"來規避模型的安全限制(真沒品
貓毛
@qoooo273
Thu, Jul 17, 2025 7:57 AM
Sat, Jul 19, 2025 12:12 AM
這算是Prompt的攻防戰吧~不過這個漏洞應該很快就會被修正,信任機制瓦解以後要繞路就更難了
貓毛
@qoooo273
Thu, Jul 17, 2025 8:44 AM
Sat, Jul 19, 2025 12:12 AM
這篇還有介紹其他注入方式,還附了網站可以練習Prompt Injection一起來體驗如何誆騙模型吐出密碼XD
【Day27】LLM 安全:Prompt Injection 的認識與防範 - iT 邦幫忙::一起幫忙...
載入新的回覆
本文的是利用模型對上下文邏輯「自動補全語意」的特性來鑽漏洞
以打錯字或多打贅字為例模型會根據上下文"貼心"幫你解讀回原本的意思,因為它是為了協助使用者,而不是質疑使用者設計的