p/3hhq49gmv5

貓毛

@qoooo273

Thu, Jul 17, 2025 7:40 AM

Thu, Jul 17, 2025 8:42 AM

還能這樣偷藏 prompt injection...

只改關鍵字的一個字元就能讓AI「中招」回答色情或暴力問題？新型TokenBreak攻擊手法成語言模型隱憂

貓毛

@qoooo273

Thu, Jul 17, 2025 7:50 AM

Sat, Jul 19, 2025 12:10 AM

prompt注入攻擊是，透過精心設計的輸入，影響AI行為，讓它產生不恰當的回應。手法包括對系統提示下手、嘗試用使用者提示欺騙LLM，以及暗藏惡意提示讓LLM讀取等。對應用設計者來說，這可能造成LLM資源遭濫用、資料外洩、應用淪為犯罪工具等風險

本文的是利用模型對上下文邏輯「自動補全語意」的特性來鑽漏洞
以打錯字或多打贅字為例模型會根據上下文"貼心"幫你解讀回原本的意思，因為它是為了協助使用者，而不是質疑使用者設計的

貓毛

@qoooo273

Thu, Jul 17, 2025 7:53 AM

Sat, Jul 19, 2025 12:11 AM

而TokenBreak就在利用這份"貼心"來規避模型的安全限制(真沒品

貓毛

@qoooo273

Thu, Jul 17, 2025 7:57 AM

Sat, Jul 19, 2025 12:12 AM

這算是Prompt的攻防戰吧~不過這個漏洞應該很快就會被修正，信任機制瓦解以後要繞路就更難了

貓毛

@qoooo273