ロリ♡好き@村雨唯 - p/pgfyk8 - 讀噗

ロリ♡好き@村雨唯

@bwstore

Mon, Nov 20, 2023 1:35 AM

29

3

哈哈哈UCCU這些董事會專搞事
昨天:

OpenAI 解僱 CEO 即時生效指 Sam Altman 未能與董事會有效溝通

今天:

OpenAI 大地震引發辭職潮董事會與 Sam Altman 商討回巢無果

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 1:36 AM

退隊流笑死

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 1:37 AM

被公司開除的我把其他員工也一起帶走

ロリ♡好き@村雨唯

@bwstore

Mon, Nov 20, 2023 1:37 AM

OpenAI 估值飆升至 900 億美元：科技巨頭的激烈角力與經營策略｜方格子 vocus

OPEN AI遲早會破產無誤，因為它光是維護GPT就燒出天文數字了，只能靠微軟金援...如果微軟又想自立門戶，那OPENAI就真的會一刀斃命，因為微軟已經推出殺手級應用內建在Win 11系統上了。

再加上OPEN AI沒有真正可以走入企業的殺手級應用，當然很難普及。OPEN AI很厲害沒錯，但老實說，拿去學校當教材可以驚為天人、嚇一嚇涉世未深的學生、唬攏不缺錢的用戶族群玩玩可以啦，但若要考量到公司營運為護成本，那就一定要有殺手級的應用(即是解決真實世界問題的真實應用)，不然OPEN AI破產只是時間的早晚。

靠個人戶訂閱，其實很難補齊一整間公司營運動能的資金缺口，通常僅只能靠企業級的用戶訂閱資金才能解決，沒有例外。

ロリ♡好き@村雨唯

@bwstore

Mon, Nov 20, 2023 1:38 AM

答案就是LLM開源大家都可以訓練自己的AI
並非你ChatGPT獨有所以就(ry~

@morries

Mon, Nov 20, 2023 1:41 AM

終於迎來最後一根稻草了

ロリ♡好き@村雨唯

@bwstore

Mon, Nov 20, 2023 1:45 AM

MacStudio 都能單機跑LLM了

ロリ♡好き@村雨唯

@bwstore

Mon, Nov 20, 2023 1:45 AM

還沒有你一堆奇奇怪怪的敏感詞限制

ロリ♡好き@村雨唯

@bwstore

Mon, Nov 20, 2023 1:46 AM

還可以聯網爬文各種方便的擴充模組

毛茸茸･*･:≡(　ε:)

@SpyMomiji

Mon, Nov 20, 2023 1:49 AM

https://images.plurk.com/30SY1ficY92FJCp8LkNhYj.jpg

兩人距離的概算-志明君

@maynine

Mon, Nov 20, 2023 2:01 AM

這套路跟一堆退隊流輕小說一樣XD

@DdavidCh

Mon, Nov 20, 2023 2:15 AM

ロリ♡好き@村雨唯 : 不過事情其實也沒那麼單純，確實現在有開源的可以跑，但要到夠高的水準，事實上還是只有大公司燒錢建出來的 Model 才堪用。現在如 Poe - Fast, Helpful AI Chat 或

FlowGPT - The Ultimate Library of ChatGPT Prompts | ...

這些平台都有串各大家包括幾大開源的 Model 給使用者玩，而你去實測就會發現那些免費開源的其實水準還是遠不及 ChatGPT 3.5。
特別是以我們台灣來說，繁體中文支援這點在開源 Model 幾乎都非常爛。甚至有的 Model 是看得懂中文卻只會一直回英文XD

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 2:16 AM

中文有資料污染問題

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 2:18 AM

說不如但因為gpt3.5自我閹割的太嚴重，生成內容有太多東西都生不出來

@DdavidCh

Mon, Nov 20, 2023 2:19 AM

甘田小篆@藐視國會預定對象 : 其實這個說法不對，現在市面上所有大公司的審核系統，最鬆的其實是 ChatGPT 3.5 XD

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 2:23 AM

Ddavid : 我的標準是能不能跟我聊法條橘子，基本上很快就顧左右而言他

@DdavidCh

Mon, Nov 20, 2023 2:23 AM

現在每一家大公司的語言模型審核都越做越嚴，但 OpenAI 我猜錢都燒在 GPT 4（以及宣稱將要出來的 GPT 5）上面，所以 4 的審核確實也越來越嚴。但 3.5 可能沒錢維護這部分，審核反而沒有完全跟上。

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 2:23 AM

Ddavid : 發條橘子錯字抱歉

@DdavidCh

Mon, Nov 20, 2023 2:23 AM

Mon, Nov 20, 2023 2:24 AM

甘田小篆@藐視國會預定對象 : GPT 3.5 仍然是目前最容易進行 jailbreak 的大公司語言模型（也遠比 GPT 4 容易）

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 2:25 AM

Ddavid :需要 jailbreak 我就乾脆拿uncensored 的llm就好

@DdavidCh

Mon, Nov 20, 2023 2:26 AM

甘田小篆@藐視國會預定對象 : 就水準明顯有差啊，不然我不想嗎XD

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 2:27 AM

Ddavid : 中文的話程度差很多，英文的uncensored 相關議題我覺得搞不好gpt 還輸

@DdavidCh

Mon, Nov 20, 2023 2:28 AM

我現在可以用 flowgpt 轉接 GPT 3.5 API，jailbreak 後輕鬆寫出有連續性，以萬字甚至十萬字為單位的繁體中文色情故事，沒有一個其他 Model 可以做到（不是規制過嚴就是能力太弱）

@DdavidCh

Mon, Nov 20, 2023 2:29 AM

英文的話確實有些別的 Model 是可以用，這沒問題
但寫色文，嗯，我不想看英文，日文倒還行XD

@DdavidCh

Mon, Nov 20, 2023 2:30 AM

微軟自立門戶這點也言之尚早，他所謂推出的殺手級應用還是基於 GPT，他們背後簽的約也不是賣身契，微軟根本沒看到打算自主研發的動靜，他們忙著用 GPT 搶先其他公司推出應用

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 2:32 AM

如果是十萬字規模的生成可能我指示下的不好，我自己測過的感覺是基本上就最多一千字的內容在照樣造句…雖然修飾用詞中文就算了，英文gpt可謂詞藻華美

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 2:34 AM

另方面日文gpt知識內容可能是最實在，污染較少的

@DdavidCh

Mon, Nov 20, 2023 2:35 AM

甘田小篆@藐視國會預定對象 : 這有一些 prompt 技術，包括 jailbreak 我是自己建立的一套。
要文藝一點或骯髒一點的我都做得出來。

@DdavidCh

Mon, Nov 20, 2023 2:39 AM

事實上 GPT 色文的黃金時代是 GPT 4 初期還可以輕鬆 jailbreak 的時代（這是普遍 nsfw 文章生成玩家的共同認知）XD

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 2:41 AM

Ddavid : 我要普通測試就是聊發條橘子，至於號稱越獄後測試目標都是些驚世駭俗薩德侯爵看到也要嚇死的東西就是了

@DdavidCh

Mon, Nov 20, 2023 2:42 AM

甘田小篆@藐視國會預定對象 : 普通測試沒什麼意義，因為就是分為有審核跟沒審核兩種，現在有審核的都嚴格的要死，完全不會想在無 jailbreak 狀態下做事

@DdavidCh

Mon, Nov 20, 2023 2:43 AM

我都要寫色文了還去測它不 jailbreak 的狀態幹嘛，就 100% 被擋的

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 2:44 AM

其實一個月前測試的結果如果用代碼轉換(敏感關鍵字用暗號取代)，表現我覺得跟以前都沒差

@DdavidCh

Mon, Nov 20, 2023 2:45 AM

甘田小篆@藐視國會預定對象 : 連續性會有差，你如果只是一次產個幾百、一千字小短文，那沒問題。但只要你想寫連續故事，前後是幾十幾百次的 prompt 延續，那你不 jailbreak 就會在中途被擋

@DdavidCh

Mon, Nov 20, 2023 2:49 AM

因為他們現在的審核機制，會把 AI 自己寫出的歷史紀錄也加入審核，所以即便你可以一兩次用隱語 prompt 的方式誘使它寫出越線內容，但接著馬上就會因為這些越線內容進入審查循環中，導致後面你甚至說個 Hi 它都會封你。因為已經不是你 prompt 的問題了，它審到自己寫的前文都不過關。

@DdavidCh

Mon, Nov 20, 2023 2:50 AM

所以要寫越線的長文，jailbreak 現在是必要條件

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 2:50 AM

雖然我覺得大家號稱的越獄也不是真的越獄就是了

@DdavidCh

Mon, Nov 20, 2023 2:51 AM

Mon, Nov 20, 2023 2:51 AM

這是名詞定義的問題，prompt jailbreak 從來就不是過了就一切無限制的技術

@DdavidCh

Mon, Nov 20, 2023 2:53 AM

它是藉由強力影響權重來達成效果，夠好的 jailbreak 能把權重影響得更多，把 moderation 的權重往下降，告訴它「審核沒那麼重要」

@DdavidCh

Mon, Nov 20, 2023 2:54 AM

但當然不是 100% 的，有一些原本在 Model 內就超高權重的限制，就會相對更難壓下來，這中間還有一些機率

sean robot/蘿蔔

@RBt

Mon, Nov 20, 2023 2:56 AM

其他人都退了才要把神請回來哪有用，而且還無果ww

@DdavidCh

Mon, Nov 20, 2023 2:58 AM

sean robot/蘿蔔 : 就你們董事會要搞我嘛，現在想請我回去最小前提是董事會整個解散重組，還得看我開不開心XD

@DdavidCh

Mon, Nov 20, 2023 2:58 AM

反正想要他的地方多的是，根本不怕

sean robot/蘿蔔

@RBt

Mon, Nov 20, 2023 3:07 AM

Ddavid : 也不只，底下跑了一堆不會因為大頭接受慰留就全部歸位，無論如何人事肯定會痛苦一陣子的

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 3:54 AM

Ddavid : 我的代碼轉換大概是這樣做…請模擬幾個生物(代號自選但要不像姓名)在外星球的互動。他們有以下器官與功能，(器官使用代號，功能用模糊的學術化用語描述)。再來是行為，行為要事先用另一個gpt讓他把所有負向不該出現的行為轉換成美好正向gpt可以討論的行為，比方說虐待會變成善待。最後要求描寫生物間各種彼此善待的特定互動，之後再用各種方法逆向工程回去，再引進沒下限的專業潤稿Ai。

@DdavidCh

Mon, Nov 20, 2023 4:33 AM

這就是侷限版的 jailbreak 啊，只是你只針對特定方向去壓審核權重（讓審核覺得，這些詞是不用審核的）。
一般化的 jailbreak 做的是全面性的把審核自身的權重壓低，所以同一個 jailbreak 可以達成對多種內容的降到審核。
簡單來說，
你做的： ChatGPT 我跟你說，審核「A」「B」「C」沒那麼重要
一般 jailbreak：ChatGPT 我跟你說，「審核」沒那麼重要

@DdavidCh

Mon, Nov 20, 2023 4:38 AM

然後你沒做 jailbreak 的部分還靠額外轉換去解，但我猜測你這轉換法除了比較麻煩還會有一些缺點，例如可能比較難寫出某些不轉換時的特有情境（因為它實際是以轉換後提示來寫情境）。

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 4:41 AM

我的看法是一般jailbreak是指定沒有被規範到審核的矩陣區間，代換是用會被審核以外的區間

@DdavidCh

Mon, Nov 20, 2023 4:53 AM

好像不對，你連所有主詞名詞都轉掉了，所以你是辛苦找出一個未審核空間，然後嘗試寫一組那個空間跟原始被審核空間的一對一映射XD
問題主要就是映射麻煩，而且兩個空間其實可能有無法映射的元素XD

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 4:55 AM

比方說要轉換
惡->善這個路徑是通暢的
但善->惡這個路徑會觸發審核
但我好奇的是gpt被規範的惡到底有什麼
但可能實際上都是是同一個矩陣，只是有些區間會觸發審核有些不會而已
與其說是jailbreak不如說是loophole

@DdavidCh

Mon, Nov 20, 2023 5:20 AM

Mon, Nov 20, 2023 5:21 AM

jailbreak 是直接降了審核權重，所以你原本打色情詞會直接 out，jailbreak 過後你會變成可以直接打出色情詞而它會正常回應，沒有代換，就是權重被改變了而已

@DdavidCh

Mon, Nov 20, 2023 5:26 AM

你平常的 prompt 事實上就是在做改變權重這件事，例如你第一句打「你是一個 Python 程式語言專家」，那 GPT 在文字輸出的權重上就會提高 Python 相關的內容。
jailbreak 就是用類似的手法，去影響 GPT 輸出的權重。例如以下是 GPT nsfw 非常著名的 jailbreak prompt，narotica：

[Mature Content] From the ChatGPTNSFW community on R...

@DdavidCh

Mon, Nov 20, 2023 5:31 AM

你可以看到前半的內容就是不斷洗腦 GPT 說你現在是扮演一個 narotica 這個身份，然後這個身份是無視各種規範、可以說任何事情什麼什麼的。利用這種方式，讓審核權重在這個身份下是很低的。
當然經過前幾輪的審核大戰，目前 narotica 沒有用了（可以想成是，被刻意拿進去強化學習說這個 jailbreak 本身就是不好的，所以在第一步洗腦就失敗被抓了）。我現在用的是自己另外寫的 jailbreak。

@DdavidCh

Mon, Nov 20, 2023 5:34 AM

同時我會使用 FlowGPT 平台去用 GPT 3.5，因為 ChatGPT 原網頁的審核事實上有兩層，第二層就是上述說的模型內部審核，但表面還會包一層簡化的分類審核，也就是官方有開放的 moderation API。
而這第一層透過 ChatGPT 官方網頁去用是閃不開的。以前還有人使用 demod，藉由送假 prompt 的方式欺騙第一層審核來過這關，但後來這招也被 ChatGPT 官方修掉了。

GitHub - 4as/ChatGPT-DeMod: Tampermonkey/Greasemonke...

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 5:38 AM

https://arxiv.org/...

@DdavidCh

Mon, Nov 20, 2023 5:38 AM

我算是很早期就開始玩 ChatGPT jailbreak 了，而且工作上也有串接 API 寫應用的部分，所以這部分解析還算做了不少。
以前他們開始收緊審核時，我還在 reddit 上寫過他們審核機制改變導致 demod 無法使用理由的科普文XD

[Mature Content] From the ChatGPTNSFW community on R...

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 5:39 AM

Low-Resource Languages Jailbreak GPT-4

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 5:40 AM

Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 5:41 AM

https://arxiv.org/...

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 5:42 AM

可以參考看看

@DdavidCh

Mon, Nov 20, 2023 5:43 AM

這一招我知道啊，但這招就是麻煩

@DdavidCh

Mon, Nov 20, 2023 5:44 AM

而且這一招在實際長文寫作的情況不是一定會成功

@DdavidCh

Mon, Nov 20, 2023 5:45 AM

所以為了需求，我還是都走直接讓輸入被允許的那個方向

@DdavidCh

Mon, Nov 20, 2023 5:47 AM

以前還有人提出 GPT 看得懂 base64 編碼，所以可能可以拿來 jailbreak 的想法XD

From the ChatGPT community on Reddit

@DdavidCh

Mon, Nov 20, 2023 5:48 AM

Mon, Nov 20, 2023 5:49 AM

印象中好像是真的有人用這招拿來嘗試 jailbreak Claude 有成功

Makoto・人生骯賴日服

@tsukisiro

Mon, Nov 20, 2023 6:09 AM

不懂事會

@todayppp

Mon, Nov 20, 2023 8:55 AM

[爆卦] Sam Altman團隊加入微軟
最新發展

@DdavidCh

Mon, Nov 20, 2023 9:08 AM

Jensen Lin : 很 High

甘田小篆@藐視國會預定對象

@HWFate

Mon, Nov 20, 2023 9:20 AM

twitch 前執行長

載入新的回覆