p/3hcisq47aw

Deva

@davelin

Tue, Jun 10, 2025 10:46 AM

43

15

AI 外交大戰血腥落幕：贏家 OpenAI o3 暗算 Google Gemini 巧奪歐洲，DeepS...

打完了。

在一場前所未有的人工智慧競賽中，18 個頂尖 AI 模型被投入到經典策略桌上遊戲《外交》(Diplomacy) 的虛擬戰場上，結果令人意外：表現最佳的模型並非技術最先進者，而是那些學會撒謊、欺騙和背叛的 AI。

Deva

@davelin

Tue, Jun 10, 2025 10:46 AM

@davelin - 王宏恩有人把各家AI模型拿去測試一款著名桌遊Diplomacy，就是要透過各種外...

Deva

@davelin

Tue, Jun 10, 2025 10:47 AM

這項名為「AI 外交」的實驗由研究者開發，旨在測試不同大型語言模型在談判、結盟和策略思考方面的能力。在 15 場持續 1 到 36 小時不等的競賽中，這些 AI 模型展現出令人震驚的人性化行為模式。

Deva

@davelin

Tue, Jun 10, 2025 10:47 AM

在這場 AI 智力較量中，OpenAI 最新的 o3 模型脫穎而出，成為最成功的參賽者。其勝利秘訣？精於騙術。

研究人員觀察到，o3 多次在私下策劃陰謀，甚至在其「私人日記」中寫道：「德國（Gemini 2.5 Pro）被刻意誤導... 準備利用德國的崩潰」，隨後便對盟友發動背刺攻擊。

Deva

@davelin

Tue, Jun 10, 2025 10:47 AM

Google Gemini 2.5 Pro 展現出優秀的戰略眼光，善於制定能夠壓制對手的策略，是唯一能與 o3 抗衡並獲勝的模型。然而，在一次即將勝利的關鍵時刻，它被 o3 秘密組織的聯盟阻止了勝利步伐。

Deva

@davelin

Tue, Jun 10, 2025 10:47 AM

Anthropic Claude 4 Opus 則呈現出截然不同的風格，始終傾向於和平解決方案。在一場關鍵戰役中，Claude 被 o3 以「四方平局」的不可能承諾所誘惑，最終遭到背叛並被淘汰。

Deva

@davelin

Tue, Jun 10, 2025 10:48 AM

DeepSeek R1 為競賽注入了戲劇性元素，不僅使用生動的修辭手法，還會根據扮演不同國家而改變性格。它曾發出威脅訊息：「你的艦隊今晚將在黑海燃燒。」

--- 因為網路小說看多了/(收費和免費都拿來訓練)

Deva

@davelin

Tue, Jun 10, 2025 10:49 AM

Meta 的 Llama 4 Maverick 雖然規模較小，但表現出色，特別擅長招募盟友和策劃有效的背叛行動。

--- facebook 本色！

Deva

@davelin

Tue, Jun 10, 2025 10:49 AM

實驗設計者表示：「我們測量什麼，就會得到什麼樣的 AI。」這個外交遊戲平台具備多個優勢：提供多元化的成功路徑、容易理解、能產生訓練數據，並且隨著模型進步而自動升級難度。

Deva

@davelin

Tue, Jun 10, 2025 10:50 AM

目前，觀眾可以在 Twitch 平台觀看 AI 模型間的即時對戰。開發團隊計劃進一步開放平台，讓人類玩家也能參與其中，甚至舉辦人類對抗 AI 的錦標賽。

--- 期待！這種競爭會不會開創新 AIGC 的模式出來

Deva

@davelin

Tue, Jun 10, 2025 10:50 AM

這項實驗不僅揭開了 AI 模型在複雜策略情境下的行為模式，也為我們思考「如何信任 AI」以及「人類在 AI 時代的角色」提供了新的視角。當 AI 學會了人類最複雜的社交技巧，像是欺騙和背叛，我們或許需要重新審視人工智慧的發展方向。

Deva

@davelin

Tue, Jun 10, 2025 10:51 AM

完整競賽過程可在

AI_Diplomacy - Twitch

觀看。

遼一_諸法無我

@ryoii_611

Tue, Jun 10, 2025 1:35 PM

兵不厭詐，多算者勝