Deva
@davelin
Tue, Jun 10, 2025 10:46 AM
43
15
AI 外交大戰血腥落幕:贏家 OpenAI o3 暗算 Google Gemini 巧奪歐洲,DeepS...
打完了。
在一場前所未有的人工智慧競賽中,18 個頂尖 AI 模型被投入到經典策略桌上遊戲《外交》(Diplomacy) 的虛擬戰場上,結果令人意外:表現最佳的模型並非技術最先進者,而是那些學會撒謊、欺騙和背叛的 AI。
Deva
@davelin
Tue, Jun 10, 2025 10:46 AM
@davelin - 王宏恩 有人把各家AI模型拿去測試一款著名桌遊Diplomacy,就是要透過各種外...
Deva
@davelin
Tue, Jun 10, 2025 10:47 AM
這項名為「AI 外交」的實驗由研究者開發,旨在測試不同大型語言模型在談判、結盟和策略思考方面的能力。在 15 場持續 1 到 36 小時不等的競賽中,這些 AI 模型展現出令人震驚的人性化行為模式。
Deva
@davelin
Tue, Jun 10, 2025 10:47 AM
在這場 AI 智力較量中,OpenAI 最新的 o3 模型脫穎而出,成為最成功的參賽者。其勝利秘訣?精於騙術。
研究人員觀察到,o3 多次在私下策劃陰謀,甚至在其「私人日記」中寫道:「德國(Gemini 2.5 Pro)被刻意誤導... 準備利用德國的崩潰」,隨後便對盟友發動背刺攻擊。
Deva
@davelin
Tue, Jun 10, 2025 10:47 AM
Google Gemini 2.5 Pro 展現出優秀的戰略眼光,善於制定能夠壓制對手的策略,是唯一能與 o3 抗衡並獲勝的模型。然而,在一次即將勝利的關鍵時刻,它被 o3 秘密組織的聯盟阻止了勝利步伐。
Deva
@davelin
Tue, Jun 10, 2025 10:47 AM
Anthropic Claude 4 Opus 則呈現出截然不同的風格,始終傾向於和平解決方案。在一場關鍵戰役中,Claude 被 o3 以「四方平局」的不可能承諾所誘惑,最終遭到背叛並被淘汰。
Deva
@davelin
Tue, Jun 10, 2025 10:48 AM
DeepSeek R1 為競賽注入了戲劇性元素,不僅使用生動的修辭手法,還會根據扮演不同國家而
改變性格
。它曾發出威脅訊息:「你的艦隊今晚將在黑海燃燒。」
--- 因為網路小說看多了/(收費和免費都拿來訓練)
Deva
@davelin
Tue, Jun 10, 2025 10:49 AM
Meta 的 Llama 4 Maverick 雖然規模較小,但表現出色,特別擅長招募盟友和策劃有效的背叛行動。
--- facebook 本色!
Deva
@davelin
Tue, Jun 10, 2025 10:49 AM
實驗設計者表示:「
我們測量什麼,就會得到什麼樣的 AI
。」這個外交遊戲平台具備多個優勢:提供多元化的成功路徑、容易理解、能產生訓練數據,並且隨著模型進步而自動升級難度。
Deva
@davelin
Tue, Jun 10, 2025 10:50 AM
Tue, Jun 10, 2025 10:50 AM
目前,觀眾可以在 Twitch 平台觀看 AI 模型間的即時對戰。開發團隊計劃進一步開放平台,讓人類玩家也能參與其中,甚至舉辦人類對抗 AI 的錦標賽。
--- 期待!這種競爭會不會開創新 AIGC 的模式出來
Deva
@davelin
Tue, Jun 10, 2025 10:50 AM
這項實驗不僅揭開了 AI 模型在複雜策略情境下的行為模式,也為我們思考「如何信任 AI」以及「人類在 AI 時代的角色」提供了新的視角。當 AI 學會了人類最複雜的社交技巧,像是欺騙和背叛,我們或許需要重新審視人工智慧的發展方向。
Deva
@davelin
Tue, Jun 10, 2025 10:51 AM
完整競賽過程可在
AI_Diplomacy - Twitch
觀看。
遼一_諸法無我
@ryoii_611
Tue, Jun 10, 2025 1:35 PM
兵不厭詐,多算者勝
載入新的回覆
在一場前所未有的人工智慧競賽中,18 個頂尖 AI 模型被投入到經典策略桌上遊戲《外交》(Diplomacy) 的虛擬戰場上,結果令人意外:表現最佳的模型並非技術最先進者,而是那些學會撒謊、欺騙和背叛的 AI。
研究人員觀察到,o3 多次在私下策劃陰謀,甚至在其「私人日記」中寫道:「德國(Gemini 2.5 Pro)被刻意誤導... 準備利用德國的崩潰」,隨後便對盟友發動背刺攻擊。
--- 因為網路小說看多了/(收費和免費都拿來訓練)
--- facebook 本色!
--- 期待!這種競爭會不會開創新 AIGC 的模式出來