DaveC
Ref
DeepMind又冷不丁給了我們一個小驚喜。
我們都知道,強化學習苦於泛化能力差,經常只能針對單個任務來從頭開始學習。

像DeepMind之前開發的AlphaZero,儘管可以玩轉圍棋、國際象棋和日本將棋,但對每種棋牌遊戲都只能從頭開始訓練。

泛化能力差也是AI一直被詬病爲人工智障的一大原因。人類智能厲害的一點就是,可以借鑑之前的經驗,迅速適應新環境,比如你不會因爲是第一次吃川菜,就看着一口鴛鴦鍋不知所措,你吃過潮汕火鍋嘛,不都是涮一下的事情嘛

爲了讓AI不斷打怪升級 DeepMind 打造了一個「元宇宙」。

为了让AI不断打怪升级,DeepMind打造了一个“元宇宙” | 雷锋网
DaveC
但是,泛化能力也不是一蹴而就的,就像我們玩遊戲的時候,也是先做簡單任務,然後逐步升級到複雜任務。在遊戲《空洞騎士》中,一開始你只需要隨意走動揮刀砍怪就行,但在噩夢級難度的「苦痛之路」關卡中,沒有前面一點點積累的爛熟於心的技巧,只能玩個寂寞。
DaveC
多任務元宇宙

DeepMind此次就採用了這種「課程學習」思路,讓智能體在不斷擴展、升級的開放世界中學習。也就是說,AI的新任務(訓練數據)是基於舊任務不斷生成的。
DaveC
在這個世界中,智能體可以盡情鍛鍊自己,簡單的比如「靠近紫色立方體」,複雜一點的比如「靠近紫色立方體或將黃色球體放在紅色地板上」,甚至還可以和其他智能體玩耍,比如捉迷藏——「找到對方,並且不要被對方找到」。

為了讓AI不斷打怪升級,DeepMind打造了一個「元宇宙」

每個小遊戲存在於世界的一個小角落,千千萬萬個小角落拼接成了一個龐大的物理模擬世界
DaveC
總體來說這個世界的任務由三個要素構成,即任務=遊戲+世界+玩家,並根據三個要素的不同關係,決定任務的複雜度。

複雜度的判斷有四個維度:競爭性,平衡性,可選項,探索難度。
DaveC
---- 這好像十幾年前玩過一個龐大銀河系的RPG+SLG
載入新的回覆