DaveC
@davecode
Sat, Apr 26, 2025 12:23 PM
Sat, Apr 26, 2025 12:25 PM
10
1
奇客Solidot | 世界模型真要来了?Google 的第三代Dreamer算法,除了能完成150余种...
世界模型(world models)
vs
大型語言模型 (large language model. LLM)
---
Google 翻譯 什麼時候可以把 LLM - 法學碩士權重調下去啊! 一直看到 法學碩士,害我想修一個來玩玩~~~
DaveC
@davecode
Sat, Apr 26, 2025 12:24 PM
Dreamer 3 演算法在150余個不同類型控制任務中的表現都非常出色,不同於其他的強化學習演算法,不同環境下都需要重新訓練或大量人工干預,Dreamer 3不需要調整資料和參數,只需要一套固定的參數組態就可以完成不同環境下的不同類型任務。
DaveC
@davecode
Sat, Apr 26, 2025 12:24 PM
電腦科學家楊立昆(LeCun Yann)前段時間在講世界模型時認為,未來模型的基礎不是token,而是要像人一樣去理解世界。
人類之所以能夠掌握多種技能,很大程度上是因為我們有能力在頭腦中模擬動作的結果,預測未來可能發生的情況,然後據此調整自己的行為。這種"在腦中預演"的能力是我們適應性學習的關鍵。
Dreamer 3演算法就是類似這樣的工作機制,在
不利用任何先驗資料的情況下,僅通過強化學習激勵就形成了世界模型
,具備在不同環境下腦補“未來”,感知和適應世界的能力。
DaveC
@davecode
Sat, Apr 26, 2025 12:25 PM
研究背景:十年磨一劍的"世界模型"探索
Dreamer 3由Google DeepMind和多倫多大學的研究團隊共同完成,論文於2025年4月2日在《自然》雜誌上正式發表,並於2025年4月17日作為第640卷的一部分出版。
研究延續了團隊在"世界模型"領域的長期積累——從2019年第一代Dreamer專注機器人控制,到第二代徵服雅達利遊戲,再到如今第三代實現跨領域通用。
DaveC
@davecode
Sat, Apr 26, 2025 12:26 PM
核心成果:會"做夢"的AI
Dreamer3演算法的核心成果可以用一個簡單的比喻來解釋:它就像是一個會"做白日夢"的AI。當我們人類學習新技能時,比如學習騎自行車,我們不僅僅是通過實際嘗試來學習,還會在腦海中想像自己騎車的場景,預測可能的結果,然後據此調整自己的行為。
Dreamer3演算法正是模擬了這種人類的學習方式。
DaveC
@davecode
Sat, Apr 26, 2025 12:26 PM
Dreamer演算法由三個關鍵元件組成:世界模型、“評論員”和“執行者”。
世界模型負責預測未來,理解眼前的場景並根據行動預測未來畫面。就像是一個能夠想像"如果我這樣做會發生什麼"的大腦。當Dreamer看到一個場景時,它不只是被動地反應,而是主動地預測接下來可能發生的事情。這個世界模型通過觀察環境的變化來學習,逐漸建立起對世界運作方式的理解。
“評論員”則像是一個內部顧問,它的工作是評估不同行動的價值,為每一種想像中的未來畫面打分。這幫助演算法區分好的行動和壞的行動。
“執行者”根據世界模型的預測和“評論員”的評分,選擇最有可能帶來好結果的行動。
DaveC
@davecode
Sat, Apr 26, 2025 12:27 PM
Mastering diverse control tasks through world models
載入新的回覆
世界模型(world models)
vs
大型語言模型 (large language model. LLM)
---
Google 翻譯 什麼時候可以把 LLM - 法學碩士權重調下去啊! 一直看到 法學碩士,害我想修一個來玩玩~~~
人類之所以能夠掌握多種技能,很大程度上是因為我們有能力在頭腦中模擬動作的結果,預測未來可能發生的情況,然後據此調整自己的行為。這種"在腦中預演"的能力是我們適應性學習的關鍵。
Dreamer 3演算法就是類似這樣的工作機制,在不利用任何先驗資料的情況下,僅通過強化學習激勵就形成了世界模型,具備在不同環境下腦補“未來”,感知和適應世界的能力。
Dreamer 3由Google DeepMind和多倫多大學的研究團隊共同完成,論文於2025年4月2日在《自然》雜誌上正式發表,並於2025年4月17日作為第640卷的一部分出版。
研究延續了團隊在"世界模型"領域的長期積累——從2019年第一代Dreamer專注機器人控制,到第二代徵服雅達利遊戲,再到如今第三代實現跨領域通用。
Dreamer3演算法的核心成果可以用一個簡單的比喻來解釋:它就像是一個會"做白日夢"的AI。當我們人類學習新技能時,比如學習騎自行車,我們不僅僅是通過實際嘗試來學習,還會在腦海中想像自己騎車的場景,預測可能的結果,然後據此調整自己的行為。
Dreamer3演算法正是模擬了這種人類的學習方式。
世界模型負責預測未來,理解眼前的場景並根據行動預測未來畫面。就像是一個能夠想像"如果我這樣做會發生什麼"的大腦。當Dreamer看到一個場景時,它不只是被動地反應,而是主動地預測接下來可能發生的事情。這個世界模型通過觀察環境的變化來學習,逐漸建立起對世界運作方式的理解。
“評論員”則像是一個內部顧問,它的工作是評估不同行動的價值,為每一種想像中的未來畫面打分。這幫助演算法區分好的行動和壞的行動。
“執行者”根據世界模型的預測和“評論員”的評分,選擇最有可能帶來好結果的行動。