DaveC
Ref 程世嘉
Meta 參戰,發表語言模型 LLaMA (喇嘛),一樣砲口對準 GPT -3 模型,宣稱只用 130 億個參數,模型表現就比 1750 億的參數 GPT-3 系列要好。

而且當 LLaMA 使用 650 億個參數時,表現更比現在地表上最強的模型 Chinchilla (700 億參數, DeepMind 開發) 和 PaLM (5,400 億參數, Google 開發) 都還要好。

這些公司整天億來億去,大家可能也快要看膩了,不過早在去年 4 月的時候,DeepMind 就發表論文指出,使用更多的參數來訓練語言模型,不是最好的做法,也相當浪費運算資源。
https://images.plurk.com/2PDDz8SpcG576LlZ70XUWf.jpg

--放假來看論文
DaveC
於是過去一年來新的模型參數數量開始呈現反轉下降的趨勢,而且縮小的速度非常快! Amazon 前天提出了兩個數量級的縮小,Meta 今天提出一個數量級的縮小。甚至有人預期 GPT-4 的參數會比 GPT-3 少,以現在研究改善的速度來看非常有可能。

一場「縮小大腦、一樣聰明」的極限競賽開始,今年的 AI 研究,基本上都會完全聚焦在這個主題了。
掰噗~
什..什麼? 論文!?
DaveC
@davecode - 轉) GPT-4

假如 GPT 4 數量級沒有那麼大,對人類來說是好事。

資源有限,慾望無窮。
天光已現 | pee
可以尋找 over parameterization。。。。這是最近兩三年很紅的領域
天光已現 | pee
不過不管怎樣,大模型就是要大量變數,不要一千多億也要幾百億,除非能將資料切開,再將各個模型組合起來
真。ikki
程世嘉已是廢文產生器了
真。ikki
他的公司也不是做ai的 要不要先收一收
相聲藝術工程師
他公司喔,科科
真。ikki
相聲藝術工程師 : 主要是他公司也不是主力在此 然後一直發文衝流量… 好像賣豬排的,一直關心蛋價一樣
載入新的回覆