p/p695ao

@davecode

Sat, Feb 25, 2023 6:36 AM

16

8

Ref 程世嘉
Meta 參戰，發表語言模型 LLaMA (喇嘛)，一樣砲口對準 GPT -3 模型，宣稱只用 130 億個參數，模型表現就比 1750 億的參數 GPT-3 系列要好。

而且當 LLaMA 使用 650 億個參數時，表現更比現在地表上最強的模型 Chinchilla (700 億參數, DeepMind 開發) 和 PaLM (5,400 億參數, Google 開發) 都還要好。

這些公司整天億來億去，大家可能也快要看膩了，不過早在去年 4 月的時候，DeepMind 就發表論文指出，使用更多的參數來訓練語言模型，不是最好的做法，也相當浪費運算資源。

https://images.plurk.com/2PDDz8SpcG576LlZ70XUWf.jpg

--放假來看論文

DaveC

@davecode

Sat, Feb 25, 2023 6:36 AM

於是過去一年來新的模型參數數量開始呈現反轉下降的趨勢，而且縮小的速度非常快！ Amazon 前天提出了兩個數量級的縮小，Meta 今天提出一個數量級的縮小。甚至有人預期 GPT-4 的參數會比 GPT-3 少，以現在研究改善的速度來看非常有可能。

一場「縮小大腦、一樣聰明」的極限競賽開始，今年的 AI 研究，基本上都會完全聚焦在這個主題了。