DaveC
从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗
實驗表明,該研究提出的 MatMul-free 模型達到了與最先進的 Transformer 相當的效能,後者在推理期間需要更多的記憶體,規模至少為 2.7B 引數。

此外,論文還研究了擴充套件定律,發現隨著模型規模的增加,MatMul-free 模型與全精度 Transformer 之間的效能差距逐漸縮小。

研究者還提供了一種高效的 GPU 模型實現方式,在訓練期間相比未優化的基線模型減少了多達 61% 的記憶體使用。通過在推理時利用優化的核心,模型記憶體消耗可以比未優化的模型減少超過 10 倍。

---用FPGA 來跑 GPU
DaveC
最後,研究者在 FPGA 上構建了一個自定義硬體解決方案,他們以 13W 的功耗處理了十億引數規模的模型,超出了人類可讀的吞吐量,使 LLM 更接近大腦般的效率。

不過,受到計算資源的限制,研究者還沒有在非常大的模型(如引數大於100B的模型)上測試MatMul-free模型的有效性,因此其實戰效果還有待觀察。
DaveC
https://images.plurk.com/EkhfbB8ME0FI8FQKAT2Qi.png
阿扁說小賴加油
早安
天光已現 | pee
沒看先猜這些架構是基於quantization
無住生心
(p-goodluck)
DaveC
ref 陳鍾誠
剛剛看了下列論文的圖片
Scalable MatMul-free Language Modeling
我想我應該知道作者在想表達甚麼了
基本上就是用 Root Mean Square (RMS) 運算避免神經網路中的 W*X 運算。
然後他們用 FPGA 去實作出基於 RMS 的電路,放在神經網路的 forward 與 backward 算法當中
透過這樣來避開矩陣相乘,發現用 RMS 取代 W*X 後,電路更簡單,速度更快。
確實是個有趣、簡單又易懂的想法
只是能否讓未來神經網路改用 RMS 電路,又是另一個疑問了 ....

https://images.plurk.com/4vbOwHwRsOMK2901TgMKnh.png
DaveC
https://images.plurk.com/50sX9E8mvOTKQ3d9MQVN9B.png
DaveC
Ref 蔡炎龍
這篇的方法 GPU 還是會比 CPU 好, 只是以前別的研究好像說並沒有太顯著的突破或差一點。因此在這篇又用了客制化的 FPGA, 整個才達成論文說的效果。可能要再花點時間看看是不是這樣子比較好 (包括容易建置、效能等等)。

不過再度把 RNN 帶回來的想法我還挺欣賞的。
載入新的回覆