DaveC
@davecode
Thu, Jun 13, 2024 10:14 PM
Thu, Jun 13, 2024 10:15 PM
18
6
从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗
實驗表明,該研究提出的 MatMul-free 模型達到了與最先進的 Transformer 相當的效能,後者在推理期間需要更多的記憶體,規模至少為 2.7B 引數。
此外,論文還研究了擴充套件定律,發現隨著模型規模的增加,MatMul-free 模型與全精度 Transformer 之間的效能差距逐漸縮小。
研究者還提供了一種高效的 GPU 模型實現方式,在訓練期間相比未優化的基線模型減少了多達 61% 的記憶體使用。通過在推理時利用優化的核心,模型記憶體消耗可以比未優化的模型減少超過 10 倍。
---用FPGA 來跑 GPU
DaveC
@davecode
Thu, Jun 13, 2024 10:14 PM
最後,研究者在 FPGA 上構建了一個自定義硬體解決方案,他們以 13W 的功耗處理了十億引數規模的模型,超出了人類可讀的吞吐量,使 LLM 更接近大腦般的效率。
不過,受到計算資源的限制,研究者還沒有在非常大的模型(如引數大於100B的模型)上測試MatMul-free模型的有效性,因此其實戰效果還有待觀察。
DaveC
@davecode
Fri, Jun 14, 2024 12:03 AM
阿扁說小賴加油
@mako999
Fri, Jun 14, 2024 12:05 AM
早安
天光已現 | pee
@peeplurk
Fri, Jun 14, 2024 12:06 AM
沒看先猜這些架構是基於quantization
無住生心
@withnoheart
Fri, Jun 14, 2024 1:59 AM
DaveC
@davecode
Fri, Jun 14, 2024 9:11 AM
ref 陳鍾誠
剛剛看了下列論文的圖片
Scalable MatMul-free Language Modeling
我想我應該知道作者在想表達甚麼了
基本上就是用 Root Mean Square (RMS) 運算避免神經網路中的 W*X 運算。
然後他們用 FPGA 去實作出基於 RMS 的電路,放在神經網路的 forward 與 backward 算法當中
透過這樣來避開矩陣相乘,發現用 RMS 取代 W*X 後,電路更簡單,速度更快。
確實是個有趣、簡單又易懂的想法
只是能否讓未來神經網路改用 RMS 電路,又是另一個疑問了 ....
DaveC
@davecode
Fri, Jun 14, 2024 9:12 AM
DaveC
@davecode
Fri, Jun 14, 2024 9:24 AM
废弃矩阵计算 大语言模型的高效计算方式MatMul Free
DaveC
@davecode
Fri, Jun 14, 2024 10:43 AM
Ref 蔡炎龍
這篇的方法 GPU 還是會比 CPU 好, 只是以前別的研究好像說並沒有太顯著的突破或差一點。因此在這篇又用了客制化的 FPGA, 整個才達成論文說的效果。可能要再花點時間看看是不是這樣子比較好 (包括容易建置、效能等等)。
不過再度把 RNN 帶回來的想法我還挺欣賞的。
載入新的回覆
此外,論文還研究了擴充套件定律,發現隨著模型規模的增加,MatMul-free 模型與全精度 Transformer 之間的效能差距逐漸縮小。
研究者還提供了一種高效的 GPU 模型實現方式,在訓練期間相比未優化的基線模型減少了多達 61% 的記憶體使用。通過在推理時利用優化的核心,模型記憶體消耗可以比未優化的模型減少超過 10 倍。
---用FPGA 來跑 GPU
不過,受到計算資源的限制,研究者還沒有在非常大的模型(如引數大於100B的模型)上測試MatMul-free模型的有效性,因此其實戰效果還有待觀察。
剛剛看了下列論文的圖片
Scalable MatMul-free Language Modeling
我想我應該知道作者在想表達甚麼了
基本上就是用 Root Mean Square (RMS) 運算避免神經網路中的 W*X 運算。
然後他們用 FPGA 去實作出基於 RMS 的電路,放在神經網路的 forward 與 backward 算法當中
透過這樣來避開矩陣相乘,發現用 RMS 取代 W*X 後,電路更簡單,速度更快。
確實是個有趣、簡單又易懂的想法
只是能否讓未來神經網路改用 RMS 電路,又是另一個疑問了 ....
這篇的方法 GPU 還是會比 CPU 好, 只是以前別的研究好像說並沒有太顯著的突破或差一點。因此在這篇又用了客制化的 FPGA, 整個才達成論文說的效果。可能要再花點時間看看是不是這樣子比較好 (包括容易建置、效能等等)。
不過再度把 RNN 帶回來的想法我還挺欣賞的。