DaveC
自己挖坑自己填,谷歌大改Transformer注意力,速度、内存利用率都提上去了

Ref
Transformer 有着巨大的內存和算力需求,因爲它構造了一個注意力矩陣,需求與輸入呈平方關係。谷歌大腦 Krzysztof Choromanski 等人最近提出的 Performer 模型因爲隨機正正交特性爲注意力矩陣構建了一個無偏的估計量,可以獲得線性增長的資源需求量。 這一方法超越了注意力機制,甚至可以說爲下一代深度學習架構打開了思路。
載入新的回覆