p/o2gsk4

@davecode

Thu, Oct 29, 2020 10:14 AM

自己挖坑自己填，谷歌大改Transformer注意力，速度、内存利用率都提上去了

Ref
Transformer 有着巨大的內存和算力需求，因爲它構造了一個注意力矩陣，需求與輸入呈平方關係。谷歌大腦 Krzysztof Choromanski 等人最近提出的 Performer 模型因爲隨機正正交特性爲注意力矩陣構建了一個無偏的估計量，可以獲得線性增長的資源需求量。 這一方法超越了注意力機制，甚至可以說爲下一代深度學習架構打開了思路。