DaveC
@davecode
Wed, Jul 19, 2023 5:42 AM
10
4
Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现
DaveC
@davecode
Wed, Jul 19, 2023 5:43 AM
這篇論文到底有何創新,得到大家如此的好評。接下來我們看看具體內容。
這篇文章主要是針對文字分類任務的。文中表示文字分類作為自然語言處理(NLP)中最基礎的任務之一,在神經網路的幫助下取得了顯著的改進。然而,大多數神經網路對資料的需求很高,這種需求隨著模型參數數量的增加而增加。
DaveC
@davecode
Wed, Jul 19, 2023 5:43 AM
本文提出了一種文字分類方法,他們將無失真壓縮器(如 gzip)與 k 最近鄰分類器(kNN)相結合。
文中表示,採用這種方法在沒有任何訓練參數的情況下,他們在七個分佈內資料集和五個分佈外資料集上的實驗表明,使用像 gzip 這樣的簡單壓縮器,他們在七個資料集中的結果有六個與 DNNs 結果相媲美,並在五個分佈外資料集上勝過包括 BERT 在內的所有方法。即使在少樣本情況下,本文方法也大幅超越了所有模型。
DaveC
@davecode
Wed, Jul 19, 2023 5:43 AM
網友也對這一結果感到驚訝,gzip+kNN 在文字分類任務中竟然勝過了 BERT 和其他神經網路方法。更令人意外的是這個演算法沒有訓練過程、沒有調優、沒有參數 —— 有的只是 14 行程式碼,這就是整個演算法內容。
DaveC
@davecode
Wed, Jul 19, 2023 5:43 AM
這一直覺知識可以形式化為從柯爾莫哥洛夫(Kolmogorov)複雜度中匯出的距離度量。為了測量兩個對象之間共享的資訊內容,Bennett 等研究人員在 1998 年發表的論文《Information distance》中將資訊距離 E (x, y) 定義為將 x 轉化成 y 的最短二進製程序的長度。
大歐派蘿莉
@Penut85420
Thu, Jul 20, 2023 12:13 AM
最強的演算法往往就在我們身邊,但我實測這個做法,感覺計算量是個問題,針對每個 Query 都要跟 Key 計算一次 Compression,如果 Training Data 很大就要算很久
載入新的回覆
這篇文章主要是針對文字分類任務的。文中表示文字分類作為自然語言處理(NLP)中最基礎的任務之一,在神經網路的幫助下取得了顯著的改進。然而,大多數神經網路對資料的需求很高,這種需求隨著模型參數數量的增加而增加。
文中表示,採用這種方法在沒有任何訓練參數的情況下,他們在七個分佈內資料集和五個分佈外資料集上的實驗表明,使用像 gzip 這樣的簡單壓縮器,他們在七個資料集中的結果有六個與 DNNs 結果相媲美,並在五個分佈外資料集上勝過包括 BERT 在內的所有方法。即使在少樣本情況下,本文方法也大幅超越了所有模型。