THEO
unsloth釋出了Llama-4模型了,好想微調它...
掰噗~
你怎麼會這樣想!? (p-unsure)
THEO
這個月運算單元還剩400多,
THEO
應該夠用吧...
THEO
code要寫得客家一點,用完就釋放記憶體、切斷VM
THEO
Llama 4 Scout 模型的推論成本遠低於同等能力的密集模型:

Llama 4 Scout (17B Active): 雖然總參數高達 1090 億,但在推論時,每個詞元 (token) 只會啟動大約 170 億的參數進行實際計算。

Llama 3.3 70B (密集模型): 每個詞元必須啟動全部 700 億參數進行計算。
THEO
雖然沒有精確的數據能說明「快多少倍」,但基於 MoE 的低活躍參數和 4-bit 量化帶來的高記憶體效率,可以預期:

在相同的硬體上,Llama 4 Scout 的推論速度會是 Llama 3.3 70B 的 2 到 4 倍或更高。

對於 API 服務提供商或雲端服務而言,MoE 架構可以大幅降低每次推論的運算成本(FLOPs),這是其主要設計目標。
THEO
看來必須玩玩了。現在翻譯一句話要1~3秒,還不夠快
THEO
不行...unsloth函式庫好像沒更到最新,patch不過去,暫時放棄
載入新的回覆