THEO
@theolin
Tue, Nov 18, 2025 3:31 AM
unsloth釋出了Llama-4模型了,好想微調它...
掰噗~
@baipu
說
Tue, Nov 18, 2025 3:32 AM
你怎麼會這樣想!?
THEO
@theolin
Tue, Nov 18, 2025 3:33 AM
這個月運算單元還剩400多,
THEO
@theolin
Tue, Nov 18, 2025 3:33 AM
應該夠用吧...
THEO
@theolin
Tue, Nov 18, 2025 3:33 AM
code要寫得客家一點,用完就釋放記憶體、切斷VM
THEO
@theolin
Tue, Nov 18, 2025 3:37 AM
Llama 4 Scout 模型的推論成本遠低於同等能力的密集模型:
Llama 4 Scout (17B Active): 雖然總參數高達 1090 億,但在推論時,每個詞元 (token) 只會啟動大約 170 億的參數進行實際計算。
Llama 3.3 70B (密集模型): 每個詞元必須啟動全部 700 億參數進行計算。
THEO
@theolin
Tue, Nov 18, 2025 3:37 AM
雖然沒有精確的數據能說明「快多少倍」,但基於 MoE 的低活躍參數和 4-bit 量化帶來的高記憶體效率,可以預期:
在相同的硬體上,Llama 4 Scout 的推論速度會是 Llama 3.3 70B 的 2 到 4 倍或更高。
對於 API 服務提供商或雲端服務而言,MoE 架構可以大幅降低每次推論的運算成本(FLOPs),這是其主要設計目標。
THEO
@theolin
Tue, Nov 18, 2025 3:38 AM
看來必須玩玩了。現在翻譯一句話要1~3秒,還不夠快
THEO
@theolin
Tue, Nov 18, 2025 7:08 AM
不行...unsloth函式庫好像沒更到最新,patch不過去,暫時放棄
載入新的回覆
Llama 4 Scout (17B Active): 雖然總參數高達 1090 億,但在推論時,每個詞元 (token) 只會啟動大約 170 億的參數進行實際計算。
Llama 3.3 70B (密集模型): 每個詞元必須啟動全部 700 億參數進行計算。
在相同的硬體上,Llama 4 Scout 的推論速度會是 Llama 3.3 70B 的 2 到 4 倍或更高。
對於 API 服務提供商或雲端服務而言,MoE 架構可以大幅降低每次推論的運算成本(FLOPs),這是其主要設計目標。