p/3hz787lpap

THEO

@theolin

Tue, Nov 18, 2025 3:31 AM

unsloth釋出了Llama-4模型了，好想微調它...

掰噗~

@baipu

說

Tue, Nov 18, 2025 3:32 AM

你怎麼會這樣想!?

THEO

@theolin

Tue, Nov 18, 2025 3:33 AM

這個月運算單元還剩400多，

THEO

@theolin

Tue, Nov 18, 2025 3:33 AM

應該夠用吧...

THEO

@theolin

Tue, Nov 18, 2025 3:33 AM

code要寫得客家一點，用完就釋放記憶體、切斷VM

THEO

@theolin

Tue, Nov 18, 2025 3:37 AM

Llama 4 Scout 模型的推論成本遠低於同等能力的密集模型：

Llama 4 Scout (17B Active): 雖然總參數高達 1090 億，但在推論時，每個詞元 (token) 只會啟動大約 170 億的參數進行實際計算。

Llama 3.3 70B (密集模型): 每個詞元必須啟動全部 700 億參數進行計算。

THEO

@theolin

Tue, Nov 18, 2025 3:37 AM

雖然沒有精確的數據能說明「快多少倍」，但基於 MoE 的低活躍參數和 4-bit 量化帶來的高記憶體效率，可以預期：

在相同的硬體上，Llama 4 Scout 的推論速度會是 Llama 3.3 70B 的 2 到 4 倍或更高。

對於 API 服務提供商或雲端服務而言，MoE 架構可以大幅降低每次推論的運算成本（FLOPs），這是其主要設計目標。

THEO

@theolin

Tue, Nov 18, 2025 3:38 AM

看來必須玩玩了。現在翻譯一句話要1～3秒，還不夠快

THEO

@theolin

Tue, Nov 18, 2025 7:08 AM

不行...unsloth函式庫好像沒更到最新，patch不過去，暫時放棄