p/pia281

@gslin

Tue, Jan 9, 2024 9:50 AM

Mixtral 8x7B 的論文出來了

在 Hacker News 上看到 Mixtral-8x7B-v0.1 以及 Mixtral-8x7B-Instruct-v0.1 的論文出來了：「Mixtral 8x7B: A sparse Mixture of Experts language model (https://arxiv.org)」，arXiv 上的連結：「Mixtral of Experts」。

跟先前大家從公開資料研究的差不多，這個研究成果主要不是降低參數的大小，而是降低運算的量：

As

Mixtral 8x7B 的論文出來了

Gea-Suan Lin (@gslin@abpe.org)