Gea-Suan Lin
Mixtral 8x7B 的論文出來了

在 Hacker News 上看到 Mixtral-8x7B-v0.1 以及 Mixtral-8x7B-Instruct-v0.1 的論文出來了:「Mixtral 8x7B: A sparse Mixture of Experts language model (https://arxiv.org)」,arXiv 上的連結:「Mixtral of Experts」。

跟先前大家從公開資料研究的差不多,這個研究成果主要不是降低參數的大小,而是降低運算的量:

As

Mixtral 8x7B 的論文出來了

Gea-Suan Lin (@gslin@abpe.org)
載入新的回覆