Gea-Suan Lin
@gslin
Tue, Jan 9, 2024 9:50 AM
5
2
Mixtral 8x7B 的論文出來了
在 Hacker News 上看到 Mixtral-8x7B-v0.1 以及 Mixtral-8x7B-Instruct-v0.1 的論文出來了:「Mixtral 8x7B: A sparse Mixture of Experts language model (
https://arxiv.org
)」,arXiv 上的連結:「Mixtral of Experts」。
跟先前大家從公開資料研究的差不多,這個研究成果主要不是降低參數的大小,而是降低運算的量:
As
Mixtral 8x7B 的論文出來了
Gea-Suan Lin (@gslin@abpe.org)
載入新的回覆
在 Hacker News 上看到 Mixtral-8x7B-v0.1 以及 Mixtral-8x7B-Instruct-v0.1 的論文出來了:「Mixtral 8x7B: A sparse Mixture of Experts language model (https://arxiv.org)」,arXiv 上的連結:「Mixtral of Experts」。
跟先前大家從公開資料研究的差不多,這個研究成果主要不是降低參數的大小,而是降低運算的量:
As
Mixtral 8x7B 的論文出來了
Gea-Suan Lin (@gslin@abpe.org)