p/3gpgz54r4a

@davecode

Sun, Dec 29, 2024 2:46 AM

4

1

DeepSeek是蠻值得研究的，因為他是領先的前沿模型中，唯一一個沒有龐大科技巨頭資源的公司，在開源陣營效能也打敗Meta的Llama，背後是一家量化私募基金叫做幻方，看到中國有媒體訪問創辦人梁文鋒，蠻有趣的，和中國很多公司的基因和目標不太一樣，而且他們做API價格屠夫竟然已經有賺錢？

@davecode

Sun, Dec 29, 2024 2:46 AM

+

@davecode

Sun, Dec 29, 2024 2:47 AM

一場意外的價格戰
今年5月，DeepSeek發布了一款名為DeepSeek V2的開源模型，以驚人的性價比震驚業界：推理成本僅為每百萬token 1元，約是GPT-4 Turbo的七十分之一。這個定價迅速引發行業連鎖反應，字節、騰訊、百度、阿里等大廠相繼跟進降價。

@davecode

Sun, Dec 29, 2024 2:47 AM

「我們不是有意成為一條鯰魚，只是不小心成了一條鯰魚。」DeepSeek創辦人梁文鋒表示，「沒想到價格讓大家這麼敏感。我們只是按照自己的步調來做事，然後核算成本定價。我們的原則是不賠錢，也不賺取暴利。」

@davecode

Sun, Dec 29, 2024 2:48 AM

從MLA到深層創新
DeepSeek對模型架構進行了全方位創新，提出了嶄新的MLA架構（一種新的多頭潛在注意力機制），將顯存佔用降到過去最常用的MHA架構的5%-13%。這種創新讓他們在矽谷引起轟動，被SemiAnalysis首席分析師評價為「可能是今年最好的一篇論文」。

@davecode

Sun, Dec 29, 2024 2:48 AM

這項創新的誕生過程展現了DeepSeek獨特的研發文化。最初的想法來自一位年輕研究員的個人興趣，「在總結出Attention架構的一些主流變遷規律後，他突發奇想去設計一個替代方案。」梁文鋒回憶道，「不過從想法到落地，中間是一個漫長的過程。我們為此組了一個team，花了幾個月時間才跑通。」

@davecode

Sun, Dec 29, 2024 2:48 AM

但這條創新之路並非坦途。「短期內沒有融資計劃，」梁文鋒表示，「我們面臨的問題從來不是錢，而是高端晶片被禁運。」這反映了當前中國AI企業面臨的共同挑戰。

@jokercatz

Sun, Dec 29, 2024 3:17 AM

我只在意它是中國模型 ... 還沒玩，問它敏感問題應該很有趣

@davecode

Sun, Dec 29, 2024 9:32 AM

中國出品一定會有鬼東西