DaveC
@davecode
Sun, Dec 29, 2024 2:46 AM
4
1
Intl Econ Observe (@IEObserve) on X
DeepSeek是蠻值得研究的,因為他是領先的前沿模型中,唯一一個沒有龐大科技巨頭資源的公司,在開源陣營效能也打敗Meta的Llama,背後是一家量化私募基金叫做幻方,看到中國有媒體訪問創辦人梁文鋒,蠻有趣的,和中國很多公司的基因和目標不太一樣,而且他們做API價格屠夫竟然已經有賺錢?
DaveC
@davecode
Sun, Dec 29, 2024 2:46 AM
+
@davecode - 中國開源陣營的LLM DeepSeek V3 用誇張低的成本不到6百萬美金預訓練...
DaveC
@davecode
Sun, Dec 29, 2024 2:47 AM
一場意外的價格戰
今年5月,DeepSeek發布了一款名為DeepSeek V2的開源模型,以驚人的性價比震驚業界:推理成本僅為每百萬token 1元,約是GPT-4 Turbo的七十分之一。這個定價迅速引發行業連鎖反應,字節、騰訊、百度、阿里等大廠相繼跟進降價。
DaveC
@davecode
Sun, Dec 29, 2024 2:47 AM
「我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。」DeepSeek創辦人梁文鋒表示,「沒想到價格讓大家這麼敏感。我們只是按照自己的步調來做事,然後核算成本定價。我們的原則是不賠錢,也不賺取暴利。」
DaveC
@davecode
Sun, Dec 29, 2024 2:48 AM
從MLA到深層創新
DeepSeek對模型架構進行了全方位創新,提出了嶄新的MLA架構(一種新的多頭潛在注意力機制),將顯存佔用降到過去最常用的MHA架構的5%-13%。這種創新讓他們在矽谷引起轟動,被SemiAnalysis首席分析師評價為「可能是今年最好的一篇論文」。
DaveC
@davecode
Sun, Dec 29, 2024 2:48 AM
這項創新的誕生過程展現了DeepSeek獨特的研發文化。最初的想法來自一位年輕研究員的個人興趣,「在總結出Attention架構的一些主流變遷規律後,他突發奇想去設計一個替代方案。」梁文鋒回憶道,「不過從想法到落地,中間是一個漫長的過程。我們為此組了一個team,花了幾個月時間才跑通。」
DaveC
@davecode
Sun, Dec 29, 2024 2:48 AM
但這條創新之路並非坦途。「短期內沒有融資計劃,」梁文鋒表示,「我們面臨的問題從來不是錢,而是
高端晶片被禁運
。」這反映了當前中國AI企業面臨的共同挑戰。
JokerCatz
@jokercatz
Sun, Dec 29, 2024 3:17 AM
我只在意它是中國模型 ... 還沒玩,問它敏感問題應該很有趣
DaveC
@davecode
Sun, Dec 29, 2024 9:32 AM
中國出品一定會有鬼東西
@davelin - 弄出什麼鬼東西, 世上有一個中國已經很糟糕了, 弄出一個像中國的AIGC ,簡直是...
載入新的回覆
DeepSeek是蠻值得研究的,因為他是領先的前沿模型中,唯一一個沒有龐大科技巨頭資源的公司,在開源陣營效能也打敗Meta的Llama,背後是一家量化私募基金叫做幻方,看到中國有媒體訪問創辦人梁文鋒,蠻有趣的,和中國很多公司的基因和目標不太一樣,而且他們做API價格屠夫竟然已經有賺錢?
今年5月,DeepSeek發布了一款名為DeepSeek V2的開源模型,以驚人的性價比震驚業界:推理成本僅為每百萬token 1元,約是GPT-4 Turbo的七十分之一。這個定價迅速引發行業連鎖反應,字節、騰訊、百度、阿里等大廠相繼跟進降價。
DeepSeek對模型架構進行了全方位創新,提出了嶄新的MLA架構(一種新的多頭潛在注意力機制),將顯存佔用降到過去最常用的MHA架構的5%-13%。這種創新讓他們在矽谷引起轟動,被SemiAnalysis首席分析師評價為「可能是今年最好的一篇論文」。