- DeepSeek是Open Source的勝利,整個社群都會一起進步 - Blind上搞笑帖說: How come China Chinese is better than Meta Chinese - 這個笑一笑就好,不是中國的勝利,Meta也會從DeepSeek的經驗學習 - 領先研究本來就比較難、比較耗資源,有很多的探索與浪費 - 中國本來就是抄美國的,擅長的是:當癡漢緊跟、卷到白菜價 - 我不會懷疑中國人的聰明跟勤勞,但真的強大的還是尖端科技 - 沒有美國在前面帶頭走,中國就什麼都不是 - 這不代表中國這些強項沒有價值,美國也會因此學習得利 - 只是有H100可用,誰要用H800,有錢開特斯拉,我才不要開BYD - 永遠不要忘記:有錢比沒錢好、第一比第二好
Post training 不需太多硬體,但他們用RL能穩定訓fp8蠻厲害的。真的需要大量算力的是pre training,我相信他們還是透過新加坡阿拉伯這些阿撒不魯國家屯了不少Nvidia 高階gpu才能搞好自己的pretraining。讓子彈飛一會吧,RL不是新玩意兒,既然出paper了,把一點訣說破了,美國公司兩三個月post training會有佳績的。我相信小米加步槍的游擊隊的戰術偶爾能得手,但始終不會是大部隊有坦克大砲的對手,尤其是口訣說出來了,更何況還有很多支大部隊都在急行軍。
- 成本$5.5M是v3,不是r1,跟OpenAI o1一樣等級的是r1
- $5.5M並不是全部訓練成本,架構跟數據都沒算
- 幻方很早就有一萬張卡,是中國早期卡多的公司
- v3也有用r1生成的數據訓練,這個怎麼算成本?
- DeepSeek真的厲害,也真的划算,但這本來就很正常
- 後面追趕的本來就相對容易,LLM的技術不是秘密,眾所皆知
- 算法本身會進步,算力也會變便宜,更多經驗能避免浪費
- distillation是運算成本降低的關鍵
- 在最佳化傳輸這段應該也是DeepSeek厲害的地方
- NVLink(chip-to-chip)跟Infiniband(node-to-node)的load balancing
- Blind上搞笑帖說: How come China Chinese is better than Meta Chinese
- 這個笑一笑就好,不是中國的勝利,Meta也會從DeepSeek的經驗學習
- 領先研究本來就比較難、比較耗資源,有很多的探索與浪費
- 中國本來就是抄美國的,擅長的是:當癡漢緊跟、卷到白菜價
- 我不會懷疑中國人的聰明跟勤勞,但真的強大的還是尖端科技
- 沒有美國在前面帶頭走,中國就什麼都不是
- 這不代表中國這些強項沒有價值,美國也會因此學習得利
- 只是有H100可用,誰要用H800,有錢開特斯拉,我才不要開BYD
- 永遠不要忘記:有錢比沒錢好、第一比第二好
- 當老二本來就也很好,但不需要吹牛到好像真的是老大了
- 更高的訓練效率,會解放更多的資源,做出更實用的東西
- 會不會有scaling law不行的撞牆更值得擔心
- DeepSeek這種效率提升對整體產業是好事,提高天花板
- 除了訓練,推理成本的降低,其實更關鍵
- 這才能真正帶來大量商業應用,能賺錢後反而拉抬更多算力需求
- 各大CSP業者,收入驚人,當然就會繼續大量投資
- 他們砸錢的算力大部分都在增強本身的業務,不是為訓練而訓練
- 過去有些浪費是真的,會更謹慎也是真的,需要繼續投入還是真的
Yes, DeepSeek utilizes H100 GPU as part of its computational infrastructure.
暫時都只把 AI 們的答案看成三姑六婆的意見參考