DaveC
@davecode
Fri, Dec 27, 2024 6:24 AM
3
1
Intl Econ Observe (@IEObserve) on X
中國開源陣營的LLM DeepSeek V3 用誇張低的成本不到6百萬美金預訓練,效能追上了 Claude 3.5 Sonnet 和 GPT 4o。每百萬Token的價格可以壓到不到$0.5美金,是用1/10的價格達到OpenAI和Anthropic 同級的水準
以追擊速度來看,晶片限制目前效果有限,中國團隊用不同的思路卷到大模型 ,看看便宜是不是王道
𝒯𝓎𝓅𝑒-𝓔𝓲𝓰𝓱𝓽
@f787f
Fri, Dec 27, 2024 6:41 AM
蠻厲害的XD
La Isla Bonita
@ykhuang
Fri, Dec 27, 2024 7:19 AM
先行者都還沒賺到錢就被中國人卷死,難怪沒人要跟他們玩
🦄麒麟改二提督⚓喬揚
@canaancanaan
Fri, Dec 27, 2024 8:33 AM
那個模型算出來的資料確定沒有毒?
𝒯𝓎𝓅𝑒-𝓔𝓲𝓰𝓱𝓽
@f787f
Fri, Dec 27, 2024 8:34 AM
至少符合中國法規
DaveC
@davecode
Fri, Dec 27, 2024 8:56 PM
轉
當你詢問中國最新最強的大型語言模型 deepseek "你是甚麼語言模型",8 次的生成結果裡,有 5 次它會回答自己是 GPT-4 ,另外 3 次會回答自己是 DeepSeekV3 ,Codegen 的創辦人認為,這就是它為什麼成本下降的主要原因,它可能是基於前沿模型的輸出進行訓練 的。
DaveC
@davecode
Sat, Dec 28, 2024 4:53 AM
載入新的回覆
中國開源陣營的LLM DeepSeek V3 用誇張低的成本不到6百萬美金預訓練,效能追上了 Claude 3.5 Sonnet 和 GPT 4o。每百萬Token的價格可以壓到不到$0.5美金,是用1/10的價格達到OpenAI和Anthropic 同級的水準
以追擊速度來看,晶片限制目前效果有限,中國團隊用不同的思路卷到大模型 ,看看便宜是不是王道
那個模型算出來的資料確定沒有毒?至少符合中國法規當你詢問中國最新最強的大型語言模型 deepseek "你是甚麼語言模型",8 次的生成結果裡,有 5 次它會回答自己是 GPT-4 ,另外 3 次會回答自己是 DeepSeekV3 ,Codegen 的創辦人認為,這就是它為什麼成本下降的主要原因,它可能是基於前沿模型的輸出進行訓練 的。