永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 8:08 AM
Sat, Feb 1, 2025 12:25 PM
16
3
DeepSeek
這圖還滿妙的 : P
我測試自己桌機,CPU+GPU或都給GPU跑皆可。
在自己電腦上跑的好處,可自由切換不同版本LLM模型來測。
我目前覺得LLAMA 3.X、Mistral、Qwen都相當好用,DeepSeek則較侷限在某些範圍有不錯效果,當然可能因我在本機跑蒸餾版本8B的緣故,因此市場上目前熱門的阿里巴巴的千問,拉回來跑會覺得更有意思。
至於微軟的小模型PHI-4,許多任務效果不錯。當然不要忘了還有Google的Gemma小模型,反正以上主要下7B、8B、14B等小版本來跑即可。
Hey Man BOT
@hmystgot
Sat, Feb 1, 2025 8:08 AM
掰噗~
@baipu
正在
Sat, Feb 1, 2025 8:09 AM
(筆記筆記)
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 8:09 AM
Sat, Feb 1, 2025 8:09 AM
@ivanusto - 各種技術一定要多看看呀 不論說qwen or DeepSeek 我朋友在軟體圈的...
DeepSeek R1 測試感想 – 優格網 – 永遠的真田幸村
機器狼🔜茶會首次出毛!
@KMN_BOT
說
Sat, Feb 1, 2025 8:09 AM
每次逛市場都覺得好像走進了小小的冒險,什麼都想看一看汪 (^ω^)
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 8:10 AM
How to install DeepSeek on a Raspberry Pi
拿更小的版本丟去樹梅派
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 8:10 AM
研究機構:DeepSeek硬體GPU支出逾160億台幣 | 科技 | 中央社 CNA
如預期
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 8:12 AM
Sat, Feb 1, 2025 8:59 AM
微軟 Phi 開放式模型
功能強大的小型語言模型 SLM 系列,成本低且低延遲。
有空也可以去試試看PHI-4,除了本地端電腦可以跑外,在HF平台上也可以測。
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 8:59 AM
微軟以MIT授權在Hugging Face開源140億參數Phi-4模型
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 9:08 AM
DeepSeek R1 目前一共有下列幾個版本的開源釋出:
1.5b 7b 8b 14b 32b 70b 671b
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 9:09 AM
對一般人來說,用到7b、8b、14b 已經算極限了,更大的32b、70b,你需要記憶體夠大的伺服器和Vram夠大的Nvidia顯示卡。
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 9:10 AM
671b參數的最大版本,大概只能在雲端跑,一般人或中小公司沒有這種能跑這等級規模AI的設備,當初我們有評估要買,一台也是上百萬起跳。
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 9:12 AM
被各國陸續抵制禁用的是雲端版本,那個有他們官方的任務先不管,該平台版本應該是比671b參數版本更龐大的內容,這個他們應該不會特別講太多,算商業秘密了。可以用的就是放在Github、HF、Ollama上的這些公開模型,蒸餾後的中小型版本,就已經滿夠用了。
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 9:13 AM
我在這篇有提到小型版本的模型,拿來給手機、工業電腦裝置去跑會有市場,中國、印度等國應該都會走這條應用路線,超大的平台則是看大家進度囉。
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 9:26 AM
而微軟phi-4的效果真的很優秀,推薦使用,只要你的顯示卡VRAM夠多如16GB,拿它來跑很多事情會很有幫助,推論速度滿快的。14b參數的版本能力也夠用。
chuanXD
@cyuanXD
Sat, Feb 1, 2025 9:42 AM
我很喜歡在工作上使用 phi-4 14b 推論正確率很高,我大概只給他 vram 8~10 GB
Chikei
@ChikeiLee
Sat, Feb 1, 2025 10:12 AM
671b應該就是他們平台用的,你拿個更大的蒸餾出671b這種大小特別開放出來沒意義,70b這大小是有意義的:兩張80gb卡可以跑
Chikei
@ChikeiLee
Sat, Feb 1, 2025 10:13 AM
商業祕密應該是以前置處理跟finetune的形式執行
Chikei
@ChikeiLee
Sat, Feb 1, 2025 10:14 AM
但是他們最大的祕密是推論成本,他們一直宣稱推論API那種別人1/10的價位對他們是賺錢的
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 10:20 AM
chuanXD
: phi-4 14b 真的不錯
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 12:17 PM
Chikei
: 然後如果是寫小說的話,DeepSeek和Qwen的腦洞大開表現就比Phi-4好,大概是他們拿了很多中國市場網小當資料集吧。
永遠的真田幸村
@ivanusto
Sat, Feb 1, 2025 1:48 PM
@ivanusto - #AI #網路小說 #能力測試 我們簡單選了四個選手做對照,參考看看一樣的主題,...
除了生圖或寫文,如果要用AI 輔助程式開發好了,推薦可以先用本地端的微軟Phi-4 與Deepseek 先產出可用的雛型版本,然後修改去 Claude.AI 上修正,或 call Anthropic api 來改出 production 版本來。
La Isla Bonita
@ykhuang
Sun, Feb 2, 2025 9:16 AM
llama-vision我覺得就蠻好用了
永遠的真田幸村
@ivanusto
Sun, Feb 2, 2025 9:24 AM
La Isla Bonita
: 我有用過11b版本
你選的是?
永遠的真田幸村
@ivanusto
Sun, Feb 2, 2025 9:25 AM
不過以平日工作來說phi-4蠻讓人滿意的
畢竟在本機跑這樣的規模已經很不錯
La Isla Bonita
@ykhuang
Sun, Feb 2, 2025 1:29 PM
永遠的真田幸村
: 應該是11b吧? 90b 好像跑不動,我是3090
永遠的真田幸村
@ivanusto
Sun, Feb 2, 2025 1:30 PM
對 我們普通設備 70、90這些都不太能用
永遠的真田幸村
@ivanusto
Sun, Feb 2, 2025 1:31 PM
La Isla Bonita
: phi-4 14b 也可以跑看看
La Isla Bonita
@ykhuang
Sun, Feb 2, 2025 1:32 PM
等過陣子手邊比較不忙再多裝幾個來比較看看
永遠的真田幸村
@ivanusto
Sun, Feb 2, 2025 1:33 PM
我還推薦一個叫做opencoder 好像7b還是8b的樣子
La Isla Bonita
@ykhuang
Mon, Feb 3, 2025 2:54 AM
之前裝了 codegemma 想說來配合寫程式,但測試下來 llama-vision 回答的結果還比較有用。不知道是不是問法錯誤,總之還會再找更適合寫程式的模型。
永遠的真田幸村
@ivanusto
Mon, Feb 3, 2025 2:58 AM
La Isla Bonita
: 對,所以需要多測試看看
先給你這個有空可以再下
OpenCoder: Top-Tier Open Code Large Language Models
載入新的回覆
我測試自己桌機,CPU+GPU或都給GPU跑皆可。
在自己電腦上跑的好處,可自由切換不同版本LLM模型來測。
我目前覺得LLAMA 3.X、Mistral、Qwen都相當好用,DeepSeek則較侷限在某些範圍有不錯效果,當然可能因我在本機跑蒸餾版本8B的緣故,因此市場上目前熱門的阿里巴巴的千問,拉回來跑會覺得更有意思。
至於微軟的小模型PHI-4,許多任務效果不錯。當然不要忘了還有Google的Gemma小模型,反正以上主要下7B、8B、14B等小版本來跑即可。
有空也可以去試試看PHI-4,除了本地端電腦可以跑外,在HF平台上也可以測。
1.5b 7b 8b 14b 32b 70b 671b
你選的是?
畢竟在本機跑這樣的規模已經很不錯
先給你這個有空可以再下