噗趴
@BOOPA
Sun, May 18, 2025 6:38 AM
Sun, May 18, 2025 6:40 AM
1
[本地羊駝LLM] 踏上了重新發明輪子的旅程
到處晃了一圈,一直找不到覺得好用的介面──一般都是各種不支援、厚重又慢(因為都是設計給強大桌機的啊,我是窮酸平板族)、功能一堆、找東西不方便、無法客製等等。
最後還是決定來重新發明輪子,這年頭不管GPT還是Claude都很會寫程式,那就來光速打造一個輪子啊。於是寫程式程度只有hello world的我用上班的閒暇時間叫AI建了一個
完全可以用
的本地羊駝後台引擎+目前還非常陽春的前台介面。好驚豔!
噗趴
@BOOPA
Sun, May 18, 2025 6:54 AM
Sun, May 18, 2025 6:55 AM
目前是在windows裡面裝linux (簡稱wsl),然後都是在wsl裡面寫。引擎用的是客製力偏高的llama.ccp,我的windows裝不了(至少在裝微軟的開發軟體用無敵笨重巨大軟體之前不行,之後應該可以但是需要各種貼補,我只想養羊駝不想當補洞工人),但是wsl裡面完全沒問題。
後台的結構非常簡單,基本上希望越簡單越好,這樣速度比較快。一個主要程式,管理模型的程式、渠道程式、伺服用程式就這樣。之後沒必要應該不會變動太多。
前台是普通的html和javascript(這至少很久以前有自己做過網站,就是那個每行都自己手打而且沒有css的年代,沒有像看見python一樣迷惘)。目前就是可以聊天,同一個視窗能換模型聊,而且換出來的記得之前聊過什麼,和Claude那有點被害妄想的無敵精密debugg功能。
噗趴
@BOOPA
Sun, May 18, 2025 7:21 AM
Sun, May 18, 2025 9:48 PM
做後台花最多時間在優化上面,這邊和GPT吵很久。我的平板處理器是16GB,平板來說是還可以,就是那個微軟號稱 AI 機的 Surface Pro11,殊不知一斷線 Copilot 就不能用了,而且打死也只能跑8B的模型。12B就非常非常慢,是個笑話。只能說民用電腦離本地養羊駝還是有很長的距離(況且這樣不能收訂閱費)。
GPT十分堅持我這區區16GB只能跑3B模型,連Gemma3 4B 都超不建議,會很慢!當然,慢不慢是見仁見智,如果回答的品質好的話慢一點無妨。總之之前很慢的原因主要都是因為windows裝不了,非得裝docker(密閉羊圈),後台和前台多了一層要來回的就慢很多。GPT當然也是以那樣的前提在建議。全都裝一起後可用很多。叫GPT分析結果它也哇這速度可是改善350%呢,可喜可賀!
噗趴
@BOOPA
Sun, May 18, 2025 7:25 AM
Sun, May 18, 2025 9:25 AM
之前可能已經提過了,Qwen3 8B是目前平板唯一可用的能講流利繁體中文的模型,還會注音符號更加分。4B通常簡繁分不清,叫它幹嘛會忘記,只有當英文小幫手還可以,但不如Gemma3,未來要考慮大概可能先抓這隻來當我的訓練白老鼠。總之Qwen3 8B是最低需求,我的窮酸平板必須要能跑這隻! 後台基本上是以這個目標在做的。
目前就,可以接受啦。問簡單的問題基本上都是超過每秒10 token的速度。叫它寫小說就會慢一點了。
噗趴
@BOOPA
Sun, May 18, 2025 7:37 AM
前台目標是簡單,只放我需要的功能,反正只有我要用。平板族來說速度和輕巧還是最重要的,先把所有的功能都放上去之後再來看怎麼優化。
噗趴
@BOOPA
Sun, May 18, 2025 10:33 AM
本日進度:加了一個停止生成/重新生成的按鈕,還有複製的按鈕。
發現Claude有時候卡起來也是滿鬼打牆的,而且通常解法就是用被害妄想系的砸更多Debug程式碼 (如果乖乖給它砸的話會發現有三分之一是Debug用程式碼──另外三分之一是我叫它每行幹什麼的要用人話寫給我看得懂)。這時候我會把相關問題和程式碼丟給GPT,新的4.1據說分析上面還蠻強大的,Claude今天鬼打牆的那次就是GPT4.1抓到問題解決。
載入新的回覆
到處晃了一圈,一直找不到覺得好用的介面──一般都是各種不支援、厚重又慢(因為都是設計給強大桌機的啊,我是窮酸平板族)、功能一堆、找東西不方便、無法客製等等。
最後還是決定來重新發明輪子,這年頭不管GPT還是Claude都很會寫程式,那就來光速打造一個輪子啊。於是寫程式程度只有hello world的我用上班的閒暇時間叫AI建了一個完全可以用的本地羊駝後台引擎+目前還非常陽春的前台介面。好驚豔!
後台的結構非常簡單,基本上希望越簡單越好,這樣速度比較快。一個主要程式,管理模型的程式、渠道程式、伺服用程式就這樣。之後沒必要應該不會變動太多。
前台是普通的html和javascript(這至少很久以前有自己做過網站,就是那個每行都自己手打而且沒有css的年代,沒有像看見python一樣迷惘)。目前就是可以聊天,同一個視窗能換模型聊,而且換出來的記得之前聊過什麼,和Claude那有點被害妄想的無敵精密debugg功能。
GPT十分堅持我這區區16GB只能跑3B模型,連Gemma3 4B 都超不建議,會很慢!當然,慢不慢是見仁見智,如果回答的品質好的話慢一點無妨。總之之前很慢的原因主要都是因為windows裝不了,非得裝docker(密閉羊圈),後台和前台多了一層要來回的就慢很多。GPT當然也是以那樣的前提在建議。全都裝一起後可用很多。叫GPT分析結果它也哇這速度可是改善350%呢,可喜可賀!
目前就,可以接受啦。問簡單的問題基本上都是超過每秒10 token的速度。叫它寫小說就會慢一點了。
發現Claude有時候卡起來也是滿鬼打牆的,而且通常解法就是用被害妄想系的砸更多Debug程式碼 (如果乖乖給它砸的話會發現有三分之一是Debug用程式碼──另外三分之一是我叫它每行幹什麼的要用人話寫給我看得懂)。這時候我會把相關問題和程式碼丟給GPT,新的4.1據說分析上面還蠻強大的,Claude今天鬼打牆的那次就是GPT4.1抓到問題解決。