p/3h992jwk8d

@BOOPA

Sun, May 18, 2025 6:38 AM

Sun, May 18, 2025 6:40 AM

1

[本地羊駝LLM] 踏上了重新發明輪子的旅程

到處晃了一圈，一直找不到覺得好用的介面──一般都是各種不支援、厚重又慢(因為都是設計給強大桌機的啊，我是窮酸平板族)、功能一堆、找東西不方便、無法客製等等。

最後還是決定來重新發明輪子，這年頭不管GPT還是Claude都很會寫程式，那就來光速打造一個輪子啊。於是寫程式程度只有hello world的我用上班的閒暇時間叫AI建了一個完全可以用的本地羊駝後台引擎+目前還非常陽春的前台介面。好驚豔！

噗趴

@BOOPA

Sun, May 18, 2025 6:54 AM

Sun, May 18, 2025 6:55 AM

目前是在windows裡面裝linux (簡稱wsl)，然後都是在wsl裡面寫。引擎用的是客製力偏高的llama.ccp，我的windows裝不了(至少在裝微軟的開發軟體用無敵笨重巨大軟體之前不行，之後應該可以但是需要各種貼補，我只想養羊駝不想當補洞工人)，但是wsl裡面完全沒問題。

後台的結構非常簡單，基本上希望越簡單越好，這樣速度比較快。一個主要程式，管理模型的程式、渠道程式、伺服用程式就這樣。之後沒必要應該不會變動太多。

前台是普通的html和javascript(這至少很久以前有自己做過網站，就是那個每行都自己手打而且沒有css的年代，沒有像看見python一樣迷惘)。目前就是可以聊天，同一個視窗能換模型聊，而且換出來的記得之前聊過什麼，和Claude那有點被害妄想的無敵精密debugg功能。

噗趴

@BOOPA

Sun, May 18, 2025 7:21 AM

Sun, May 18, 2025 9:48 PM

做後台花最多時間在優化上面，這邊和GPT吵很久。我的平板處理器是16GB，平板來說是還可以，就是那個微軟號稱 AI 機的 Surface Pro11，殊不知一斷線 Copilot 就不能用了，而且打死也只能跑8B的模型。12B就非常非常慢，是個笑話。只能說民用電腦離本地養羊駝還是有很長的距離(況且這樣不能收訂閱費)。

GPT十分堅持我這區區16GB只能跑3B模型，連Gemma3 4B 都超不建議，會很慢！當然，慢不慢是見仁見智，如果回答的品質好的話慢一點無妨。總之之前很慢的原因主要都是因為windows裝不了，非得裝docker(密閉羊圈)，後台和前台多了一層要來回的就慢很多。GPT當然也是以那樣的前提在建議。全都裝一起後可用很多。叫GPT分析結果它也哇這速度可是改善350%呢，可喜可賀！

噗趴

@BOOPA

Sun, May 18, 2025 7:25 AM

Sun, May 18, 2025 9:25 AM

之前可能已經提過了，Qwen3 8B是目前平板唯一可用的能講流利繁體中文的模型，還會注音符號更加分。4B通常簡繁分不清，叫它幹嘛會忘記，只有當英文小幫手還可以，但不如Gemma3，未來要考慮大概可能先抓這隻來當我的訓練白老鼠。總之Qwen3 8B是最低需求，我的窮酸平板必須要能跑這隻！後台基本上是以這個目標在做的。

目前就，可以接受啦。問簡單的問題基本上都是超過每秒10 token的速度。叫它寫小說就會慢一點了。

噗趴

@BOOPA

Sun, May 18, 2025 7:37 AM

前台目標是簡單，只放我需要的功能，反正只有我要用。平板族來說速度和輕巧還是最重要的，先把所有的功能都放上去之後再來看怎麼優化。

噗趴

@BOOPA

Sun, May 18, 2025 10:33 AM

本日進度：加了一個停止生成/重新生成的按鈕，還有複製的按鈕。

發現Claude有時候卡起來也是滿鬼打牆的，而且通常解法就是用被害妄想系的砸更多Debug程式碼 (如果乖乖給它砸的話會發現有三分之一是Debug用程式碼──另外三分之一是我叫它每行幹什麼的要用人話寫給我看得懂)。這時候我會把相關問題和程式碼丟給GPT，新的4.1據說分析上面還蠻強大的，Claude今天鬼打牆的那次就是GPT4.1抓到問題解決。