本文章生命週期剩餘 222 天,結束後可能出現圖片丟失及檔案連結錯誤。
1. 記憶體容量爆炸
一開始也只是想要弄個自己的雲端空間,結果越玩越上癮,導致我現在的 DDR4 24G 記憶體已經不夠用了,所以忍不住趁特價,跑去原價屋買了 2 條 DDR4 16G 記憶體,花了 1,300 元左右,真心便宜。還記得上次買記憶體是 16G999 元,那時候這個價格已經讓 PTT 瘋狂了,沒想到現在更便宜!幸好在宣佈減產之前先購入,運氣!裝了之後現在常駐使用的記憶體大概 2xG,想說不要浪費,乾脆來測試一下能跑多大的模型。
2. 詢問chatGPT
以下是根據你目前 伺服器有 20GB 記憶體,針對幾種常見 Deepseek-R1 模型,估算出可同時處理使用者人數的表格(假設使用者上下文平均 0.5GB,Ollama 沒有做太強限流,僅排隊處理):
| 模型版本 | 模型大小 | 可容納同時使用人數(估) | 備註 |
|---|---|---|---|
7b-qwen-distill-q4_K_M |
~4.7GB | 約 30 人 | 最省記憶體,建議首選 |
7b-qwen-distill-q8_0 |
~8.1GB | 約 20 人 | 精度較高,略多消耗 |
8b-llama-distill-q4_K_M |
~4.9GB | 約 29 人 | 類似 7b-q4_K_M,記憶體接近 |
8b-llama-distill-q8_0 |
~8.5GB | 約 19 人 | 高精度 llama 分支 |
14b-qwen-distill-q4_K_M |
~9.0GB | 約 18 人 | 精度低但模型大 |
14b-qwen-distill-q8_0 |
~16GB | 約 6 人 | 太吃記憶體,不建議上 20G 機器 |
32b-qwen-distill-q4_K_M |
~20GB | ~1 人(上下文不足) | 幾乎沒空間放上下文 |
32b-qwen-distill-q8_0 |
~35GB | ❌ 無法執行 | 超出記憶體限制 |
2.1. 📌 假設條件說明
- 每個使用者推論時使用約 0.5GB 上下文暫存(視 context 長度、token 數而定)。
- 模型記憶體佔用固定(啟動後即常駐)。
- 忽略作業系統與背景程式的基本耗用(實際建議預留 1\~2GB)。
2.2. 實用建議
| 目標 | 建議選擇 |
|---|---|
| 追求穩定、大量同時人數 | 7b-qwen-distill-q4_K_M 最適合 |
| 少量使用者、高品質輸出 | 7b-qwen-distill-q8_0 折衷選擇 |
| 想嘗試更強模型 | 升級記憶體至 32G 或以上,使用 14b 起跳 |
3. 採用模型
因為這次打算用在 blinko 上,blinko是一款開源的 AI 驅動的輕量級筆記應用程式。它的主要設計理念是幫助使用者快速捕捉和整理瞬間的想法,確保每一個創意靈感都不會錯過。Blinko 強調使用者對數據的完全控制權,因此它是一個自託管 (self-hosted) 的解決方案,這意味著你的所有筆記和數據都安全地儲存在你自己的環境中。
詳細介紹
Blinko 的主要特色
- **AI 增強的筆記檢索:** Blinko 整合了先進的 AI 驅動的 RAG (Retrieval Augmented Generation) 技術,讓你可以使用自然語言查詢來快速搜索和存取你的筆記,輕鬆找到所需內容。它支援多種 AI 服務供應商,例如 OpenAI、Azure OpenAI、DeepSeek 和 Ollama 等。
- **數據所有權和隱私:** 你的所有筆記和數據都儲存在你自託管的環境中,確保你對資訊擁有完全控制權,無需擔心隱私問題。
- **高效與快速:** Blinko 允許你即時捕捉想法,並以純文字形式儲存。它完全支援 Markdown 格式,方便快速排版和無縫分享。
- **輕量級架構與多平台支援:** Blinko 基於 Next.js (或 Tauri 構建,根據不同資料有稍微差異) 構建,提供流暢、輕量的架構,同時不犧牲速度或效率。它支援多種平台,包括 macOS、Windows、Android 和 Linux。
- **開放協作與免費:** 作為一個開源專案,Blinko 歡迎社區貢獻,所有程式碼都透明並可在 GitHub 上獲取。最重要的是,Blinko 是**完全免費**的,沒有隱藏費用或付費牆後的高級功能。
Blinko 的核心功能
- **「閃念」 (Flashes):** 專為記錄靈光一閃而設計,使用者可以即時記下即興想法,無需擔心格式或複雜操作。這些記錄可以設定為每隔一段時間自動清除,以保持該部分的整潔和高效。
- **「筆記」 (Notes):** 提供了更有條理的管理系統,使用者可以使用標籤對筆記進行分類,並利用批量操作輕鬆地組織和分類大量筆記。
如果在這個筆記軟體上使用類似 DeepSeek 這種會思考的模型,就會不斷出現思考過程的文檔,偏偏這個 AI 操作所留下的文字放在評論上是無法刪除的,所以就會不斷的出現出現一堆無用的文章讓整體雜亂。而且主要這個 7b-qwen-distill-q4_K_M 模型產出的多以簡體中文回應,看起來實在不太習慣,最後還是用台灣人做的模型 cwchang/llama-3-taiwan-8b-instruct:latest 來設定,一開始我是使用 3b,但發現成效真的不佳,改成 8b 之後產出的回應正確許多,當然速度就從原本的 30S 變成 2 分鐘以上,如果問題比較長的話甚至需要 5 分鐘,我是沒試過顯卡來跑,但這個速度個人用也還算可以接受

4. 實際使用情況
8b 模型容量約 8.5G。載完之後常駐使用的記憶體是 25G,也難怪跑到當機,48G 的記憶體還是不夠,常時使用就已經用了 2xG 了,再加上 25G 會爆容量,非常尷尬,還是再往下一階試試?

經測試原來是 blinko 用到之前的模型,變成同時跑兩個模型記憶體才會吃到 25G,如果統一模型的話記憶體就變成 18G~20G(1 人) 左右,所以按照我的硬體規格,加上 1x 個 Docker、GUI 的桌面系統及文書使用,基本上 8b 的模型就到頭了,再往上就會撞到記憶體牆,導致速度變非常慢甚至當機
硬體規格
1. AMD5600G
2. DDR4 48G 記憶體
3. 內顯
4. 128G SATA SSD