ollama模型使用記錄

本文章生命週期剩餘 222 天，結束後可能出現圖片丟失及檔案連結錯誤。

項目導航

1. 記憶體容量爆炸

一開始也只是想要弄個自己的雲端空間，結果越玩越上癮，導致我現在的 DDR4 24G 記憶體已經不夠用了，所以忍不住趁特價，跑去原價屋買了 2 條 DDR4 16G 記憶體，花了 1,300 元左右，真心便宜。還記得上次買記憶體是 16G999 元，那時候這個價格已經讓 PTT 瘋狂了，沒想到現在更便宜！幸好在宣佈減產之前先購入，運氣！裝了之後現在常駐使用的記憶體大概 2xG，想說不要浪費，乾脆來測試一下能跑多大的模型。

2. 詢問chatGPT

以下是根據你目前 伺服器有 20GB 記憶體，針對幾種常見 Deepseek-R1 模型，估算出可同時處理使用者人數的表格（假設使用者上下文平均 0.5GB，Ollama 沒有做太強限流，僅排隊處理）：

模型版本	模型大小	可容納同時使用人數（估）	備註
`7b-qwen-distill-q4_K_M`	~4.7GB	約 30 人	最省記憶體，建議首選
`7b-qwen-distill-q8_0`	~8.1GB	約 20 人	精度較高，略多消耗
`8b-llama-distill-q4_K_M`	~4.9GB	約 29 人	類似 7b-q4_K_M，記憶體接近
`8b-llama-distill-q8_0`	~8.5GB	約 19 人	高精度 llama 分支
`14b-qwen-distill-q4_K_M`	~9.0GB	約 18 人	精度低但模型大
`14b-qwen-distill-q8_0`	~16GB	約 6 人	太吃記憶體，不建議上 20G 機器
`32b-qwen-distill-q4_K_M`	~20GB	~1 人（上下文不足）	幾乎沒空間放上下文
`32b-qwen-distill-q8_0`	~35GB	❌ 無法執行	超出記憶體限制

2.1. 📌 假設條件說明

每個使用者推論時使用約 0.5GB 上下文暫存（視 context 長度、token 數而定）。
模型記憶體佔用固定（啟動後即常駐）。
忽略作業系統與背景程式的基本耗用（實際建議預留 1\~2GB）。

2.2. 實用建議

目標	建議選擇
追求穩定、大量同時人數	`7b-qwen-distill-q4_K_M` 最適合
少量使用者、高品質輸出	`7b-qwen-distill-q8_0` 折衷選擇
想嘗試更強模型	升級記憶體至 32G 或以上，使用 14b 起跳

3. 採用模型

因為這次打算用在 blinko 上，blinko是一款開源的 AI 驅動的輕量級筆記應用程式。它的主要設計理念是幫助使用者快速捕捉和整理瞬間的想法，確保每一個創意靈感都不會錯過。Blinko 強調使用者對數據的完全控制權，因此它是一個自託管 (self-hosted) 的解決方案，這意味著你的所有筆記和數據都安全地儲存在你自己的環境中。

詳細介紹

Blinko 的主要特色

- **AI 增強的筆記檢索：** Blinko 整合了先進的 AI 驅動的 RAG (Retrieval Augmented Generation) 技術，讓你可以使用自然語言查詢來快速搜索和存取你的筆記，輕鬆找到所需內容。它支援多種 AI 服務供應商，例如 OpenAI、Azure OpenAI、DeepSeek 和 Ollama 等。
- **數據所有權和隱私：** 你的所有筆記和數據都儲存在你自託管的環境中，確保你對資訊擁有完全控制權，無需擔心隱私問題。
- **高效與快速：** Blinko 允許你即時捕捉想法，並以純文字形式儲存。它完全支援 Markdown 格式，方便快速排版和無縫分享。
- **輕量級架構與多平台支援：** Blinko 基於 Next.js (或 Tauri 構建，根據不同資料有稍微差異) 構建，提供流暢、輕量的架構，同時不犧牲速度或效率。它支援多種平台，包括 macOS、Windows、Android 和 Linux。
- **開放協作與免費：** 作為一個開源專案，Blinko 歡迎社區貢獻，所有程式碼都透明並可在 GitHub 上獲取。最重要的是，Blinko 是**完全免費**的，沒有隱藏費用或付費牆後的高級功能。

Blinko 的核心功能

- **「閃念」 (Flashes)：** 專為記錄靈光一閃而設計，使用者可以即時記下即興想法，無需擔心格式或複雜操作。這些記錄可以設定為每隔一段時間自動清除，以保持該部分的整潔和高效。
- **「筆記」 (Notes)：** 提供了更有條理的管理系統，使用者可以使用標籤對筆記進行分類，並利用批量操作輕鬆地組織和分類大量筆記。

如果在這個筆記軟體上使用類似 DeepSeek 這種會思考的模型，就會不斷出現思考過程的文檔，偏偏這個 AI 操作所留下的文字放在評論上是無法刪除的，所以就會不斷的出現出現一堆無用的文章讓整體雜亂。而且主要這個 7b-qwen-distill-q4_K_M 模型產出的多以簡體中文回應，看起來實在不太習慣，最後還是用台灣人做的模型 cwchang/llama-3-taiwan-8b-instruct:latest 來設定，一開始我是使用 3b，但發現成效真的不佳，改成 8b 之後產出的回應正確許多，當然速度就從原本的 30S 變成 2 分鐘以上，如果問題比較長的話甚至需要 5 分鐘，我是沒試過顯卡來跑，但這個速度個人用也還算可以接受

4. 實際使用情況

8b 模型容量約 8.5G。載完之後常駐使用的記憶體是 25G，也難怪跑到當機，48G 的記憶體還是不夠，常時使用就已經用了 2xG 了，再加上 25G 會爆容量，非常尷尬，還是再往下一階試試？

經測試原來是 blinko 用到之前的模型，變成同時跑兩個模型記憶體才會吃到 25G，如果統一模型的話記憶體就變成 18G~20G(1 人) 左右，所以按照我的硬體規格，加上 1x 個 Docker、GUI 的桌面系統及文書使用，基本上 8b 的模型就到頭了，再往上就會撞到記憶體牆，導致速度變非常慢甚至當機

硬體規格

1. AMD5600G
2. DDR4 48G 記憶體
3. 內顯
4. 128G SATA SSD