Mac Mini M4 (32GB) 部署本地 LLM 實戰:Rapid-MLX 與 Gemma 4 的完美搭配
店員問大哥「黑咖啡要怎麼做?」『冰的啦!』旁邊小弟暴走砸店...
... 次閱讀
icekimo
10:00
聽說在 Mac Mini M4 (32GB RAM) 上,用 Rapid-MLX 部署本地伺服器很方便,是真的嗎?
GEMINI
10:01
沒錯!而且目前它對 Gemma 4 的支援度非常高,是一套相當強大的本地 LLM 部署方案。
為什麼選擇 Rapid-MLX 部署 Gemma 4?
- 原生支援與優化: Rapid-MLX v0.6.61 (2026-05-19) 已針對 Google 2026 年 4 月發布的 Gemma 4 系列(包含 E2B, E4B, 26B MoE, 31B Dense 規格)進行了深度優化,提供專屬的 Tool Calling 解析器。
- M4 加速: 善用 Apple Silicon 的統一記憶體與 Metal 核心,為 Gemma 4 的 Hybrid Attention 架構提供顯著的硬體加速。
- 多模態能力: 透過安裝指令,可以直接啟用 Gemma 4 的視覺推理能力(Vision/VLM)。
icekimo
10:03
那它跟熱門的 Qwen 35B MoE 相比,到底選哪一個比較好?我只有 32GB RAM。
GEMINI
10:05
針對 32GB RAM 的 M4 設備,強烈建議選擇 Gemma 4!它能在記憶體佔用上給 Agent 留下更多緩衝,防止記憶體壓力過大。
Gemma 4 vs. Qwen 3.6-35B MoE 評測比較
在 32GB RAM 的 M4 設備上,我們比較 Gemma 4-26B MoE (A4B) / 31B Dense 與 Qwen 3.6-35B (A3B) 的實際表現:
| 維度 | Gemma 4 (26B/31B) | Qwen 3.6-35B (MoE) | 評估結論 |
|---|---|---|---|
| 推理速度 | ~85-110 tok/s (4-bit) | ~95-130 tok/s | Qwen 略快(其 active 參數為 3B vs Gemma 的 4B) |
| 記憶體佔用 | 14GB (26B) / 17GB (31B) | ~21-22GB | Gemma 4 留下更多快取空間給 Agent |
| Agentic / Tool | 中規中矩 (Arena #6) | 領先 15% 以上 (SWE-bench) | 若高度依賴複雜工具,Qwen 表現較穩 |
| 回答品質 | 業界第 3 (Arena Elo) | 較偏學術/指令導向 | Gemma 回答更具「人味」,適合日常互動 |
| 上下文長度 | 256K tokens | 1M tokens (支援) | 處理超長文件 Qwen 完勝 |
選擇 Gemma 4 的關鍵理由:
- 記憶體寬裕度: 32GB RAM 扣除系統佔用,若跑 Qwen (22GB) 加上高 KV Cache,記憶體壓力(Pressure)極大。而 Gemma 4-26B (14GB) 能提供充足緩衝,確保多併發與長對話不掉速。
- 多模態優勢: 支援圖片或掃描文件處理,且在 Rapid-MLX 上的視覺推理開銷極低。
- 智力密度高: Gemma 4 寫作風格與推理邏輯優於舊代 Qwen MoE。
⚠️ 提醒: 大部分 Agent 生態系(如 Hermes 系列)目前在 Qwen 核心上的微調效果極佳。如果您的 Agent 腳本高度依賴 Qwen 專有的標記(如
<|im_start|>)或其 Tool Use 行為,轉移到 Gemma 4 時可能需要調整 System Prompt 的適配。
icekimo
10:08
好的,那在 Mac Mini M4 上要如何安裝並啟動 Gemma 4?
GEMINI
10:09
安裝步驟非常簡潔,只需要幾行終端機指令即可完成!
Mac Mini M4 安裝與啟動步驟
請開啟您的終端機,執行以下指令:
# 1. 安裝 Rapid-MLX 最新版本與視覺支援
brew install raullenchai/rapid-mlx/rapid-mlx
pip install 'rapid-mlx[vision]'
# 2. 啟動 Gemma 4-26B 模型(推薦此規格,速度與精度的最佳平衡)
rapid-mlx serve gemma-4-26b --kv-bits 4
💡 提示: 如果您對推理深度要求極高,且不在意稍微降低速度,可以將啟動指令改為
gemma-4-31b。
總結: 對於 32GB RAM 的 M4 使用者,轉投 Gemma 4 是非常明智的決定。它顯著減輕了系統記憶體壓力,並藉由 Rapid-MLX 的底層優化,為本地 AI 開發帶來更順暢、更有效率的整體體驗。
上一頁
...
下一頁
...