dPhhAt3dkwNe57E0VIETCopNBAvS4qtY0z2O1th0
Bookmark

Mac Mini M4 (32GB) 部署本地 LLM 實戰:Rapid-MLX 與 Gemma 4 的完美搭配

icekimo

聽說在 Mac Mini M4 (32GB RAM) 上,用 Rapid-MLX 部署本地伺服器很方便,是真的嗎?

10:00
GEMINI

沒錯!而且目前它對 Gemma 4 的支援度非常高,是一套相當強大的本地 LLM 部署方案。

10:01

為什麼選擇 Rapid-MLX 部署 Gemma 4?

  • 原生支援與優化: Rapid-MLX v0.6.61 (2026-05-19) 已針對 Google 2026 年 4 月發布的 Gemma 4 系列(包含 E2B, E4B, 26B MoE, 31B Dense 規格)進行了深度優化,提供專屬的 Tool Calling 解析器。
  • M4 加速: 善用 Apple Silicon 的統一記憶體與 Metal 核心,為 Gemma 4 的 Hybrid Attention 架構提供顯著的硬體加速。
  • 多模態能力: 透過安裝指令,可以直接啟用 Gemma 4 的視覺推理能力(Vision/VLM)。

icekimo

那它跟熱門的 Qwen 35B MoE 相比,到底選哪一個比較好?我只有 32GB RAM。

10:03
GEMINI

針對 32GB RAM 的 M4 設備,強烈建議選擇 Gemma 4!它能在記憶體佔用上給 Agent 留下更多緩衝,防止記憶體壓力過大。

10:05

Gemma 4 vs. Qwen 3.6-35B MoE 評測比較

在 32GB RAM 的 M4 設備上,我們比較 Gemma 4-26B MoE (A4B) / 31B DenseQwen 3.6-35B (A3B) 的實際表現:

維度 Gemma 4 (26B/31B) Qwen 3.6-35B (MoE) 評估結論
推理速度 ~85-110 tok/s (4-bit) ~95-130 tok/s Qwen 略快(其 active 參數為 3B vs Gemma 的 4B)
記憶體佔用 14GB (26B) / 17GB (31B) ~21-22GB Gemma 4 留下更多快取空間給 Agent
Agentic / Tool 中規中矩 (Arena #6) 領先 15% 以上 (SWE-bench) 若高度依賴複雜工具,Qwen 表現較穩
回答品質 業界第 3 (Arena Elo) 較偏學術/指令導向 Gemma 回答更具「人味」,適合日常互動
上下文長度 256K tokens 1M tokens (支援) 處理超長文件 Qwen 完勝

選擇 Gemma 4 的關鍵理由:

  1. 記憶體寬裕度: 32GB RAM 扣除系統佔用,若跑 Qwen (22GB) 加上高 KV Cache,記憶體壓力(Pressure)極大。而 Gemma 4-26B (14GB) 能提供充足緩衝,確保多併發與長對話不掉速。
  2. 多模態優勢: 支援圖片或掃描文件處理,且在 Rapid-MLX 上的視覺推理開銷極低。
  3. 智力密度高: Gemma 4 寫作風格與推理邏輯優於舊代 Qwen MoE。

⚠️ 提醒: 大部分 Agent 生態系(如 Hermes 系列)目前在 Qwen 核心上的微調效果極佳。如果您的 Agent 腳本高度依賴 Qwen 專有的標記(如 <|im_start|>)或其 Tool Use 行為,轉移到 Gemma 4 時可能需要調整 System Prompt 的適配。


icekimo

好的,那在 Mac Mini M4 上要如何安裝並啟動 Gemma 4?

10:08
GEMINI

安裝步驟非常簡潔,只需要幾行終端機指令即可完成!

10:09

Mac Mini M4 安裝與啟動步驟

請開啟您的終端機,執行以下指令:

# 1. 安裝 Rapid-MLX 最新版本與視覺支援
brew install raullenchai/rapid-mlx/rapid-mlx
pip install 'rapid-mlx[vision]'
# 2. 啟動 Gemma 4-26B 模型(推薦此規格,速度與精度的最佳平衡)
rapid-mlx serve gemma-4-26b --kv-bits 4

💡 提示: 如果您對推理深度要求極高,且不在意稍微降低速度,可以將啟動指令改為 gemma-4-31b

總結: 對於 32GB RAM 的 M4 使用者,轉投 Gemma 4 是非常明智的決定。它顯著減輕了系統記憶體壓力,並藉由 Rapid-MLX 的底層優化,為本地 AI 開發帶來更順暢、更有效率的整體體驗。

導讀
選擇語音
1x
* 更改設定將重新朗讀文章。