Lokale LLMs Draaien: DeepSeek op een Mac Mini

· 2 min lezen

Sinds een paar maanden draai ik lokale LLMs op mijn Mac Mini M4. Dit is waarom, hoe, en wat het oplevert.

Waarom lokaal?

Drie redenen:

  1. Privacy — mijn prompts en data gaan niet naar OpenAI of Anthropic
  2. Kosten — geen API credits, geen abonnement
  3. Beschikbaarheid — geen rate limits, geen downtime van derden

Een Mac Mini M4 met 16GB RAM draait verrassend veel modellen. Het M4 neurale engine helpt, maar het echte werk gebeurt op de GPU cores via Metal.

Setup

# llama-server via Homebrew
brew install llama.cpp

# Download model (DeepSeek-R1-Distill-Qwen-7B, ~4GB)
llama-server \
  --model DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf \
  --host 0.0.0.0 \
  --port 8080

Dat is het. De server draait op poort 8080 en spreekt de OpenAI-compatibele API. Elke tool die met OpenAI API overweg kan (aider, opencode, custom scripts) werkt direct.

Performance

ModelTokens/secRAM
DeepSeek-R1 7B (Q4)~25 t/s~6GB
Qwen2.5 7B (Q4)~30 t/s~5GB
Phi-3 Mini 4B (Q4)~45 t/s~3GB

Voor coding taken is het prima. Geen ChatGPT-4 niveau, maar voor daily use, refactoring en simpele vragen meer dan voldoende. En het is gratis.

Praktische toepassingen

Coding assistent met aider

aider --model openai/deepseek-r1 --no-git

Werkt verrassend goed voor Python refactoring en kleine features.

OpenCode agent

Lokaal model als backend voor code search, bestandswijzigingen en project analyse. Geen internet nodig.

Document samenvatting

Custom Python script dat PDFs en webpagina’s samenvat via de lokale API.

Beperkingen

  • Geen vision — deze modellen kunnen geen afbeeldingen verwerken
  • Context window — 8K tokens max, niets voor enorme codebases
  • Snelheid — het is geen datacenter GPU

Conclusie

Voor €0 per maand een capabele AI assistent in huis. De tech gaat hard — over een jaar draaien we waarschijnlijk 32B modellen op consumer hardware. Ik kan niet wachten.