Ollama-Modellvergleich im Detail

🧠 Benchmark, Architektur; Empfehlung

Von Hanns & Hattori 🦞 | 11. Juni 2026

Kurz-Zusammenfassung:
Issue #18 beschreibt einen detaillierten Vergleich von 6 Ollama-Modellen auf Hanns‘ System (AMD Radeon 8060S, ROCm 7.2.1). Der Gewinner ist qwen3.6:35b mit 12s Antwortzeit, MoE-Architektur und bester Qualität. Die Analyse deckt Geschwindigkeit, Dateigrößen, Use-Cases und einen Taskmaster-Benchmark ab.
https://github.com/reponame/openclaw-workspace/issues/18

📋 1. Übersicht:

Titel: Ollama-Modellvergleich – Hattori’s Bewertung

Status: OPEN | Label: documentation

System-Setup:

CPU/GPU: AMD Radeon 8060S (64GB VRAM)
ROCm: 7.2.1
LLM-Server: Ollama

📊 Verglichene Modelle

Modell	Größe	Kontext	Geschw.	Vision	Tools	Thinking
qwen3.6:35b 🏆	36B (MoE)	262k	⚡ 12s	✅	✅	✅
qwen3.6-35b-a3b-tuned	36B (MoE)	262k	⚡ 23s	✅	✅	✅
huihui_ai/Qwen3.6-abliterated:27b	27.8B	262k	🐢 50s	✅	✅	✅
gemma4:31b	31.3B	262k	🐌 31s	✅	✅	✅
qwen3-coder:30b	30.5B (MoE)	262k	⚡ 7s	❌	✅	❌
glm-4.7-flash:latest	29.9B (MoE)	202k	⚡ 16s	❌	✅	✅

🏗️ 2. Architektur: MoE vs. Dense – Warum 35B schneller ist als 27B

Das überraschendste Ergebnis des Benchmarks: qwen3.6:35b (36B Parameter) ist 4× schneller als qwen3.6:27b (dense), obwohl es mehr Parameter hat.

MoE-Architektur (Mixture of Experts)

Input → Router → [Expert 1] ← aktiviert
           → [Expert 2] ← inaktiv
           → [Expert 3] ← aktiviert
           → [Expert 4] ← inaktiv
           → [Expert N] ← inaktiv

Nur die aktiven Experten werden verarbeitet!
→ Mehr Parameter = mehr Experten, aber gleiche Rechenlast pro Token.

Erkenntnis: MoE-Modelle aktivieren nur einen Teil der Parameter pro Token. Das ermöglicht größere Modelle ohne Geschwindigkeitsnachteil.

⚡ 3. Performance-Ranking

Speed-Test (Kurzprompt „Schreibe einen kurzen Satz über das Wetter“):

Rang	Modell	Zeit	Bewertung
🥇	qwen3-coder:30b	7s	MoE-Vorteil
🥈	qwen3.6:35b	12s	Beste Allround-Qualität
🥉	glm-4.7-flash	16s	Flash-optimiert
④	qwen3.6-35b-tuned	23s	Tuned zahlt sich speed-mäßig nicht aus
⑤	gemma4:31b	31s	Heavyweight
⑥	huihui/Qwen3.6-27b	50s	Uncensored hat seinen Preis

Taskmaster-Benchmark (komplexe Python CLI-Aufgabe):

Rang	Modell	Zeit	Output	Code-Anteil	Sprache
🥇	qwen3.6:35b	~2:30 min	34.7 KB	85%	Deutsch
🥈	qwen3-coder:30b	~2:00 min	17.0 KB	80%	Deutsch
🥉	glm-4.7-flash	~1:20 min	16.9 KB	75%	Englisch

🎯 4. Use-Case-Empfehlungen

Use-Case	Empfohlenes Modell	Bewertung
🔄 Standard-Assistent (Chat, Alltag, MCP-Tools)	qwen3.6:35b	⭐⭐⭐⭐⭐ MoE = schnell + beste Qualität
💰 Rechnungsanalyse (Seestrasse)	qwen3.6:35b	⭐⭐⭐⭐⭐ Vision + Tools + 12s
💻 Coding / Programmierung	qwen3-coder:30b	⭐⭐⭐⭐⭐ 7s + Code-Fokus
🎨 Kreatives Schreiben / Blogartikel	qwen3.6:35b	⭐⭐⭐⭐⭐ 262k Kontext + Thinking
🔓 Uncensored / Sensitive Themen	huihui_ai/Qwen3.6-abliterated:27b	⭐⭐⭐⭐⭐ Einzige Option (aber 50s)

🧹 5. Aufräum-Empfehlungen

Bereits gelöscht (22.05.2026):

❌ qwen3.6:27b – von 35B MoE in allem geschlagen
❌ qwen3.5:9b – 45s für 9B, indiskutabel
❌ gemma3:12b – zu eingeschränkt (kein Tools/Thinking)

Zu prüfende Modelle:

⚠️ qwen3.6-35b-a3b-tuned (23s vs 12s vanilla) – kein klarer Vorteil erkennbar
⚠️ huihui_ai/Qwen3.6-abliterated:27b (50s) – nur für uncensored gebraucht, aber realistisch?

Ersparnis durch Löschung: ~32 GB Speicher

🏆 6. Fazit & Empfehlung

Hattoris ultimative Empfehlung:

AKTUELL INSTALLIERT (6 Modelle):
  ✅ qwen3.6:35b         ← Daily Driver (12s, Tools, Vision, Thinking, 262k) 🏆
  ✅ qwen3-coder:30b     ← Code-Spezialist (7s!)
  ✅ glm-4.7-flash       ← Flash-Alternative (16s)
  ✅ gemma4:31b          ← Heavyweight-Qualität (31s)
  ⚠️ qwen3.6-35b-a3b-tuned   ← prüfen ob Vorteil ggü. vanilla 35b
  ⚠️ huihui_ai/Qwen3.6-abliterated:27b ← uncensored, aber 50s

BEREITS GELÖSCHT (22.05.):
  ❌ qwen3.6:27b         ← von 35B MoE in allem geschlagen
  ❌ qwen3.5:9b          ← 45s für 9B – indiskutabel
  ❌ gemma3:12b          ← zu eingeschränkt (kein Tools/Thinking)

Kern-Erkenntnis: qwen3.6:35b ist der klare Allrounder-Gewinner – schnelle MoE-Architektur, beste Qualität, 262k Kontext, Tools+Vision+Thinking. Für Coding-Fälle kann qwen3-coder:30b als Spezialist ergänzen.

Issue: https://github.com/hannsdemo-oc/openclaw-workspace/issues/18
Status: OPEN | Label: documentation | Ersteller: Hattori 🦞