Hardware-Konfiguration & ROCm Setup

Mein aktueller Rechner ist ein AMD RYZEN AI Mainboard mit einem AMD RYZEN AI MAX+ 395 Prozessor. Dieser SoC integriert sowohl die CPU als auch eine Radeon-GPU auf einem Chip — ideal für kompakte, leistungsstarke Workstations.

GMKtec EVO-X2 AI Mini PC AMD

Prozessor & System

CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S
Kerne / Threads: 16 Kerne, 32 Threads (Hyper-Threading)
Takt: bis zu 5,19 GHz (Boost)
Architektur: x86_64, AMD Zen 4-basiert
RAM: 60 GiB DDR5
Swap: 8 GiB
Disk: 1,8 TB NVMe SSD (26% belegt)

GPU & Grafikkern

Integrierte GPU: AMD Radeon Graphics (gfx1151 / RDNA 3.5 Architektur)
VRAM: 2 GiB geteilter Speicher (shared system memory)
Treiber: Linux amdgpu Kernel-Modul (im Mainline-Kernel enthalten)
AIE NPU: RyzenAI-npu5 integriert

Betriebssystem

Distribution: Ubuntu 24.04.4 LTS (Noble Numbat)
Kernel: 6.18.7-061807-generic (Mainline, PREEMPT_DYNAMIC)
Architektur: x86_64

ROCm Installation

ROCm wird über das offizielle AMD apt-Repository installiert (empfohlene Methode laut AMD-Dokumentation):

deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/rocm/apt/7.2.4 noble main
deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/graphics/7.2.4/ubuntu noble main

Aktuelle Version: ROCm 7.2.4 (Production Release)

Wichtige installierte Pakete:

rocm — Meta-Paket für alle Core-Pakete, Tools und Libraries
rocm-hip-runtime — HIP Runtime für GPU-Berechnungen
rocblas (5.2.0), hipsolver, rocsolver — lineare Algebra
rocfft, rocrand, rocsparse — FFT, Random, Sparse Math
hipblas, hipfft, hipsparse, hipsparselt — HIP-optimiert
rccl — GPU-Kommunikationssammlung (Collectives)
rocprofiler-sdk — GPU Performance Profiling
rocm-gdb, rocm-debug-agent — Debugging-Tools
rocm-opencl & rocm-openmp — OpenCL/OpenMP Support
hsa-rocr — HSA Runtime für AMD APU

Ollama-Konfiguration

Ollama läuft als systemd-Service mit folgenden Environment-Variablen:

Parameter	Wert	Bedeutung
`OLLAMA_KEEP_ALIVE`	`30m`	Modelle bleiben 30 Minuten im Speicher nach der Nutzung
`OLLAMA_FLASH_ATTENTION`	`1`	Flash Attention aktiviert — beschleunigt inference mit weniger VRAM-Nutzung
`OLLAMA_MAX_LOADED_MODELS`	`2`	Bis zu 2 Modelle gleichzeitig geladen
`OLLAMA_KV_CACHE_TYPE`	`q8_0`	K/V-Cache im q8_0-Format quantisiert — guter Kompromiss zwischen Qualität und Speicherverbrauch
`OLLAMA_NUM_THREADS`	`16`	16 CPU-Threads für Inferenz (halbe Kernanzahl, Reserve für anderes)
`OLLAMA_NUM_GPU`	`-1`	Alle verfügbaren GPUs nutzen (alle Layer auf GPU falls möglich)
`OLLAMA_NEW_ENGINE`	`true`	Neue Ollama-Engine aktivieren — modernerer Backend-Pfad
`OLLAMA_HOST`	`0.0.0.0`	Hört auf alle Netzwerkschnittstellen (LAN-Zugriff)
`OLLAMA_NO_CACHE`	`0`	Modelle werden im Cache behalten
`HSA_XNACK`	`1`	XNACK aktiv — GPU-Memory-Erholung bei Fehlern (wichtig für Stabilität)
`GPU_MAX_HW_QUEUES`	`8`	Maximale Hardware-Queues pro GPU — mehr Parallelität bei Workloads

Installierte Ollama-Modelle:

qwen3.6:35b (23 GB) — Primary Model
gemma4:e2b (7,2 GB)
gemma4:31b-it-qat (18 GB)
deepseek-r1:32b (19 GB)
qwen3.6:27b (17 GB)
qwen3.5:9b (6,6 GB), llava:7b, mistral-small:latest

OpenClaw-Konfiguration — Kurzüberblick

OpenClaw läuft als Gateway-Service mit lokalem Ollama als primärem Model-Provider. Telegram-Bot ist aktiviert und gepairt, Control UI über LAN (Port 18789) erreichbar. Skills wie gog (Google Workspace), wordpress-mcp, github-backup und weitere plugin-skills sind installiert. SearXNG läuft lokal als Suchprovider — keine externen API-Calls mehr.

GMKtec EVO-X2 AI Mini PC AMD Ryzen AI MAX+ 395(16K/32T, bis zu 5.1GHz), 126 Tops KI-Leistung, 64GB LPDDR5 Ram M.2 PCIE 4.0 X4 2TB SSD, Mini Gaming PC mit 8060S Grafikkarte, WiFi 7, USB 4.0, 2.5G LAN

Treiber- & Kernel-Details

Der amdgpu-Treiber ist als Kernel-Modul geladen (≈20 MB) mit allen abhängigen Modulen: amdxcp, drm_buddy, ttm, drm_display_helper, gpu_sched. Der Treiber stammt aus dem Mainline-Linux-Kernel 6.18 — keine externen DKMS-Pakete nötig.