Qwen2.5-Coder:32b und Qwen3-Coder:30b sind mit 20 GB bzw. 18 GB zu groß um sie auf einer NVidia GeForce RTX-4070 mit 12 GB VRAM unter Ollama auszuführen. Doch wieviel Token pro Sekunde kann man erreichen, wenn man 2 NVidia GeForce RTX-4070 GPUs per Thunderbolt-Kabel miteinander koppelt? Dieser Beitrag zeigt ein interessantes Ergebnis.
Ollama Multi-GPU Setup mit 2 x NVidia GeForce RTX-4070
Für den KI-Test wird folgendes Setup verwendet:
- Ollama 0.12.7 mit Qwen2.5-Coder:32b (20 GB) und Qwen3-Coder:30b (18 GB).
- Windows 11 Pro 25H2
- Zotac Magnus One mit Intel i7 (Gen13) CPU, 32 GB RAM, NVidia RTX-4070 mit 12 GB VRAM und Thunderbolt 4 Port.
- Razer Core X V1 eGPU-Gehäuse mit Thunderbolt 3 Port.
- NVidia RTX-4070 Super mit 12 GB VRAM als eGPU.
Ollama unterstützt out of the Box Multi-GPU-Szenarios mit NVidia-Karten.
Die Geschwindigkeit zwischen der beiden GPUs beträgt maximal 40 Gbit/s per Thunderbolt 3 Protokoll.

Ollama & Qwen2.5-Coder:32b + Qwen3-Coder:30b : Zwei fette LLM im Test
Für Ollama verwenden wir folgendes Setup:
|
1 2 3 4 5 6 7 8 9 10 11 12 |
set OLLAMA_HOST=0.0.0.0 set OLLAMA_TEMPERATURE=0.9 set OLLAMA_MIN_P=0.05 set OLLAMA_TOP_P=0.95 set OLLAMA_TOP_K=40 set OLLAMA_MAX_LOADED_MODELS=4 set OLLAMA_NUM_PARALLEL=4 set OLLAMA_MAX_QUEUE=1024 set OLLAMA_ORIGINS=* set OLLAMA_KEEP_ALIVE=24h set OLLAMA_LLM_LIBRARY=cuda_v11 set OLLAMA_FLASH_ATTENTION=1 |
Gestartet wird mit
|
1 |
ollama run qwen2.5-coder:32b --verbose |
Die Aufgabe für das LLM:
|
1 |
Schreibe einen Websocket Server in C# |
Qwen2.5-Coder:32b : Das Ergebnis
Das Ergebnis kann sich sehen lassen:
|
1 2 3 4 5 6 7 8 |
total duration: 55.3763535s load duration: 60.0408ms prompt eval count: 39 token(s) prompt eval duration: 604.9693ms prompt eval rate: 64.47 tokens/s eval count: 984 token(s) eval duration: 54.0917734s eval rate: 18.19 tokens/s |
Mit knapp über 18 Token/s ist die Ausgabe flüssig, trotz dem 40 GB/s “Flaschenhals” durch die externe Thunderbolt-Anbindung.
Stecken beide RTX-4070 GPUs im selben System, sollten theoretisch 25-30 Token/s möglich sein.
Qwen3-Coder:30b : Die große Überraschung
Qwen3-Coder:30b ist mit 2 Billionen weniger Parameter und seinen 18 GB nicht viel weniger fett. Doch das Ergebnis überrascht:
|
1 2 3 4 5 6 7 8 9 10 |
ollama run qwen3-coder:30b --verbose total duration: 3.7111205s load duration: 56.0546ms prompt eval count: 43 token(s) prompt eval duration: 227.8805ms prompt eval rate: 188.70 tokens/s eval count: 386 token(s) eval duration: 3.3430239s eval rate: 115.46 tokens/s |
Mit knapp 116 Tolen/s ist Qwen3-Coder mehr als 6 x schneller als Qwen2.5-Coder !
Warum ist Qwen3-Coder so viel schneller?
Die Frage beantwortet Qwen3-Coder selbst:
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
Warum ist Qwen3-Coder so viel schneller als Qwen2.5-Coder, bei Verwendung eines Dual-GPU Setups mit 2 GeForce RTX4070? Antworte nur mit Fakten, bei denen Du absolut sicher bist. Die Leistungsunterschiede zwischen Qwen3-Coder und Qwen2.5-Coder auf Ihrem Dual-RTX-4070-Setup können auf folgende sichere Faktoren zurückgeführt werden: 1. **Modellarchitektur-Verbesserungen**: Qwen3-Coder verwendet effizientere Aufmerksamkeitsmechanismen und optimierte Schichtdesigns. 2. **CUDA/Compute-Optimierung**: Qwen3-Coder profitiert von besseren CUDA-Kernel-Optimierungen spezifisch für die RTX 4070-Architektur. 3. **Software-Stack-Verbesserungen**: Qwen3-Coder verwendet aktualisierte Deep-Learning-Frameworks mit besserer GPU-Ausnutzung. 4. **Multi-GPU-Optimierung**: Qwen3-Coder hat bessere Multi-GPU-Synchronisation und Daten-Parallelismus. total duration: 2.3828356s load duration: 51.6038ms prompt eval count: 1381 token(s) prompt eval duration: 299.07ms prompt eval rate: 4617.65 tokens/s eval count: 207 token(s) eval duration: 1.9720198s eval rate: 104.97 tokens/s |
Fantastisch! :-)
Fazit
Die Geschwindigkeit von LLM Interferenz hängt nicht nur von der Anzahl der Parameter, sprich der Größe des LLMs ab. Qwen3-Coder ist ein schönes Beispiel dafür, daß durch clevere Optimierungen bei gleicher Hardware noch viel Luft nach oben ist.
Weitere Tests mit der NVidia GeForce RTX-4070



