Lesedauer 3 Minuten

Qwen2.5-Coder:32b und Qwen3-Coder:30b sind mit 20 GB bzw. 18 GB zu groß um sie auf einer NVidia GeForce RTX-4070 mit 12 GB VRAM unter Ollama auszuführen. Doch wieviel Token pro Sekunde kann man erreichen, wenn man 2 NVidia GeForce RTX-4070 GPUs per Thunderbolt-Kabel miteinander koppelt? Dieser Beitrag zeigt ein interessantes Ergebnis.

Ollama Multi-GPU Setup mit 2 x NVidia GeForce RTX-4070

Für den KI-Test wird folgendes Setup verwendet:

  • Ollama 0.12.7 mit Qwen2.5-Coder:32b (20 GB) und Qwen3-Coder:30b (18 GB). 
  • Windows 11 Pro 25H2
  • Zotac Magnus One mit Intel i7 (Gen13) CPU, 32 GB RAM, NVidia RTX-4070 mit 12 GB VRAM und Thunderbolt 4 Port.
  • Razer Core X V1 eGPU-Gehäuse mit Thunderbolt 3 Port.
  • NVidia RTX-4070 Super mit 12 GB VRAM als eGPU.

Ollama unterstützt out of the Box Multi-GPU-Szenarios mit NVidia-Karten.
Die Geschwindigkeit zwischen der beiden GPUs beträgt maximal 40 Gbit/s per Thunderbolt 3 Protokoll.

Ollama mit 2 x NVidia GeForce RTX4070 via Thunderbolt

NVidia GeForce RTX-4070 und RTX-4070 Super im Detail

Die beiden verbauten GPUs unterscheiden sich lediglich in der Anzahl der CUDA- und Tensor-Cores sowie geringfügig im Basis-Takt.

Technische Daten GeForce RTX 4070 SUPER GeForce RTX 4070
NVIDIA CUDA®-Cores 7168 5888
Tensor-Cores 224 184
Boost-Taktung 2.48 GHz 2.48 GHz
Basistaktung 1,98 GHz 1,92 GHz
Standard-Speicherkonfiguration 12 GB GDDR6 12 GB GDDR6
Speicher-Bandbreite 504 GB/s 504 GB/s
Breite der Speicherschnittstelle 192-bit 192-bit
NVIDIA-Architektur Ada Lovelace Ada Lovelace
CUDA-Level 8,9 8,9

Ollama & Qwen2.5-Coder:32b + Qwen3-Coder:30b, zwei fette LLM im Test

Für Ollama verwenden wir folgendes Setup:

Gestartet wird mit

Die Aufgabe für das LLM:

Qwen2.5-Coder:32b : Das Ergebnis

Das Ergebnis kann sich sehen lassen:

Mit knapp über 18 Token/s ist die Ausgabe flüssig, trotz dem 40 GB/s “Flaschenhals” durch die externe Thunderbolt-Anbindung.
Stecken beide RTX-4070 GPUs im selben System, sollten theoretisch 25-30 Token/s möglich sein.

Qwen3-Coder:30b : Die große Überraschung

Qwen3-Coder:30b ist mit 2 Billionen weniger Parameter und seinen 18 GB nicht viel weniger fett. Doch das Ergebnis überrascht:

Mit knapp 116 Tolen/s ist Qwen3-Coder mehr als 6 x schneller als Qwen2.5-Coder !

Warum ist Qwen3-Coder so viel schneller?

Die Frage beantwortet Qwen3-Coder selbst:

Fantastisch! :-)

Fazit

Die Geschwindigkeit von LLM Interferenz hängt nicht nur von der Anzahl der Parameter, sprich der Größe des LLMs ab. Qwen3-Coder ist ein schönes Beispiel dafür, daß durch clevere Optimierungen bei gleicher Hardware noch viel Luft nach sein kann.

Weitere Tests mit der NVidia GeForce RTX-4070

 

 

 

Hat Dir der Beitrag gefallen?

Wenn Du Fragen oder Anmerkungen zu diesem Beitrag hast, dann starte einen Kommentar. DANKE für Dein Feedback!