Lesedauer 3 Minuten

Qwen2.5-Coder:32b und Qwen3-Coder:30b sind mit 20 GB bzw. 19 GB zu groß um sie auf einer NVidia GeForce RTX4070 mit 12 GB VRAM unter Ollama auszuführen. Doch wieviel Token pro Sekunde kann man erreichen, wenn man 2 NVidia GeForce RTX4070 GPUs per Thunderbolt-Kabel miteinander koppelt? Dieser Beitrag zeigt ein interessantes Ergebnis.

Ollama Multi-GPU Setup mit 2 x NVidia GeForce RTX4070

Für den KI-Test wird folgendes Setup verwendet:

  • Ollama 0.12.7 mit Qwen2.5-Coder:32b (20 GB) und Qwen3-Coder:30b (19GB). 
  • Windows 11 Pro 25H2
  • Zotac Magnus One mit Intel i7 (Gen13) CPU, 32 GB RAM, NVidia RTX4070 mit 12 GB VRAM und Thunderbolt 4 Port.
  • Razer Core X V1 eGPU-Gehäuse mit Thunderbolt 3 Port.
  • NVidia RTX4070 Super mit 12 GB VRAM als eGPU.

Ollama unterstützt out of the Box Multi-GPU-Szenarios mit NVidia-Karten. Wie in diesem Setup müssen die verwendeten GPUs dabei nicht exakt gleich sein.

Die Geschwindigkeit zwischen der beiden GPUs beträgt maximal 40 Gbit/s per Thunderbolt 3 Protokoll. Da Thunderbolt 4 ebenfalls auf 40 Gbit/s beschränkt ist, spielt es keine große Rolle ob wir hier die eGPU mit Thunderbolt 3 oder 4 betreiben.

Ollama mit 2 x NVidia GeForce RTX4070 via Thunderbolt

NVidia GeForce RTX4070 und RTX4070 Super im Detail

Die beiden verbauten GPUs unterscheiden sich lediglich in der Anzahl der CUDA- und Tensor-Cores sowie geringfügig im Basis-Takt.

Technische Daten GeForce RTX 4070 SUPER GeForce RTX 4070
NVIDIA CUDA®-Cores 7168 5888
Tensor-Cores 224 184
Boost-Taktung 2.48 GHz 2.48 GHz
Basistaktung 1,98 GHz 1,92 GHz
Standard-Speicherkonfiguration 12 GB GDDR6 12 GB GDDR6
Speicher-Bandbreite 504 GB/s 504 GB/s
Breite der Speicherschnittstelle 192-bit 192-bit
NVIDIA-Architektur Ada Lovelace Ada Lovelace
CUDA-Level 8,9 8,9

Ollama & Qwen2.5-Coder:32b + Qwen3-Coder:30b, zwei fette LLM im Test

Für Ollama verwenden wir folgendes Setup:

Gestartet wird mit

Die Aufgabe für das LLM:

Qwen2.5-Coder:32b : Das Ergebnis

Das Ergebnis kann sich sehen lassen:

Mit knapp über 18 Token/s ist die Ausgabe flüssig, trotz dem 40 GB/s “Flaschenhals” durch die externe Thunderbolt-Anbindung.
Stecken beide RTX4070 GPUs im selben System, sollten theoretisch 25-30 Token/s möglich sein.

Qwen3-Coder:30b : Die große Überraschung

Qwen3-Coder:30b ist mit 2 Billionen weniger Parameter und seinen 19 GB nicht viel weniger fett. Doch das Ergebnis überrascht:

Mit knapp 116 Tolen/s ist Qwen3-Coder mehr als 6 x schneller als Qwen2.5-Coder !

Warum ist Qwen3-Coder so viel schneller?

Die Frage beantwortet Qwen3-Coder selbst:

Fantastisch! :-)

Fazit

Die Geschwindigkeit von LLM Interferenz hängt nicht nur von der Anzahl der Parameter, sprich der Größe des LLMs ab. Qwen3-Coder ist ein schönes Beispiel dafür, daß durch clevere Optimierungen bei gleicher Hardware noch viel Luft nach oben sein kann.

Weitere Tests mit der NVidia GeForce RTX4070

 

 

 

Hat Dir der Beitrag gefallen?

Wenn Du Fragen oder Anmerkungen zu diesem Beitrag hast, dann starte einen Kommentar. DANKE für Dein Feedback!