Lesedauer 2 Minuten

Qwen2.5-Coder:32b und Qwen3-Coder:30b sind mit 20 GB bzw. 18 GB zu groß um sie auf einer NVidia GeForce RTX-4070 mit 12 GB VRAM unter Ollama auszuführen. Doch wieviel Token pro Sekunde kann man erreichen, wenn man 2 NVidia GeForce RTX-4070 GPUs per Thunderbolt-Kabel miteinander koppelt? Dieser Beitrag zeigt ein interessantes Ergebnis.

Ollama Multi-GPU Setup mit 2 x NVidia GeForce RTX-4070

Für den KI-Test wird folgendes Setup verwendet:

  • Ollama 0.12.7 mit Qwen2.5-Coder:32b (20 GB) und Qwen3-Coder:30b (18 GB). 
  • Windows 11 Pro 25H2
  • Zotac Magnus One mit Intel i7 (Gen13) CPU, 32 GB RAM, NVidia RTX-4070 mit 12 GB VRAM und Thunderbolt 4 Port.
  • Razer Core X V1 eGPU-Gehäuse mit Thunderbolt 3 Port.
  • NVidia RTX-4070 Super mit 12 GB VRAM als eGPU.

Ollama unterstützt out of the Box Multi-GPU-Szenarios mit NVidia-Karten.
Die Geschwindigkeit zwischen der beiden GPUs beträgt maximal 40 Gbit/s per Thunderbolt 3 Protokoll.

Ollama mit 2 x NVidia GeForce RTX4070 via Thunderbolt

Ollama & Qwen2.5-Coder:32b + Qwen3-Coder:30b : Zwei fette LLM im Test

Für Ollama verwenden wir folgendes Setup:

Gestartet wird mit

Die Aufgabe für das LLM:

Qwen2.5-Coder:32b : Das Ergebnis

Das Ergebnis kann sich sehen lassen:

Mit knapp über 18 Token/s ist die Ausgabe flüssig, trotz dem 40 GB/s “Flaschenhals” durch die externe Thunderbolt-Anbindung.
Stecken beide RTX-4070 GPUs im selben System, sollten theoretisch 25-30 Token/s möglich sein.

Qwen3-Coder:30b : Die große Überraschung

Qwen3-Coder:30b ist mit 2 Billionen weniger Parameter und seinen 18 GB nicht viel weniger fett. Doch das Ergebnis überrascht:

Mit knapp 116 Tolen/s ist Qwen3-Coder mehr als 6 x schneller als Qwen2.5-Coder !

Warum ist Qwen3-Coder so viel schneller?

Die Frage beantwortet Qwen3-Coder selbst:

Fantastisch! :-)

Fazit

Die Geschwindigkeit von LLM Interferenz hängt nicht nur von der Anzahl der Parameter, sprich der Größe des LLMs ab. Qwen3-Coder ist ein schönes Beispiel dafür, daß durch clevere Optimierungen bei gleicher Hardware noch viel Luft nach oben ist.

Weitere Tests mit der NVidia GeForce RTX-4070

 

 

 

Hat Dir der Beitrag gefallen?

Wenn Du Fragen oder Anmerkungen zu diesem Beitrag hast, dann starte einen Kommentar. DANKE für Dein Feedback!