KI-Hardware Test: Ollama mit Dual GeForce RTX4070 Multi GPU Setup

Lesedauer 3 Minuten

Qwen2.5-Coder:32b und Qwen3-Coder:30b sind mit 20 GB bzw. 19 GB zu groß um sie auf einer NVidia GeForce RTX4070 mit 12 GB VRAM unter Ollama auszuführen. Doch wieviel Token pro Sekunde kann man erreichen, wenn man 2 NVidia GeForce RTX4070 GPUs per Thunderbolt-Kabel miteinander koppelt? Dieser Beitrag zeigt ein interessantes Ergebnis.

1 Ollama Multi-GPU Setup mit 2 x NVidia GeForce RTX4070
- 1.1 NVidia GeForce RTX4070 und RTX4070 Super im Detail
2 Ollama & Qwen2.5-Coder:32b + Qwen3-Coder:30b, zwei fette LLM im Test
3 Qwen2.5-Coder:32b : Das Ergebnis
4 Qwen3-Coder:30b : Die große Überraschung
5 Warum ist Qwen3-Coder so viel schneller?
6 Fazit

Ollama Multi-GPU Setup mit 2 x NVidia GeForce RTX4070

Für den KI-Test wird folgendes Setup verwendet:

Ollama 0.12.7 mit Qwen2.5-Coder:32b (20 GB) und Qwen3-Coder:30b (19GB).
Windows 11 Pro 25H2
Zotac Magnus One mit Intel i7 (Gen13) CPU, 32 GB RAM, NVidia RTX4070 mit 12 GB VRAM und Thunderbolt 4 Port.
Razer Core X V1 eGPU-Gehäuse mit Thunderbolt 3 Port.
NVidia RTX4070 Super mit 12 GB VRAM als eGPU.

Ollama unterstützt out of the Box Multi-GPU-Szenarios mit NVidia-Karten. Wie in diesem Setup müssen die verwendeten GPUs dabei nicht exakt gleich sein.

Die Geschwindigkeit zwischen der beiden GPUs beträgt maximal 40 Gbit/s per Thunderbolt 3 Protokoll. Da Thunderbolt 4 ebenfalls auf 40 Gbit/s beschränkt ist, spielt es keine große Rolle ob wir hier die eGPU mit Thunderbolt 3 oder 4 betreiben.

NVidia GeForce RTX4070 und RTX4070 Super im Detail

Die beiden verbauten GPUs unterscheiden sich lediglich in der Anzahl der CUDA- und Tensor-Cores sowie geringfügig im Basis-Takt.

Technische Daten	GeForce RTX 4070 SUPER	GeForce RTX 4070
NVIDIA CUDA^®-Cores	7168	5888
Tensor-Cores	224	184
Boost-Taktung	2.48 GHz	2.48 GHz
Basistaktung	1,98 GHz	1,92 GHz
Standard-Speicherkonfiguration	12 GB GDDR6	12 GB GDDR6
Speicher-Bandbreite	504 GB/s	504 GB/s
Breite der Speicherschnittstelle	192-bit	192-bit
NVIDIA-Architektur	Ada Lovelace	Ada Lovelace
CUDA-Level	8,9	8,9

Ollama & Qwen2.5-Coder:32b + Qwen3-Coder:30b, zwei fette LLM im Test

Für Ollama verwenden wir folgendes Setup:

set OLLAMA_HOST=0.0.0.0
set OLLAMA_TEMPERATURE=0.9
set OLLAMA_MIN_P=0.05
set OLLAMA_TOP_P=0.95
set OLLAMA_TOP_K=40
set OLLAMA_MAX_LOADED_MODELS=4
set OLLAMA_NUM_PARALLEL=4
set OLLAMA_MAX_QUEUE=1024
set OLLAMA_ORIGINS=*
set OLLAMA_KEEP_ALIVE=24h
set OLLAMA_LLM_LIBRARY=cuda_v11
set OLLAMA_FLASH_ATTENTION=1

set OLLAMA_HOST=0.0.0.0

set OLLAMA_TEMPERATURE=0.9

set OLLAMA_MIN_P=0.05

set OLLAMA_TOP_P=0.95

set OLLAMA_TOP_K=40

set OLLAMA_MAX_LOADED_MODELS=4

set OLLAMA_NUM_PARALLEL=4

set OLLAMA_MAX_QUEUE=1024

set OLLAMA_ORIGINS=*

set OLLAMA_KEEP_ALIVE=24h

set OLLAMA_LLM_LIBRARY=cuda_v11

set OLLAMA_FLASH_ATTENTION=1

Gestartet wird mit

ollama run qwen2.5-coder:32b --verbose

1	ollama run qwen2.5-coder:32b --verbose

Die Aufgabe für das LLM:

Schreibe einen Websocket Server in C#

1	Schreibe einen Websocket Server in C#

Qwen2.5-Coder:32b : Das Ergebnis

Das Ergebnis kann sich sehen lassen:

total duration:       55.3763535s
load duration:        60.0408ms
prompt eval count:    39 token(s)
prompt eval duration: 604.9693ms
prompt eval rate:     64.47 tokens/s
eval count:           984 token(s)
eval duration:        54.0917734s
eval rate:            18.19 tokens/s

total duration: 55.3763535s

load duration: 60.0408ms

prompt eval count: 39 token(s)

prompt eval duration: 604.9693ms

prompt eval rate: 64.47 tokens/s

eval count: 984 token(s)

eval duration: 54.0917734s

eval rate: 18.19 tokens/s

Mit knapp über 18 Token/s ist die Ausgabe flüssig, trotz dem 40 GB/s “Flaschenhals” durch die externe Thunderbolt-Anbindung.
Stecken beide RTX4070 GPUs im selben System, sollten theoretisch 25-30 Token/s möglich sein.

Qwen3-Coder:30b : Die große Überraschung

Qwen3-Coder:30b ist mit 2 Billionen weniger Parameter und seinen 19 GB nicht viel weniger fett. Doch das Ergebnis überrascht:

ollama run qwen3-coder:30b --verbose

total duration: 3.7111205s
load duration: 56.0546ms
prompt eval count: 43 token(s)
prompt eval duration: 227.8805ms
prompt eval rate: 188.70 tokens/s
eval count: 386 token(s)
eval duration: 3.3430239s
eval rate: 115.46 tokens/s

ollama run qwen3-coder:30b --verbose

total duration: 3.7111205s

load duration: 56.0546ms

prompt eval count: 43 token(s)

prompt eval duration: 227.8805ms

prompt eval rate: 188.70 tokens/s

eval count: 386 token(s)

eval duration: 3.3430239s

eval rate: 115.46 tokens/s

Mit knapp 116 Tolen/s ist Qwen3-Coder mehr als 6 x schneller als Qwen2.5-Coder !

Warum ist Qwen3-Coder so viel schneller?

Die Frage beantwortet Qwen3-Coder selbst:

Warum ist Qwen3-Coder so viel schneller als Qwen2.5-Coder, bei Verwendung eines Dual-GPU Setups mit 2 GeForce RTX4070?
Antworte nur mit Fakten, bei denen Du absolut sicher bist.

Die Leistungsunterschiede zwischen Qwen3-Coder und Qwen2.5-Coder auf Ihrem Dual-RTX-4070-Setup können auf folgende
sichere Faktoren zurückgeführt werden:

1. **Modellarchitektur-Verbesserungen**: 
Qwen3-Coder verwendet effizientere Aufmerksamkeitsmechanismen und optimierte Schichtdesigns.

2. **CUDA/Compute-Optimierung**: 
Qwen3-Coder profitiert von besseren CUDA-Kernel-Optimierungen spezifisch für die RTX 4070-Architektur.

3. **Software-Stack-Verbesserungen**: 
Qwen3-Coder verwendet aktualisierte Deep-Learning-Frameworks mit besserer GPU-Ausnutzung.

4. **Multi-GPU-Optimierung**: 
Qwen3-Coder hat bessere Multi-GPU-Synchronisation und Daten-Parallelismus.

total duration: 2.3828356s
load duration: 51.6038ms
prompt eval count: 1381 token(s)
prompt eval duration: 299.07ms
prompt eval rate: 4617.65 tokens/s
eval count: 207 token(s)
eval duration: 1.9720198s
eval rate: 104.97 tokens/s

Warum ist Qwen3-Coder so viel schneller als Qwen2.5-Coder, bei Verwendung eines Dual-GPU Setups mit 2 GeForce RTX4070?

Antworte nur mit Fakten, bei denen Du absolut sicher bist.

Die Leistungsunterschiede zwischen Qwen3-Coder und Qwen2.5-Coder auf Ihrem Dual-RTX-4070-Setup können auf folgende

sichere Faktoren zurückgeführt werden:

1. **Modellarchitektur-Verbesserungen**:

Qwen3-Coder verwendet effizientere Aufmerksamkeitsmechanismen und optimierte Schichtdesigns.

2. **CUDA/Compute-Optimierung**:

Qwen3-Coder profitiert von besseren CUDA-Kernel-Optimierungen spezifisch für die RTX 4070-Architektur.

3. **Software-Stack-Verbesserungen**:

Qwen3-Coder verwendet aktualisierte Deep-Learning-Frameworks mit besserer GPU-Ausnutzung.

4. **Multi-GPU-Optimierung**:

Qwen3-Coder hat bessere Multi-GPU-Synchronisation und Daten-Parallelismus.

total duration: 2.3828356s

load duration: 51.6038ms

prompt eval count: 1381 token(s)

prompt eval duration: 299.07ms

prompt eval rate: 4617.65 tokens/s

eval count: 207 token(s)

eval duration: 1.9720198s

eval rate: 104.97 tokens/s

Fantastisch! :-)

Fazit

Die Geschwindigkeit von LLM Interferenz hängt nicht nur von der Anzahl der Parameter, sprich der Größe des LLMs ab. Qwen3-Coder ist ein schönes Beispiel dafür, daß durch clevere Optimierungen bei gleicher Hardware noch viel Luft nach oben sein kann.

Weitere Tests mit der NVidia GeForce RTX4070

Hat Dir der Beitrag gefallen?

Wenn Du Fragen oder Anmerkungen zu diesem Beitrag hast, dann starte einen Kommentar. DANKE für Dein Feedback!

GRATIS: Hol Dir Pulse², die App zu meinem Blog.

Name*

E-Mail*

Webseite

0 Kommentare

Neuester

Ältester Beliebtester

Inline Feedbacks

View all comments

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, keine Übermittlung von Daten and Dritte, Impressum
Zweck	Speichert die Einstellungen der Besucher, die in der Cookie Box ausgewählt wurden.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Wordpress Application Firewall
Anbieter	Eigentümer dieser Website, keine Übermittlung von Daten and Dritte.
Zweck	Essentielles Session-Cookie um die Sicherheit unserer Website zu gewährleisten. Identifiziert den Besucher anhand einer anonymen ID um mehrfache Hackversuche wiederkehrender Besucher zu verhindern.
Cookie Name	icwp-wpsf

Name	Wordpress Login Session
Anbieter	Eigentümer dieser Website, keine Übermittlung von Daten and Dritte.
Zweck	Dieses Session Cookie speichert den Zustand unseres Login-Bereichs, um festzustellen ob ein User eingeloggt ist oder nicht.
Cookie Name	swpm_session

Name	PHP Session ID
Anbieter	Eigentümer dieser Website, keine Übermittlung von Daten and Dritte
Zweck	Dieses Session-Cookie wird benötigt um die einwandfreie Navigation auf unseren Seiten zu gewährleisten. Es identifiziert den Besucher anhand einer anonymen ID.
Cookie Name	PHPSESSID

Name	WooCommerce
Anbieter	Eigentümer dieser Website, keine Übermittlung von Daten and Dritte
Zweck	Dieses Cookie wird zur Funktionalität des WooCommerce Onlineshops benötigt.
Cookie Name	woocommerce_cart_hash, tk_ai

Akzeptieren	Google Analytics
Name	Google Analytics
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google für Website-Analysen. Erzeugt statistische, anonymisierte Daten darüber, wie der Besucher die Website nutzt. Google Analytics hilft uns, unser Angebot auf unsere Besucher besser abstimmen zu können.
Datenschutzerklärung	https://policies.google.com/privacy
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	1 Jahre

Akzeptieren	Vimeo
Name	Vimeo
Anbieter	Vimeo Inc., 555 West 18th Street, New York, New York 10011, USA
Zweck	Wird verwendet, um Vimeo-Inhalte zu entsperren.
Datenschutzerklärung	https://vimeo.com/privacy
Host(s)	player.vimeo.com
Cookie Name	vuid
Cookie Laufzeit	2 Jahre

Akzeptieren	YouTube
Name	YouTube
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Wird verwendet, um YouTube-Inhalte zu entsperren.
Datenschutzerklärung	https://policies.google.com/privacy
Host(s)	google.com
Cookie Name	NID
Cookie Laufzeit	6 Monate