Wie schlägt sich der neue MacMini mit Apple M4 CPU gegen das MacBook Pro mit M1 Max CPU, wenn es um das Thema KI geht? Reicht die Rechenpower aus, um ein 20 GB Large Language Model zu betreiben? Dieser Artikel zeigt überraschende Ergebnisse.
MacMini M4 im Test: Das Setup
Unser KI Test-Szenario besteht aus dem folgenden Setup:
- Getestet wird ein Mac Mini M4 mit 24 GB RAM, mit 10 Core CPU, 10 Core GPU, 16 Core Neural Engine, 120 GB/s RAM Bandwidth
- Der Gegner: Ein MacBook Pro M1 Max mit 64 GB RAM, mit 10 Core CPU, 32 Core GPU, 16 Core Neural Engine, 400 GB/s RAM Bandwidth
- Die Software ist Ollama mit folgenden LLMs: Qwen2.5-Coder:32b und 7b, sowie LLama3.2:3b
Die Aufgabe für das LLM: “Schreibe einen Websocket Server in C#”:
1 2 |
ollama run llama3.2:latest --verbose >>> Schreibe einen Websocket Server in C# |
Der Wichtigste Parameter ist die Eval-Rate am Ende der Ausgabe. Alles was >= 10 Token pro Sekunde ist, wird vom Benutzer beim Lesen noch als akzeptabel empfunden. Werte darunter als zu langsam.
MacMini M4 vs. M1 Max: Die Ergebnisse
LLama3.2:3b (2 GB)
MacMini M4:
1 2 3 4 5 6 7 8 |
total duration: 17.7778915s load duration: 25.402583ms prompt eval count: 32 token(s) prompt eval duration: 199ms prompt eval rate: 160.80 tokens/s eval count: 717 token(s) eval duration: 17.552s eval rate: 40.85 tokens/s |
MacBook Pro M1 Max:
1 2 3 4 5 6 7 8 |
total duration: 13.3542385s load duration: 29.868542ms prompt eval count: 32 token(s) prompt eval duration: 882ms prompt eval rate: 36.28 tokens/s eval count: 936 token(s) eval duration: 12.441s eval rate: 75.24 tokens/s |
Erstaunlicherweise ist der alte M1 Max mit >75 Token pro Sekunde fast doppelt so schnell wie der M4, was den 32 GPU-Kernen und 400 GB/s RAM-Speed geschuldet ist. Der M4 kann hier lediglich 10 GPU Kerne und 120 GB/s dagegen halten. Die Ausgabe mit knapp 41 Token pro Sekunde ist jedoch flüssig und somit OK.
Qwen2.5-Coder:7b (9 GB)
MacMini M4:
1 2 3 4 5 6 7 8 |
total duration: 43.016241625s load duration: 22.598166ms prompt eval count: 36 token(s) prompt eval duration: 375ms prompt eval rate: 96.00 tokens/s eval count: 875 token(s) eval duration: 42.456s eval rate: 20.61 tokens/s |
MacBook Pro M1 Max:
1 2 3 4 5 6 7 8 |
total duration: 19.472867541s load duration: 25.387916ms prompt eval count: 36 token(s) prompt eval duration: 1.803s prompt eval rate: 19.97 tokens/s eval count: 772 token(s) eval duration: 17.434s eval rate: 44.28 tokens/s |
Mit dem Größeren LLM vergrößert sich auch der Abstand unseren beiden Teilnehmern: Der M1 Max ist nun mehr als doppelt so schnell wie der M4. Mit knapp 21 Token pro Sekunde ist der M4 in dieser Kategorie als KI-Maschine immer noch brauchbar.
Qwen2.5-Coder:32b (20 GB)
MacMini M4:
1 2 3 4 5 6 7 8 |
total duration: 4m47.733996s load duration: 23.813958ms prompt eval count: 36 token(s) prompt eval duration: 24.238s prompt eval rate: 1.49 tokens/s eval count: 1093 token(s) eval duration: 4m23.304s eval rate: 4.15 tokens/s |
MacBook Pro M1 Max:
1 2 3 4 5 6 7 8 |
total duration: 50.514663125s load duration: 38.55475ms prompt eval count: 36 token(s) prompt eval duration: 550ms prompt eval rate: 65.45 tokens/s eval count: 623 token(s) eval duration: 49.923s eval rate: 12.48 tokens/s |
Während der M1 Max hier mit knapp 13 Token pro Sekunde noch ein akzeptables Ergebnis liefert, ist der M4 mit 4 Token pro Sekunde deutlich zu langsam.
Apple M4 vs M1 Max: Das Fazit
Wer eine vergleichsweise günstige KI-Maschine für LLMs bis ca. 7 Billionen Parameter sucht, ist mit dem MacMini M4 in der Grundausstattung gut beraten. Bietet sich dagegen die Chance einen gebrauchten M1 Max oder höher zu bekommen, sollte man zuschlagen.
Als Faustregel gilt: Je mehr GPU Cores und je höher die RAM-Bandbreite, desto schneller kann das Large Language Model verarbeitet werden. Hier macht sich der Aufpreis der Pro-, Max- und Ultra-Variante der M-Prozessoren bezahlt.
Was ist mit dem MacMini M4 Pro und dem M4 Max?
Der MacMini mit M4 Pro CPU kommt mit 12 CPU Cores, 16 GPU Cores, 16 Core Neural Engine und 273 GB/s RAM Bandwidth.
Die im Vergleich zum Standard M4 verdoppelte RAM Bandbreite und die 6 zusätzlichen GPU Cores schaffen lediglich ca. 80% der Leistung des M1 Max.
Der M4 Max des MacBookPro 2024 mit 410 GB/s RAM Bandbreite und 40 GPU Cores hingegen schafft ca. 25% mehr Leistung als der M1 Max.
Quelle: https://github.com/ggerganov/llama.cpp/discussions/4167