NVIDIA bricht mit Llama 4 Maverick den Geschwindigkeitsrekord für die Textgenerierung – 1038 Token pro Sekunde
Unternehmen NVIDIA stellt neuen Weltrekord für die Token-Verarbeitungsgeschwindigkeit pro Benutzer aufund erreichte 1038 Token pro Sekunde (TPS/Benutzer) im Meta Llama 4 Maverick-Modell. Laut den Analysten von Artificial Analysis wurde dieses Ergebnis auf einem DGX B200-Cluster mit acht GPU Blackwell-Architekturund übertraf den bisherigen Spitzenreiter SambaNova um 31 %.
Bis hierhin der Rekord gehörte SambaNova mit einem Ergebnis von 792 TPS/Benutzer, doch NVIDIA hat dank einer Reihe technischer Optimierungen alle Konkurrenten deutlich überflügelt. Insbesondere verwendete Llama 4 Maverick die TensorRT-Bibliothek und die spekulative Dekodierungstechnik Eagle-3, die es ermöglicht, Ausgabetoken im Voraus vorherzusagen. Nur diese beiden Technologien ermöglichten 4-fache Leistungsverbesserung gegenüber früheren Blackwell-Ergebnissen.
Das Leistungsdiagramm zeigt, dass NVIDIA und SambaNova dem Rest des Feldes weit voraus sind. Amazon (291 TPS) und Groq (276 TPS) folgten auf dem dritten und vierten Platz, während andere Unternehmen, darunter Google Vertex, Together.ai, Deepinfra, Novita und Azure, die 200-TPS-Marke nicht durchbrechen konnten. Plattformen Fireworks, Lambda Labs und Kluster.ai fiel ebenfalls zurück und wies weniger als 180 TPS/Benutzer auf.
Es ist erwähnenswert, dass sich der Indikator TPS/Benutzer (Token pro Sekunde pro Benutzer) speziell auf die Leistung konzentriert, wenn Einzelgenerierung statt Stapelverarbeitung, was besonders für Chatbots und Echtzeit-KI-Dienste wichtig ist. Je höher der TPS, desto schneller reagiert die KI auf Benutzeranfragen – ein Schlüsselfaktor im täglichen Betrieb solcher Modelle.
Neben der Geschwindigkeit hat NVIDIA die Genauigkeit der Ausgabe verbessert, indem FP8-Datenformat statt BF16, sowie die Mixture of Experts-Technik und Optimierungen auf der CUDA-Kernebene: räumliche Partitionierung und dynamisches Mischen von GEMM-Gewichten. All dies deutet darauf hin, dass NVIDIA baut Führungsposition im Bereich KI-Infrastruktur aus, insbesondere im LLM-Bereich.