Nvidia verdient Milliarden damit, die Hardware zu liefern, auf der alle anderen ihre KI-Modelle trainieren und betreiben. Mit Nemotron 3 Ultra wechselt der Konzern die Perspektive: Ab dem 4. Juni steht das Sprachmodell auf Hugging Face und OpenRouter bereit — rund 550 Milliarden Parameter insgesamt, davon etwa 55 Milliarden gleichzeitig aktiv.
Vom Chip-Lieferanten zum Vollstack-Anbieter
Nvidia baut seit Jahren an einer vollständigen KI-Infrastruktur: erst CUDA-Plattform, dann Trainings- und Inference-Frameworks, jetzt eigene Modelle. Der Schritt hat eine innere Logik — wer die GPU baut, kann den Inference-Stack am besten darauf abstimmen. Das schlägt sich in konkreten Messwerten nieder: Bei DeepInfra liefert Nemotron 3 Ultra laut The Decoder über 300 Tokens pro Sekunde, während vergleichbare DeepSeek- und Moonshot-Modelle dort auf 50 bis 100 kommen.
Ich teste für Kunden seit Monaten Open-Source-Sprachmodelle für interne Assistenz-Anwendungen — meist KMU, die keinen SaaS-Vertrag mit OpenAI abschließen wollen. Der Punkt, an dem Benchmark-Diskussionen enden und die Frage wird „läuft das flüssig genug, damit die Leute es wirklich benutzen?“, kommt schneller als gedacht. 300 Tokens pro Sekunde ist meistens eine akzeptable Antwort auf genau diese Frage.
Platz 1 in den USA — hinter China
Laut der Benchmark-Plattform Artificial Analysis erreicht Nemotron 3 Ultra 48 Punkte im Intelligenz-Ranking und ist damit das stärkste offene Sprachmodell aus US-amerikanischer Herstellung. Kimi K2.6 und MiMo-V2.5-Pro, beide aus China, stehen bei je 54 Punkten; DeepSeek V4 Pro liegt bei 50 bis 52. Googles Gemma 4 31B kommt auf 39, OpenAIs gpt-oss-120b auf 33. Das geschlossene Claude Opus 4.8 liegt mit 61 Punkten nochmals deutlich darüber.
„Stärkstes US-Modell“ klingt nach Goldmedaille — gemeint ist Platz 1 in einer Kategorie, die chinesische Modelle aktuell klar anführen. Sechs Punkte hinter Kimi K2.6 ist auf dieser Skala kein Pappenstiel: Nach unten zu OpenAIs gpt-oss-120b (33 Punkte) sind es 15 — das illustriert die Spreizung.
Für die Praxis hängt die Bewertung vom Einsatzzweck ab. Coding, Reasoning, Kontextverarbeitung — Nvidia kommuniziert konkrete Benchmark-Werte, unabhängige Tests stehen zum Release-Datum noch aus. Die Architektur lässt sich aus den Zahlen grob ableiten: 550 Milliarden Gesamtparameter bei 55 Milliarden aktiven sprechen für eine MoE-Struktur, die Compute-Kosten im Betrieb senkt. Details zur Lizenz hat Nvidia noch nicht kommuniziert.
Ob Nvidia langfristig ins API-Geschäft einsteigt — also echte Konkurrenz für Anthropic und OpenAI wird — oder ob die Modelle vor allem dazu dienen, die eigene Hardware attraktiver zu machen, ist noch nicht entschieden. Beides schließt sich nicht aus. Ab dem 4. Juni auf Hugging Face und OpenRouter lässt sich jedenfalls der technische Teil überprüfen.



