Das chinesische KI-Unternehmen MiniMax hat am 1. Juni 2026 sein Sprachmodell M3 veröffentlicht — drei Monate nach dem Vorgänger M2.7. Auf dem SWE-bench Pro, einem praxisnahen Benchmark für Software-Engineering, erreicht M3 laut Hersteller 59 Prozent, übertrifft damit GPT-5.5 und Gemini 3.1 Pro, liegt aber noch knapp hinter Claude Opus 4.7. Was M3 von anderen Modellen in dieser Klasse unterscheidet: Die Gewichte sollen innerhalb von zehn Tagen auf Hugging Face und GitHub frei verfügbar werden — eine Kombination, die es in dieser Leistungsklasse bisher nicht gab.
Auf einen Blick
- Veröffentlicht am 1. Juni 2026; Vorgänger M2.7 erschien drei Monate zuvor
- SWE-bench Pro: 59 % — über GPT-5.5 und Gemini 3.1 Pro, knapp unter Claude Opus 4.7 (Herstellerangabe)
- MiniMax Sparse Attention (MSA): 20× effizienter bei 1-Millionen-Token-Kontext
- API-Abo ab 20 US-Dollar/Monat für rund 1,7 Milliarden Tokens
- Modellgewichte auf Hugging Face und GitHub binnen 10 Tagen angekündigt
Wie MSA den 1-Millionen-Token-Kontext erst praktikabel macht
Das technische Kernstück von M3 ist ein neuer Aufmerksamkeitsmechanismus namens MiniMax Sparse Attention (MSA). Klassische Transformer müssen jeden Token mit jedem anderen im Kontext vergleichen — der Rechenaufwand wächst quadratisch mit der Kontextlänge, was ein Millionen-Token-Fenster zwar theoretisch möglich, aber praktisch unbrauchbar macht. MSA teilt den gespeicherten Kontext in Blöcke auf und filtert zunächst, welche davon relevant sind, bevor die vollständige Verarbeitung stattfindet.
Laut MiniMax sinkt der Rechenaufwand bei einer Million Tokens auf ein Zwanzigstel im Vergleich zum Vorgänger M2.7; Prompts sollen über neunmal schneller verarbeitet werden, Antworten über 15-mal schneller entstehen. Unabhängige Bestätigungen dieser Zahlen lagen zum Zeitpunkt der Ankündigung nicht vor.
Aus dem Arbeitsalltag mit KMU-Kunden kenne ich das Problem gut: Wer eine gewachsene PHP-Codebasis — 80.000 Zeilen, Dokumentation lückenhaft — vollständig in ein Modell laden will, um Migrationsschritte abzuleiten oder gezielt nach Fehlern zu suchen, stößt heute an klare Grenzen. Entweder der Kontext passt nicht rein, oder die Antwortqualität bricht bei starker Auslastung ein. Ein Millionen-Token-Fenster, das sich tatsächlich flott verarbeiten lässt, wäre hier ein praxisrelevanter Schritt. Ob MSAs Geschwindigkeits-Claims in realen Setups halten, zeigen erst unabhängige Tests.
59 Prozent auf SWE-bench — und wo M3 an Grenzen stößt
Beim BrowseComp-Benchmark, der autonomes Web-Recherchieren bewertet, kommt M3 laut Hersteller auf 83,5 Punkte — mehr als Opus 4.7 (79,3). Beim PostTrainBench, bei dem Modelle eigenständig andere Modelle trainieren, bleibt M3 hingegen hinter GPT-5.5 und Opus 4.7. Das ergibt ein differenziertes Bild: Stärken beim Coding und langen Kontexten, Schwächen in anderen Disziplinen. Praxistests durch unabhängige Reviewer stehen noch aus.
Bei den API-Kosten ist das Preissegment klarer: 20 US-Dollar pro Monat für rund 1,7 Milliarden Tokens, 120 US-Dollar für 9,8 Milliarden — das ergibt einen impliziten Preis von unter zwei Cent pro Million Tokens. Proprietäre Premium-Modelle in vergleichbarer Leistungsklasse werden per-Token zu weit höheren Preisen angeboten; direkt vergleichbar sind die Abrechnungsmodelle (Abo vs. Pay-as-you-go) nicht, aber wer viel Volumen verarbeitet, kommt mit dieser Struktur deutlich günstiger weg.
24 Stunden Kernel-Optimierung: Was die Herstellerdemos zeigen — und was nicht
MiniMax hat M3 in zwei Langzeit-Szenarien demonstriert. Im ersten Fall sollte das Modell einen Matrixmultiplikations-Kernel für Nvidias Hopper-GPUs optimieren — ausgehend von nicht-funktionierendem Code. Nach 24 Stunden und 147 Iterationen stieg die Hardware-Auslastung von 7,6 auf 71,3 Prozent. Erfahrene Teams brauchen für diese Aufgabe laut MiniMax ein bis zwei Wochen.
Im zweiten Test reproduzierte M3 ein Forschungspapier zum LLM-Finetuning eigenständig in 12 Stunden: 18 Code-Commits, 23 Abbildungen, Ergebnis-Score 0,650. Das sind Hersteller-Demos — sorgfältig ausgewählt und unter optimalen Bedingungen durchgeführt, keine reproduzierten Laborergebnisse. Was sie trotzdem zeigen: Autonomes Arbeiten über viele Stunden ist bei leistungsfähigen Modellen kein Sonderfall mehr. — Ob M3 diese Konsistenz in echten Produktionsumgebungen aufrechterhalten kann, ohne dass die weniger erfolgreichen Läufe herausgefiltert wurden, ist eine andere Frage.
M3 ist seit dem 1. Juni über die MiniMax-API zugänglich; ein optionaler Denk-Modus lässt sich je nach Anfrage aktivieren oder abschalten. Bis die Gewichte auf Hugging Face erscheinen, dürften noch einige Tage vergehen. Für die proprietären Anbieter entsteht damit ein neues Szenario: ein Open-Weight-Modell auf nahezu gleichem Coding-Niveau, aus China, und potenziell kostenlos zum Selbsthosten. Wie weit der Abstand in der Praxis noch trägt, hängt weniger von Benchmarks ab als davon, wie sich M3 in realen Projekten schlägt.



