Künstliche Intelligenz 4 Min. Lesezeit

MiniMax M3: Open-Weight-Modell überholt GPT-5.5 beim Coding — Gewichte sollen bald frei erscheinen

MiniMax hat M3 vorgestellt: Das erste Open-Weight-Modell, das auf SWE-bench Pro GPT-5.5 beim Coding schlägt, kombiniert 1-Millionen-Token-Kontext mit nativem Multimodal — die Modellgewichte sollen binnen zehn Tagen auf Hugging Face erscheinen.

MiniMax M3 Modell-Branding: Coding & Agentic Frontier – erstes Open-Weight-Modell mit 1-Millionen-Token-Kontext
Bild: MiniMax

Das chinesische KI-Unternehmen MiniMax hat am 1. Juni 2026 sein Sprachmodell M3 veröffentlicht — drei Monate nach dem Vorgänger M2.7. Auf dem SWE-bench Pro, einem praxisnahen Benchmark für Software-Engineering, erreicht M3 laut Hersteller 59 Prozent, übertrifft damit GPT-5.5 und Gemini 3.1 Pro, liegt aber noch knapp hinter Claude Opus 4.7. Was M3 von anderen Modellen in dieser Klasse unterscheidet: Die Gewichte sollen innerhalb von zehn Tagen auf Hugging Face und GitHub frei verfügbar werden — eine Kombination, die es in dieser Leistungsklasse bisher nicht gab.

Auf einen Blick

  • Veröffentlicht am 1. Juni 2026; Vorgänger M2.7 erschien drei Monate zuvor
  • SWE-bench Pro: 59 % — über GPT-5.5 und Gemini 3.1 Pro, knapp unter Claude Opus 4.7 (Herstellerangabe)
  • MiniMax Sparse Attention (MSA): 20× effizienter bei 1-Millionen-Token-Kontext
  • API-Abo ab 20 US-Dollar/Monat für rund 1,7 Milliarden Tokens
  • Modellgewichte auf Hugging Face und GitHub binnen 10 Tagen angekündigt

Wie MSA den 1-Millionen-Token-Kontext erst praktikabel macht

Das technische Kernstück von M3 ist ein neuer Aufmerksamkeitsmechanismus namens MiniMax Sparse Attention (MSA). Klassische Transformer müssen jeden Token mit jedem anderen im Kontext vergleichen — der Rechenaufwand wächst quadratisch mit der Kontextlänge, was ein Millionen-Token-Fenster zwar theoretisch möglich, aber praktisch unbrauchbar macht. MSA teilt den gespeicherten Kontext in Blöcke auf und filtert zunächst, welche davon relevant sind, bevor die vollständige Verarbeitung stattfindet.

Laut MiniMax sinkt der Rechenaufwand bei einer Million Tokens auf ein Zwanzigstel im Vergleich zum Vorgänger M2.7; Prompts sollen über neunmal schneller verarbeitet werden, Antworten über 15-mal schneller entstehen. Unabhängige Bestätigungen dieser Zahlen lagen zum Zeitpunkt der Ankündigung nicht vor.

Aus dem Arbeitsalltag mit KMU-Kunden kenne ich das Problem gut: Wer eine gewachsene PHP-Codebasis — 80.000 Zeilen, Dokumentation lückenhaft — vollständig in ein Modell laden will, um Migrationsschritte abzuleiten oder gezielt nach Fehlern zu suchen, stößt heute an klare Grenzen. Entweder der Kontext passt nicht rein, oder die Antwortqualität bricht bei starker Auslastung ein. Ein Millionen-Token-Fenster, das sich tatsächlich flott verarbeiten lässt, wäre hier ein praxisrelevanter Schritt. Ob MSAs Geschwindigkeits-Claims in realen Setups halten, zeigen erst unabhängige Tests.

59 Prozent auf SWE-bench — und wo M3 an Grenzen stößt

Beim BrowseComp-Benchmark, der autonomes Web-Recherchieren bewertet, kommt M3 laut Hersteller auf 83,5 Punkte — mehr als Opus 4.7 (79,3). Beim PostTrainBench, bei dem Modelle eigenständig andere Modelle trainieren, bleibt M3 hingegen hinter GPT-5.5 und Opus 4.7. Das ergibt ein differenziertes Bild: Stärken beim Coding und langen Kontexten, Schwächen in anderen Disziplinen. Praxistests durch unabhängige Reviewer stehen noch aus.

Bei den API-Kosten ist das Preissegment klarer: 20 US-Dollar pro Monat für rund 1,7 Milliarden Tokens, 120 US-Dollar für 9,8 Milliarden — das ergibt einen impliziten Preis von unter zwei Cent pro Million Tokens. Proprietäre Premium-Modelle in vergleichbarer Leistungsklasse werden per-Token zu weit höheren Preisen angeboten; direkt vergleichbar sind die Abrechnungsmodelle (Abo vs. Pay-as-you-go) nicht, aber wer viel Volumen verarbeitet, kommt mit dieser Struktur deutlich günstiger weg.

24 Stunden Kernel-Optimierung: Was die Herstellerdemos zeigen — und was nicht

MiniMax hat M3 in zwei Langzeit-Szenarien demonstriert. Im ersten Fall sollte das Modell einen Matrixmultiplikations-Kernel für Nvidias Hopper-GPUs optimieren — ausgehend von nicht-funktionierendem Code. Nach 24 Stunden und 147 Iterationen stieg die Hardware-Auslastung von 7,6 auf 71,3 Prozent. Erfahrene Teams brauchen für diese Aufgabe laut MiniMax ein bis zwei Wochen.

Im zweiten Test reproduzierte M3 ein Forschungspapier zum LLM-Finetuning eigenständig in 12 Stunden: 18 Code-Commits, 23 Abbildungen, Ergebnis-Score 0,650. Das sind Hersteller-Demos — sorgfältig ausgewählt und unter optimalen Bedingungen durchgeführt, keine reproduzierten Laborergebnisse. Was sie trotzdem zeigen: Autonomes Arbeiten über viele Stunden ist bei leistungsfähigen Modellen kein Sonderfall mehr. — Ob M3 diese Konsistenz in echten Produktionsumgebungen aufrechterhalten kann, ohne dass die weniger erfolgreichen Läufe herausgefiltert wurden, ist eine andere Frage.

M3 ist seit dem 1. Juni über die MiniMax-API zugänglich; ein optionaler Denk-Modus lässt sich je nach Anfrage aktivieren oder abschalten. Bis die Gewichte auf Hugging Face erscheinen, dürften noch einige Tage vergehen. Für die proprietären Anbieter entsteht damit ein neues Szenario: ein Open-Weight-Modell auf nahezu gleichem Coding-Niveau, aus China, und potenziell kostenlos zum Selbsthosten. Wie weit der Abstand in der Praxis noch trägt, hängt weniger von Benchmarks ab als davon, wie sich M3 in realen Projekten schlägt.

◆ Über den Autor

Alexander Baumgärtner

Seit über 20 Jahren in der IT — mit allem, was dazugehört: abgestürzten Servern um zwei Uhr nachts, Migrationen, die laut Plan eine Stunde dauern sollten, und Kunden, die "schnell mal" eine neue Software brauchen. Hauptberuflich führe ich die ProMedia24, eine kleine IT-Firma in Wallenhorst bei Osnabrück. Auf Blogspan.net schreibe ich über IT-Themen, die mich interessieren oder wo ich glaube, dass jemand genauer hinschauen sollte: Server, Cloud, Sicherheit, KI, Hardware, gelegentlich auch Foto-Equipment oder Smarthome — wenn es technisch genug ist, landet es hier.Schreibstil: lieber konkret als geschwurbelt, gerne auch mal kritisch.