Google hat die Gemma-4-Familie seit März 2026 schrittweise erweitert — mit dem gestern veröffentlichten 12B-Unified-Modell ist jetzt eine Lücke geschlossen, die von Anfang an auffiel: Die ersten vier Varianten (E2B, E4B, 26B MoE, 31B Dense) boten keine mittlere Option, die echte Multimodalität auf normaler Consumer-Hardware vereint. Das 12B macht das möglich — Apache-2.0-lizenziert und mit einem Speicherbedarf von rund 8 GB im 4-Bit-Betrieb.
Encoder-frei und schneller durch Multi-Token-Prediction
Der technische Kern: Gemma 4 12B ist encoder-frei aufgebaut. Anders als Modelle, die Text, Bild und Audio zunächst durch separate Encoder-Netze schleusen und dann zusammenführen, verarbeitet das 12B alle drei Modalitäten direkt im Backbone — Bild-Patches und Audio-Features werden als Token-Sequenzen eingespeist, bevor die Attention-Schichten greifen. Google spricht von „Early Fusion“. Ob das in der Praxis die versprochenen Vorteile bringt, werden unabhängige Tests zeigen müssen; die Messwerte stammen bisher vom Hersteller.
Wer schon mal ein 7B-Modell auf dem Heimserver betrieben hat und sich über das fehlende Bild-Verständnis geärgert hat, kennt die Lücke: entweder klein und blind oder groß und VRAM-hungrig. Das 12B adressiert genau das — wobei „8 GB reichen“ nur für 4-Bit-Quantisierung gilt; komfortabler läuft es ab 16 GB.
Hinzu kommt Multi-Token-Prediction (MTP): Das Modell sagt bei jedem Schritt mehrere Token parallel voraus statt eines einzelnen. Google gibt bis zu dreifachen Geschwindigkeitsvorteil gegenüber Standard-Autoregression an — ein Hersteller-Claim, den unabhängige Benchmarks bisher nicht bestätigen. Die Grundidee ist etabliert, die praktische Umsetzung variiert stark.
Apache 2.0, 256K Kontext und die Konkurrenz in der 12B-Klasse
Der Lizenzpunkt verdient Aufmerksamkeit: Gemma 4 12B steht unter Apache 2.0 — kein Hersteller-Nutzungsvertrag, kein Verbot kommerzieller Deployments. Das unterscheidet es von vielen anderen Open-Weight-Modellen, die zwar Gewichte freigeben, aber kommerzielle Nutzung an Auflagen knüpfen.
Relevante Konkurrenz in dieser Gewichtsklasse: Mistral Nemo 12B (128K-Kontext, stark für lange Dokumente, kein Audio-Eingang) und Qwen 2.5 14B (Coding-Stärken, ebenfalls kein Audio). Für reine Text-Tasks sind beide gut eingeführt; wer multimodale Eingaben ohne separate Pipeline braucht, hat in diesem RAM-Fenster bisher wenig Auswahl. Verfügbar ist das Modell über Hugging Face, ollama pull gemma4:12b, LM Studio und Kaggle; für On-Device-Tests auf Android bietet Google eine App über den AI Edge Gallery.
Die 256K-Kontext-Länge und Unterstützung für 140+ Sprachen klingen üppig — das 26B MoE hatte beides schon, und dort war die Praxistauglichkeit auf Consumer-Hardware begrenzt. Beim 12B sind die Voraussetzungen realistischer. Was noch fehlt, ist ein unabhängiger Benchmark, der die multimodale Qualität direkt mit LLaVA-basierten Ansätzen vergleicht. Den sollte man abwarten, bevor Produktionsworkflows darauf gebaut werden.

