Künstliche Intelligenz 3 Min. Lesezeit

Gemma 4 12B: Googles multimodales Lokalmodell schließt die Lücke zwischen 4B und 26B

Das neue Gemma 4 12B Unified kombiniert encoder-freie Multimodalität (Text, Bild, Audio) mit Apache-2.0-Lizenz und läuft im 4-Bit-Betrieb mit rund 8 GB RAM — das fehlende Mittelstück der Gemma-4-Familie.

Gemma 4 12B – Googles multimodales Open-Weight-Sprachmodell
Bild: Google DeepMind

Google hat die Gemma-4-Familie seit März 2026 schrittweise erweitert — mit dem gestern veröffentlichten 12B-Unified-Modell ist jetzt eine Lücke geschlossen, die von Anfang an auffiel: Die ersten vier Varianten (E2B, E4B, 26B MoE, 31B Dense) boten keine mittlere Option, die echte Multimodalität auf normaler Consumer-Hardware vereint. Das 12B macht das möglich — Apache-2.0-lizenziert und mit einem Speicherbedarf von rund 8 GB im 4-Bit-Betrieb.

Encoder-frei und schneller durch Multi-Token-Prediction

Der technische Kern: Gemma 4 12B ist encoder-frei aufgebaut. Anders als Modelle, die Text, Bild und Audio zunächst durch separate Encoder-Netze schleusen und dann zusammenführen, verarbeitet das 12B alle drei Modalitäten direkt im Backbone — Bild-Patches und Audio-Features werden als Token-Sequenzen eingespeist, bevor die Attention-Schichten greifen. Google spricht von „Early Fusion“. Ob das in der Praxis die versprochenen Vorteile bringt, werden unabhängige Tests zeigen müssen; die Messwerte stammen bisher vom Hersteller.

Wer schon mal ein 7B-Modell auf dem Heimserver betrieben hat und sich über das fehlende Bild-Verständnis geärgert hat, kennt die Lücke: entweder klein und blind oder groß und VRAM-hungrig. Das 12B adressiert genau das — wobei „8 GB reichen“ nur für 4-Bit-Quantisierung gilt; komfortabler läuft es ab 16 GB.

Hinzu kommt Multi-Token-Prediction (MTP): Das Modell sagt bei jedem Schritt mehrere Token parallel voraus statt eines einzelnen. Google gibt bis zu dreifachen Geschwindigkeitsvorteil gegenüber Standard-Autoregression an — ein Hersteller-Claim, den unabhängige Benchmarks bisher nicht bestätigen. Die Grundidee ist etabliert, die praktische Umsetzung variiert stark.

Apache 2.0, 256K Kontext und die Konkurrenz in der 12B-Klasse

Der Lizenzpunkt verdient Aufmerksamkeit: Gemma 4 12B steht unter Apache 2.0 — kein Hersteller-Nutzungsvertrag, kein Verbot kommerzieller Deployments. Das unterscheidet es von vielen anderen Open-Weight-Modellen, die zwar Gewichte freigeben, aber kommerzielle Nutzung an Auflagen knüpfen.

Relevante Konkurrenz in dieser Gewichtsklasse: Mistral Nemo 12B (128K-Kontext, stark für lange Dokumente, kein Audio-Eingang) und Qwen 2.5 14B (Coding-Stärken, ebenfalls kein Audio). Für reine Text-Tasks sind beide gut eingeführt; wer multimodale Eingaben ohne separate Pipeline braucht, hat in diesem RAM-Fenster bisher wenig Auswahl. Verfügbar ist das Modell über Hugging Face, ollama pull gemma4:12b, LM Studio und Kaggle; für On-Device-Tests auf Android bietet Google eine App über den AI Edge Gallery.

Die 256K-Kontext-Länge und Unterstützung für 140+ Sprachen klingen üppig — das 26B MoE hatte beides schon, und dort war die Praxistauglichkeit auf Consumer-Hardware begrenzt. Beim 12B sind die Voraussetzungen realistischer. Was noch fehlt, ist ein unabhängiger Benchmark, der die multimodale Qualität direkt mit LLaVA-basierten Ansätzen vergleicht. Den sollte man abwarten, bevor Produktionsworkflows darauf gebaut werden.

◆ Über den Autor

Alexander Baumgärtner

Seit über 20 Jahren in der IT — mit allem, was dazugehört: abgestürzten Servern um zwei Uhr nachts, Migrationen, die laut Plan eine Stunde dauern sollten, und Kunden, die "schnell mal" eine neue Software brauchen. Hauptberuflich führe ich die ProMedia24, eine kleine IT-Firma in Wallenhorst bei Osnabrück. Auf Blogspan.net schreibe ich über IT-Themen, die mich interessieren oder wo ich glaube, dass jemand genauer hinschauen sollte: Server, Cloud, Sicherheit, KI, Hardware, gelegentlich auch Foto-Equipment oder Smarthome — wenn es technisch genug ist, landet es hier. Schreibstil: lieber konkret als geschwurbelt, gerne auch mal kritisch.