Künstliche Intelligenz 3 Min. Lesezeit

Headroom: Open-Source-Proxy schneidet LLM-Rechnungen um bis zu 90 Prozent

Ein Netflix-Ingenieur hat einen Open-Source-Proxy veröffentlicht, der redundante Tokens in LLM-Anfragen herausfiltert — nach Angaben des Entwicklers wurden kollektiv bereits rund 700.000 Dollar eingespart.

Farblich hervorgehobener Programmiercode auf einem Monitor, symbolisch für KI-Token-Komprimierung

Eine 287-Dollar-Rechnung für Claude-Sonnet-Anfragen brachte Tejas Chopra ins Grübeln. Der Senior Engineer bei Netflix analysierte seine Agentic-Workflows und stieß auf einen unerwarteten Befund: Neun von zehn Token im Kontext stammen gar nicht vom Nutzer — sondern von aufgeblähten API-Antworten, vollständigen JSON-Schemas mit weitgehend irrelevanten Feldern und Datenbankabfragen, die Spaltennamen in jeder Zeile mitschleppen. Seine Antwort: ein lokaler Proxy namens Headroom, der diesen Overhead herausfiltert, bevor die Anfragen das Modell überhaupt erreichen. Seit Januar ist das Tool open source — inzwischen über 2.000 GitHub-Stars, Apache-2.0-Lizenz.

Was hinter den Abrechnungsspitzen steckt

Der Token-Overhead kommt selten vom eigentlichen Nutzer-Input. MCP-Server-Outputs kommen mit rund 70 Prozent JSON-Redundanz an; Server-Logs schleppen bis zu 90 Prozent inhaltlich bedeutungslose Wiederholungen mit; Datenbankabfragen liefern Spaltennamen in jeder einzelnen Zeile mit. Bei Agentic-Workflows mit dutzenden Tool-Calls pro Anfrage multipliziert sich das schnell. Chopras Formulierung: Es handele sich um „komprimierbare Information, die sich als Text verkleidet“ — strukturierte Daten mit bekannten Redundanzmustern, keine Prosa.

Bei Entwicklern, mit denen ich zusammenarbeite, kommen dreistellige Monatsrechnungen in Dollar bei direkter API-Nutzung schneller an, als es der erste Prototyp erwarten lässt — ohne das natürliche Limits-Korsett, das Flat-Rate-Produkte wie GitHub Copilot bieten.

Wie der Proxy vorgeht

Headroom läuft lokal als Python- oder Node-Dienst auf Port 8787 und schaltet sich als Zwischenschicht vor jeden LLM-Aufruf. Ein CacheAligner schickt nur das Delta gegenüber der vorherigen Anfrage weiter — keine Cache-Misses durch minimale Metadaten-Änderungen. Content Router leiten unterschiedliche Datentypen an Spezial-Kompressoren: AST-Parser für Code, JSON/DOM-Handler für strukturierte Formate. Ein statistischer Squasher bewertet Textstücke per Feedback-Schleife auf Relevanz. Das komprimierte Material geht raus; das Original bleibt lokal gespeichert (Redis oder SQLite), damit das Modell bei Bedarf nachfragen kann.

Das Ergebnis: 60–95 Prozent weniger Token je nach Eingabe-Typ. Nach Chopras Angaben auf dem Open Source Summit haben Headroom-Nutzer kollektiv rund 700.000 Dollar eingespart — bei 200 Milliarden verarbeiteten Token. Die Zahl stammt aus seiner eigenen Präsentation; eine unabhängige Bestätigung steht aus. Unterstützt werden Claude, OpenAI, Gemini, Amazon Bedrock, Codex und Cursor, auch über OpenAI-kompatible Endpunkte. Als Nebeneffekt verbessert sich nach bisherigen Beobachtungen die Antwortqualität: Modelle neigen bei sehr langen Kontexten zu unzuverlässigeren Outputs — weniger Input kann also präzisere Antworten bedeuten.

Apache 2.0, 151 Releases — und was v0.22 bedeutet

Das Projekt ist auf GitHub verfügbar (Apache 2.0), installierbar per pip oder npm, Docker-Image inklusive. 1.376 Commits und 151 Releases zeigen aktive Entwicklung. v0.22 ist trotzdem kein Reifezeugnis für beliebige Produktionsumgebungen: 67 offene Issues, fehlende Kompressoren für Finanzdaten, Genauigkeitstests für neue Eingabe-Typen, die noch laufen. Wer Headroom in kritische Pipelines einbauen will, liest die Evals-Dokumentation zuerst. Für lokale Entwickler-Setups und Prototypen ist die Hürde dagegen niedrig.

Das Timing trifft auf einen Nerv: Die Debatten um Token-basierte Abrechnung bei GitHub Copilot und Amazons Tokenmaxxing-Diskussion haben das Thema in den letzten Wochen breit sichtbar gemacht. Ein Tool, das von der Eingangsseite ansetzt — weniger Token schicken statt Obergrenzen setzen —, ist technisch die sauberere Antwort. Ob Headroom auf diesem Fundament in den breiten Einsatz wächst, hängt davon ab, wie schnell die offenen Qualitäts-Lücken geschlossen werden.

Ein verwandtes Projekt namens Headlight soll künftig Token-Kosten in Multi-Agent-Setups je Modell nachverfolgbar machen — das Monitoring-Pendant zur Komprimierung.

◆ Über den Autor

Alexander Baumgärtner

Seit über 20 Jahren in der IT — mit allem, was dazugehört: abgestürzten Servern um zwei Uhr nachts, Migrationen, die laut Plan eine Stunde dauern sollten, und Kunden, die "schnell mal" eine neue Software brauchen. Hauptberuflich führe ich die ProMedia24, eine kleine IT-Firma in Wallenhorst bei Osnabrück. Auf Blogspan.net schreibe ich über IT-Themen, die mich interessieren oder wo ich glaube, dass jemand genauer hinschauen sollte: Server, Cloud, Sicherheit, KI, Hardware, gelegentlich auch Foto-Equipment oder Smarthome — wenn es technisch genug ist, landet es hier.Schreibstil: lieber konkret als geschwurbelt, gerne auch mal kritisch.