Amazons internes Entwickler-Dashboard „Kirorank“ sollte die KI-Adoption im Konzern messen und fördern. Stattdessen löste es eine neue Sportdisziplin aus: Mitarbeiter setzten KI-Agenten auf irrelevante Aufgaben an, nur um ihren Token-Verbrauch — und damit ihr Ranking — in die Höhe zu treiben. Amazon hat das Dashboard inzwischen abgeschaltet. Die Geschichte dahinter ist ein klassisches Beispiel dafür, wie gut gemeinte Metriken schlechtes Verhalten belohnen.
Nutzung als Metrik — die Falle
Das Kirorank-Dashboard bewertete Entwickler danach, wie intensiv sie die konzerneigene KI-Entwicklerplattform „Kiro“ einsetzten. Token-Verbrauch als Proxy für Produktivität — auf den ersten Blick nachvollziehbar. Das Problem: Tokenverbrauch lässt sich erhöhen, ohne irgendeinen Mehrwert zu erzeugen. Mitarbeiter erkannten das und reagierten rational: KI-Agenten liefen auf Aufgaben, die niemand braucht, Tokens flossen, Ränge stiegen. Intern einigten sich Beobachter auf den Begriff „Tokenmaxxing“.
Senior Vice President Dave Treadwell musste die Belegschaft daran erinnern, KI nicht als Selbstzweck einzusetzen — eine Aussage, die bereits beschreibt, wie weit sich das Dashboard von seinem ursprünglichen Zweck entfernt hatte. Er räumte ein, das System sei „mit guten Absichten“ entwickelt worden. Die unerwünschten Kostenfolgen für Amazons Cloud-Infrastruktur waren real.
Amazon ist kein Sonderfall — ähnliche Muster zeigten sich auch bei Meta, als dort interne KI-Nutzungsmetriken eingeführt wurden.
Der Nachfolger — besser, aber kein Patentrezept
Amazons neues Messsystem setzt auf „normalisierte Deployments“: Statt Token-Verbrauch wird gemessen, wie viel KI-generierter Code tatsächlich in Produktion gelangt und dort Bestand hat. Das ist grundsätzlich sinnvoller als reine Aktivitätsmessung — produktiv deployeter Code lässt sich schwerer faken als ziellose Token-Generierung.
Beurteilbar aus externer Perspektive ist das neue System noch nicht. Was klar ist: Amazon hält an seinem eigentlichen Ziel fest — mehr als 80 Prozent der Entwickler sollen bis Ende 2026 KI wöchentlich produktiv einsetzen. Der Konzern investiert 2026 rund 200 Milliarden Dollar in KI-Infrastruktur. Bei diesem Volumen war Kirorank kein Pilot-Experiment, sondern ein Skalierungsversuch mit messbaren Nebenwirkungen.
Bei KMU-Kunden kenne ich das Muster in kleinerem Maßstab: Sobald jemand anfängt, die Anzahl der KI-Anfragen pro Woche zu zählen, werden Anfragen gestellt — nicht Probleme gelöst.
Der Wechsel von Token-Zählung zu Deployment-Qualität geht in die richtige Richtung. Mich überzeugt er trotzdem nur halb — denn das eigentliche Ziel, 80 Prozent Nutzungsquote, bleibt unverändert. Solange „Adoption hochdrehen“ ein KPI ist, entsteht früher oder später der nächste Kirorank. Vielleicht unter einem anderen Namen, mit einem anderen Zähler — aber mit derselben Logik.


