NewsBlog eXXcellent solutions

Input- und Output-Tokens: Laufende Kosten Ihres LLMs

Geschrieben von Dr. Martina Burgetsmeier | 03. März 2025

Alle sind begeistert von ChatGPT & Co. Die kuriosesten, kreativen oder auch die einfachsten Fragen werden gestellt. Und wir nähern uns mehr oder weniger spielerisch an den täglichen Gebrauch eines LLMs an. Oft verwenden wir die direkten und kostenlosen Zugänge, weil unsere Anfragen keine sensiblen Inhalte haben, oder es uns egal ist.

Für Unternehmen, die Ihre Anfragen nicht mit der Welt teilen wollen, sieht die Lage anders aus.

Pro-Versionen sind kostenpflichtige Zugänge und sie haben Abrechnungsmodelle über Tokens. Ja genau - Tokens? So wollen wir die Kosten unserer Anfragen ausrechnen und ein Budget bereitstellen oder das Kostengünstigste für uns wählen. Aber natürlich ist es so einfach nicht (war es auch mit den Handytarifen nicht). Denn was ist ein Token? Es ist eine Einheit, die jeder Anbieter für sich selbst definiert. Ähnlich, aber unterschiedlich. Und dann auch noch der Unterschied zwischen Input & Output. Was? Ja genau - da spielt die Musik und wird Ihre Kostenplanung bei professioneller werdendem Gebrauch Ihrer Mitarbeitenden auch noch kräftig strapazieren. Also Augen auf & weiterlesen!


 

 

Was soll ich morgen zu Mittag essen? 

 

Today at 10:09 

Hier sind ein paar Ideen, je nachdem, worauf du Lust hast:

1. Leicht und gesund:
    - Ein bunter Salat mit gegrilltem Hähnchen oder Tofu, gemischt mit saisonalem Gemüse (z. B. Paprika, Gurke, Tomaten) und einem leichten Joghurtdressing.
    - Oder ein Quinoasalat mit Feta, Avocado, Kirschtomaten und frischen Kräutern.
2. Würzig und warm:
    - Ein aromatisches Thai-Gemüsecurry mit Kokosmilch, das du mit Reis servierst. Dabei kannst du nach Belieben Hähnchenstreifen oder Tofu hinzufügen.
    - Eine herzhafte Gemüsesuppe mit Linsen oder Kichererbsen, die auch gut zu einer Scheibe Vollkornbrot passt.
3. Schnell und deftig:
    - Ein Vollkorn-Sandwich mit Avocado, Putenbrust, Salat und Tomate – perfekt, falls es mal etwas schneller gehen soll.
    - Eine Portion Pasta mit einer leichten Tomaten-Basilikumsoße oder einem Pesto kann ebenso eine tolle Alternative sein.

Die Auswahl hängt natürlich davon ab, wie viel Zeit du zum Kochen hast und worauf du Appetit hast. Guten Appetit und viel Spaß beim Zubereiten!

 

Wissen Sie, was Sie diese Antwort gekostet hat?

 

Grundlagen:
Der Token und sein Einfluss auf die Kosten 

Um diese Frage beantworten zu können muss das Konzept eines Tokens klar sein. LLMs verarbeiten Text in Form von "Tokens". Im Durchschnitt entspricht ein Token etwa 4 Zeichen oder 0,75 Wörtern. Beispielsweise würde der Satz "KI revolutioniert die Wirtschaft" etwa 6 Tokens umfassen. Mit dieser Faustformel können Sie die Tokenanzahl abschätzen.
Bitte beachten Sie, dass dies eben eine Schätzung ist. Die genaue Anzahl kann je nach Text und verwendetem Tokenizer leicht variieren. Und nun muss man auch noch zwischen unterschiedlichen Kategorien von Tokens unterscheiden.

 

Die Kosten für die Nutzung eines LLM setzen sich aus der Art der Nutzung zusammen:

 

Input Tokens:

Der Text den man als Nutzer an das LLM schickt (hier: Was soll ich morgen zu Mittag essen?), aber auch "globale" Anweisungen (System Prompts) zählen hierzu.

Output Tokens:

Der "sichtbare" Anworttext des LLMs.

Reasoning Tokens:

Reasoning Modelle denken zuerst nach, bevor sie eine Antwort geben. Der Text der beim Nachdenken entsteht, fällt unter diese Kategorie.


Kostentechnisch zahlen Output- und Reasoning Tokens beide auf das Outputtoken-Konto ein, während Input-Tokens separat behandelt werden und signifikant günstiger sind.

Das obige Beispiel "Was soll ich morgen zu Mittag essen" hat folgende Werte:

  Wörter Zeichen Geschätzte Tokens

Input

7 38 14
Output 152 1018 202

 

Um ein einen tieferen Einblick in die Umwandlung von Text zu Tokens zu bekommen kann man auch kleine Tools, sogenannte "Tokenizer", verwenden:

openAI Tokenizer

Tiktokenizer

Claude-Tokenizer  


 Wichtig zu wissen:

Jede Fortsetzung eines Gesprächs erhöht die Anzahl der Input-Tokens, da der vorherige Kontext mitgesendet wird. Und richtig: das kostet Tokens.

 

Ein weiterer Punkt, insbesondere zur Fortsetzung eines Gesprächs:
Jedes Mal, wenn ein LLM eine Antwort erzeugt, muss es sich die komplette vorhergehende Konversation vollständig einverleiben. Also nicht nur neu laden, sondern neu verarbeiten. Und richtig: auch das kostet Tokens.

 

Die Konsequenz:

Man zahlt pro Antwort jeweils die Kosten für das komplette bisherige Gespräch + die neue Antwort. 

 

Aber: genau dafür haben Antrophic, OpenAI, usw das sogenannte Prompt Caching. Prompts ab 1024 Tokens Länge (OpenAI) werden automatisch gecacht. Gecacht bedeutet in einen kurzlebigen Speicher zwischengespeichert, sodass sie schneller wieder geladen werden können. Damit ein Cache-Hit eintritt, müssen bei Folgeanfragen mindestens die ersten 1024 Tokens identisch sein. Tritt dies ein sind die Kosten stark reduziert, z.B. 50% bei Texteingaben (OpenAI). Leider hält dieser Cache nur kurz, meist wenige Minuten bis maximal 1 Stunde im Fall von OpenAI.

 

Solange eine Konversation aktiv fortgeführt wird, ist sie kosteneffizienter, als wenn zwischen den Antworten jeweils eine Viertelstunde verstreicht.

Tipp

 

Daher ist eine präzise Kostenabschätztung schwierig und man ist eher auf Erfahrungswerte angewiesen. 

Da die LLM-Provider auch auf der Basis der Tokens abrechnen, wissen diese über deren Anzahl genau Bescheid und man bekommt in den HTTP-Antworten auch diese Metadaten mitgeliefert.
In Realität wurden in unserem Beispiel folgende Tokens berechnet:

Input Tokens: 15
Output Tokens: 307
Reasoning Tokens: 576

Die Reasoning-Tokens erscheinen hier, da es sich um eine Anfrage des OpenAI Reasoning-Modells o3-mini handelt. Bei Nicht-Reasoning-Modellen würde dieser Anteil komplett wegfallen.

 

Nun zur Anwort auf die Frage: was sind die Kosten?

Dazu verrechnet man die oben genannten Tokens lediglich mit den angegeben Kosten der Modelle und Provider:


1. o3-mini: ~$0.0039 (0.4 Cent)
2. gpt-4o: ~$0.0031 (0.3 Cent)
3. Claude 3.5-sonnet: ~$0.0046 (0.5 Cent)


Welche Erkenntnis ziehen wir daraus?

1. Reasoning Modelle liefern deutlich längere Antworten als normale LLMs. Da Output-Tokens auch teurer sind als Input-Tokens, können gerade bei kleineren Anfragen diese Modelle teurer sein als erwartet. Obwohl das reasoning Modell o3-mini deutlich günstigere Kosten pro Token-Wert hat als die anderen zwei Aufgeführten, sind die Kosten trotzdem ähnlich, wenn nicht sogar höher.

2. Die Menge machts! Unsere Beispielanfrage war natürlich sehr klein und realistischere Beispiele liegen vielleicht im 1-2-stelligen Cent-Bereich. Das klingt auch erstmal vernachlässigbar. Werden allerdings viele solcher Anfragen innerhalb eines Abrechungszeitraums gestellt, kann das sehr wohl zu einem Kostenfaktor werden. 

Bzgl die Menge machts: Falls Sie LLMs zur Autovervollständigung nutzen, werden so ebenfalls Anfragen an LLM-Provider geschickt und die gleiche Rechnung zählt. Da hier lediglich aktuell geschriebene Texte als Input verwendet werden und nur ein kleiner Textschnipsel als Anwort geliefert wird, sind die Kosten solch einer Anfrage gering. Aber die Menge machts! Wenn die Autovervollständigung oft angestossen wird, z.B. bei einer kurzen Pause beim Tippen, können sich diese Kosten auch bemerkbar machen.

Generell bieten LLM-Provider auch eine Übersicht an, was der aktuelle Verbrauch und die Kosten sind. Verwendet man jedoch mehrere unterschiedliche Provider gleichzeitig, kann das unübersichtlich und mühsam in der Verwaltung werden. Hier können Open-Source-Tools wie LiteLLM helfen, die Kosten im Blick zu behalten und aktiv zu managen.

Unser Fazit 

  • Das Verständnis der Token-basierten Preisstruktur von LLMs ist entscheidend für eine effektive Budgetplanung und Ressourcenallokation.
  • Bei der Auswahl eines Modells sollten Sie sorgfältig abwägen zwischen den benötigten Fähigkeiten und den damit verbundenen Kosten.
  • Durch geschickte Prompt-Optimierung und die Nutzung von Tools wie LiteLLM können Sie die Effizienz steigern und Kosten optimieren.

 

👍 Wir unterstützen Sie gerne mit einer umfassenden Analyse Ihrer individuellen Bedürfnisse und der Entwicklung einer maßgeschneiderten KI-Strategie.

 

Weitere Informationen:

Sie wollen Ihre Angestellten enablen sicher und effizient mit KI-Unterstützung zu arbeiten?

Schreiben Sie mir gerne eine E-Mail, ich beantworte Ihre Fragen:

martina.burgetsmeier@exxcellent.de

 

Oder informieren Sie sich auf unserer Webseite über unsere Kompetenzen im Bereich KI:

Ihr Unternehmen – Ihre KI-Lösung

Smarte KI-Lösungen