Jede Modell-Anfrage durch einen Kontrollpunkt, der Ihnen gehört.
TL;DR. Das LLM Gateway sitzt vor jedem Modell, das Ihre Agenten und Mitarbeiter nutzen. Es routet nach Intent, erzwingt DLP und Policy in Code, deckelt Budgets, bewertet Qualität per Reinforcement Learning und protokolliert jeden Token. Multi-LLM, BYO-Key, EU-souverän oder vollständig On-Prem.
Worum es geht
Sobald KI in eine Organisation einzieht, folgt eine Frage: Welches Modell hat was gesehen, unter welchem Schlüssel, zu welchen Kosten — und können Sie es nachweisen? Ohne Kontrollpunkt lautet die Antwort „wir wissen es nicht" — und das ist in einem regulierten Geschäft inakzeptabel. Das LLM Gateway ist dieser Kontrollpunkt. Jede Anfrage von jedem Agenten, Copiloten oder System läuft hindurch, reguliert durch Policy, die Sie lesen und auditieren können.
So betreiben wir das
Das Gateway läuft in Ihrer EU-Cloud oder On-Prem. Clients verbinden sich mit einem Bearer-Token; das Gateway entscheidet, welches Modell die Anfrage übernimmt (nach Intent, Kosten, Verfügbarkeit), wendet DLP und Policy in Code an, erzwingt Budgets pro Mandant und Squad und fällt im Fehlerfall auf andere Modelle zurück. Reinforcement-Learning-Scoring verfolgt die Output-Qualität, sodass sich das Routing über die Zeit verbessert. Schlüssel werden zentral verwaltet — keiner verstreut in Repos oder Workflows. Und jeder Prompt, jede Antwort, jeder Tool-Call und jede Modellwahl wird auditierbar protokolliert.
Wann es passt
Jede Organisation, die KI produktiv betreibt und Governance braucht: welches Modell, welche Daten, welche Kosten — beweisbar. Finanzdienstleister, Gesundheitswesen, öffentlicher Sektor und KRITIS-Betreiber, in denen „wir wissen nicht, welches Modell das erzeugt hat" keine Antwort ist. Teams mit mehreren Agenten und Copiloten, die eine gemeinsame Policy-Ebene über alles brauchen.
Was wir nicht tun
Wir sitzen nicht als bezahlter Router zwischen Ihnen und Ihrem Modell-Anbieter — BYO-Key ist Standard, Sie zahlen den Anbieter direkt. Wir speichern Ihre Prompts nicht über das Audit-Log hinaus, das Sie kontrollieren. Wir koppeln die Modellwahl nicht an einen Anbieter — das Gateway abstrahiert sie.
Ihre KI-Regeln, versioniert und differenzierbar.
DLP, Budgets, Modell-Whitelists, Rollen-Gates — alles in Code ausgedrückt, nicht in einer Konsole. Eine Quelle der Wahrheit, auditierbar, und die Regel reist mit der Anfrage.
-
DLP an der Grenze
PII, Geheimnisse und regulierte Daten blockieren, bevor sie überhaupt ein Modell erreichen.
-
Budget-Caps
Pro Mandant, pro Squad, pro Tag. Überschreitung routet auf einen günstigeren Fallback — keine Überraschungsrechnung.
-
Modell-Whitelist
Entscheiden Sie, welche Modelle für welche Workloads erlaubt sind. Anbieterwechsel per Config.
-
Rollen-Gates
Manche Anfragen verlangen eine Rolle (z.B. DSB-Freigabe für PII). Erzwungen, protokolliert, beweisbar.
# LLM-Gateway-Policy (Starlark)
def on_request(req):
if req.contains_pii() and not req.user.has_role("dpo"):
return deny("PII without DPO approval")
if req.tokens > budget.daily_remaining(req.tenant):
return route("fallback-model")
if req.model not in policy.whitelist(req.tenant):
return deny("model not permitted for tenant")
return allow()Was Sie übernehmen können
-
Gateway-Deployment
In Ihrer EU-Cloud oder On-Prem. Clients verbinden sich per Bearer-Token; keine Schlüssel in Repos.
-
Policy als Code
DLP, Budgets, Modell-Whitelist und Rollen-Gates in Starlark — differenzierbar und auditierbar.
-
Multi-LLM-Routing & Fallback
Intent-basiertes Routing über Anthropic, OpenAI, Mistral und lokal gehostete Modelle, mit Fallback-Ketten.
-
RL-Qualitäts-Scoring
Reinforcement-Learning-Scoring der Outputs, sodass sich das Routing verbessert und schwache Pfade auffallen.
-
Vollständiges Audit-Log
Jeder Prompt, jede Antwort, jeder Tool-Call und jede Modellwahl protokolliert — der Nachweis, den ein Auditor verlangt.
-
Klon-fähige Konfig
Gateway-Konfig und Policies als Code — Ihre Übernahme ab Tag 30.
Was mit einer Modell-Anfrage passiert.
Vom Client-Aufruf bis zur auditierten Antwort — jede Entscheidung, die das Gateway trifft, ist policy-getrieben und protokolliert.
Regulierte Anfrage
- Schritt 1 Client (Agent/Copilot) ruft das Gateway mit einem Bearer-Token auf.
- Schritt 2 DLP-Scan: PII, Geheimnisse und regulierte Daten werden gegen die Policy geprüft.
- Schritt 3 Budget-Check gegen das Tages-Restbudget des Mandanten/Squads; Überschreitung routet auf Fallback.
- Schritt 4 Modell ausgewählt nach Intent, Kosten und Verfügbarkeit aus der Whitelist des Mandanten.
- Schritt 5 Anfrage unter Ihrem Schlüssel gesendet (BYO-Key); Antwort durch die RL-Ebene bewertet.
- Schritt 6 Prompt, Antwort, Modellwahl und Policy-Entscheidungen ins Audit-Log geschrieben.
Fallback-Kette
- Schritt 1 Primäres Modell läuft in Timeout oder Fehler.
- Schritt 2 Gateway wiederholt am nächsten Modell der Fallback-Kette des Mandanten.
- Schritt 3 Degradation protokolliert; Qualitäts-Delta für das Routing-Modell festgehalten.
Produkt-Eckdaten
| Modelle | Anthropic, OpenAI, Mistral, lokal (Llama-Familie, GPT-OSS-Familie) |
|---|---|
| Schlüssel-Modell | BYO-Key Standard · Sie zahlen den Anbieter direkt |
| Policy | Starlark — DLP, Budgets, Whitelist, Rollen-Gates · differenzierbar |
| Routing | Intent-basiert + RL-Qualitäts-Scoring + Fallback-Ketten |
| Audit | Jeder Token, jede Antwort, jeder Tool-Call und jede Modellwahl protokolliert |
| Deployment | EU-Cloud, On-Premise oder Air-Gapped |
| Persistenz | Logs zum Audit; Prompts werden über Ihr Log hinaus nicht gespeichert |
| Klon-Übergabe | Konfig und Policies als Code, ab Tag 30 |
Vor dem Briefing oft gefragt
-
Sitzen Sie zwischen uns und dem Modell-Anbieter?
Nur als Policy und Audit. BYO-Key ist Standard — Ihre Anfrage geht zu Ihrem Anbieter unter Ihrem Schlüssel. Wir messen oder verkaufen keine Tokens weiter. -
Zu welchen Modellen kann es routen?
Anthropic, OpenAI, Mistral und lokal gehostete Modelle. Das Gateway abstrahiert sie, sodass Sie Anbieter per Config wechseln, nicht per Re-Integration. -
Wie wird DLP erzwungen?
In Policy-Code an der Grenze. PII, Geheimnisse und regulierte Daten werden geprüft, bevor eine Anfrage ein Modell erreicht; Verstöße werden abgewiesen und protokolliert. -
Was genau wird protokolliert?
Jeder Prompt, jede Antwort, jeder Tool-Call, jede Modellwahl und jede Policy-Entscheidung — der Audit-Datensatz, den Regulatoren verlangen. Sie kontrollieren die Aufbewahrung. -
Können wir es vollständig offline betreiben?
Ja. On-Prem- und Air-Gapped-Deployments laufen gegen lokal gehostete Modelle ohne externe Konnektivität. -
Können wir es in-house übernehmen?
Ja. Konfig und Policies sind Code; die Klon-Übergabe liefert Ihrem Team ab Tag 30 ein laufendes Gateway.
Ein Kontrollpunkt vor jedem Modell.
Wir setzen das Gateway gegen Ihren Stack auf, schreiben einen ersten Policy-Satz und zeigen das Audit-Log, das ein Auditor tatsächlich akzeptiert.