Skip to content

Kunde · DACH FinTech Scale-up

Bearbeitungszeit pro Rechnung um 78% reduziert — mit einem KI-Agenten und klarem Human-in-the-Loop

Ein deutsches FinTech verarbeitete monatlich rund 4.000 Lieferantenrechnungen manuell. In vier Wochen haben wir einen LLM-gestützten Triage-Agenten mit Extraktion, Validierung und einer aufgeräumten Prüf-UI gelauncht — Bearbeitungszeit von 14 auf 3 Minuten pro Dokument gesenkt, 180 Operator-Stunden pro Monat freigesetzt.

78%
Schneller pro Rechnung
180 h
Operator-Stunden / Monat
99,2%
Extraktions-Genauigkeit
4 Wochen
Von Kick-off bis Produktion
Leistungen KI-Automatisierung & Agenten LLM-Engineering Workflow-Integration
INBOX Klassifizieren 01 Extrahieren 02 Validieren 03 Zuordnen 04 ERP

Vier deterministische Schritte · ein Human-in-the-Loop · kein Lock-in

Die Ausgangslage

Das Accounts-Payable-Team verarbeitete rund 4.000 Lieferantenrechnungen pro Monat — PDFs, Scans, gelegentlich ein abfotografiertes Dokument. Pro Rechnung brauchten Operatoren 12–16 Minuten: herunterladen, neu erfassen, PO zuordnen, in die Freigabe schicken. Fehler schlichen sich ein. Neue Mitarbeitende brauchten Wochen, bis sie sicher in der Routine waren.

Im Vorjahr hatten sie einen OCR-Anbieter ausprobiert. Dessen Extraktion lag an einem guten Tag bei 82% Genauigkeit — also musste ein Mensch trotzdem jedes Feld nachprüfen. Statt Workflow war aus dem Tool noch ein weiterer offener Tab geworden.

Der Auftrag an uns war klar: “Baut uns etwas, das wirklich Stunden spart — nicht noch ein Dashboard.”

Unsere Roadmap

  1. 01
    Phase 01 Woche 1

    Discovery & Daten

    Drei Operatoren beim Arbeiten begleitet, 500 reale Rechnungen als Gold-Set gelabelt, zwei LLMs gegen den Status quo gebenchmarkt.

  2. 02
    Phase 02 Woche 2

    Agent & Extraktion

    Mehrstufigen Agenten gebaut: klassifizieren, extrahieren, validieren, PO zuordnen. Structured Outputs, JSON-Schema, deterministische Retries.

  3. 03
    Phase 03 Woche 3

    Prüf-UI mit Human-in-the-Loop

    Single-Pane-UI mit Inline-Korrekturen gelauncht. Ein Tastendruck bestätigt, Korrekturen landen automatisch im Evaluation-Set.

  4. 04
    Phase 04 Woche 4

    Härten & Go-Live

    Kosten-Caps, PII-Guardrails, DATEV-Export, On-Call-Runbook. Rollout ans gesamte Ops-Team an Tag 28.

Wie wir gebaut haben

Woche 1 — Discovery, die sich selbst bezahlt

Bevor wir den ersten Prompt geschrieben haben, haben wir drei AP-Operatoren jeweils einen Tag begleitet. Der eigentliche Flaschenhals war nicht die Extraktion — es waren die sechs kleinen Entscheidungen, die ein Mensch pro Rechnung traf (Duplikat? VAT-ID im Lieferantenstamm? Budget im PO noch verfügbar?). Diese Entscheidungen wurden zur Spezifikation für den Agenten, nicht umgekehrt.

500 repräsentative Rechnungen haben wir als Gold-Set gelabelt. Dieses Set blieb für jeden Benchmark danach die Wahrheitsquelle.

Woche 2 — Der Agent, bewusst langweilig gebaut

Vier deterministische Schritte statt ein Mega-Prompt:

  1. Klassifizieren — Rechnung, Gutschrift, Kontoauszug oder etwas anderes?
  2. Extrahieren — strukturiertes JSON gegen ein Zod-Schema (Kopf, Positionen, Summen, Umsatzsteuer).
  3. Validieren — Summen stimmen, VAT-IDs im EU-VIES-Register, Währung passt zum Lieferantenstamm.
  4. Zuordnen — Vorschlag für Bestellung und Kostenstelle mit Confidence-Score.

Jeder Schritt wird eigenständig evaluiert, retried und gecached. Das ist der langweilige Teil, der das System günstig macht und um 2 Uhr nachts debugbar.

Woche 3 — Eine Prüf-UI, die niemand gehasst hat

Links das PDF, rechts die extrahierten Felder, farblich nach Confidence. Grüne Felder nur kurz überfliegen. Orange kurz bestätigen. Rote sind fokussiert, bereit zur Korrektur. Alles ist tastaturgesteuert — Tab, Enter, fertig.

Jede Korrektur landet automatisch im gelabelten Evaluation-Set. Die Genauigkeit des Agenten steigt, ohne dass jemand einen Trainingslauf startet.

Woche 4 — Härten vor der Übergabe

  • Kosten-Caps pro Rechnung und pro Tag, hart durchgesetzt.
  • PII-Redaktion auf allem, was in Logs landet.
  • DATEV-Export im Format der Steuerkanzlei.
  • On-Call-Runbook, Grafana-Board, Slack-Alert, wenn der Agent zweimal hintereinander unsicher war.

Wir sind an einem Donnerstag live gegangen. Der Ops-Lead hat uns am Freitagabend geschrieben: “Zum ersten Mal seit zwei Jahren gehe ich pünktlich nach Hause.”

Die Architektur

Ein lesbarer Stack ist ein wartbarer Stack. Nichts Exotisches.

  • Ingestion: Microsoft-365-Konnektor + überwachtes Postfach → S3-kompatibler Bucket.
  • Agent-Runtime: TypeScript, Anthropic Claude Sonnet fürs Reasoning, Structured Outputs gegen Zod, strenge JSON-Validierung.
  • Orchestrierung: Temporal für Retries, Idempotenz und Human-in-the-Loop-Waits.
  • Validierung: EU VIES für USt-IDs, Lieferantenstamm als Read-only-Source-of-Truth.
  • Prüf-UI: Astro + HTMX auf Cloudflare, Deploy in unter einer Minute pro Change.
  • Export: DATEV-CSV direkt in die ERP-Importqueue des Kunden.
  • Observability: OpenTelemetry-Traces, Token-Spend-Dashboards, Eval-Regressionen als CI-Gate.

Kein Lock-in. Der Kunde besitzt Repo, Infrastruktur und Evaluation-Set ab Tag 1.

Die Ergebnisse

Vier Wochen nach Kick-off, gemessen über die folgenden 90 Tage:

  • Bearbeitungszeit von 14 auf 3 Minuten pro Rechnung gesunken.
  • 99,2% Feldgenauigkeit auf dem Gold-Set — Tendenz steigend durch Feedback-Loop.
  • 180 Operator-Stunden / Monat frei — eingesetzt für Lieferantenbeziehungen, die ein Jahr liegen geblieben waren.
  • Null Incidents in den ersten 90 Tagen. Der Agent hat bei 2,1% der Rechnungen bewusst zurückgehalten, Menschen haben reibungslos nachgeprüft.
  • EU-AI-Act-ready — als Limited Risk klassifiziert, dokumentiert, jede automatisierte Entscheidung nachvollziehbar.

Wie es weitergeht

Das gleiche Agenten-Muster wird jetzt auf Reisekostenabrechnungen und KYC im Kunden-Onboarding ausgerollt — 80% der Infrastruktur aus dem ersten Monat werden wiederverwendet. Das ist der Compounding-Effekt von Craft-first Engineering: der zweite Agent kostet einen Bruchteil des ersten.

Wenn Sie auf einen repetitiven Back-Office-Prozess schauen und unsicher sind, ob sich ein Agent lohnt — reden Sie mit uns. Wir sagen ehrlich, wenn es nicht passt, und wenn es passt, sind wir in Produktion, bevor die meisten Anbieter das zweite Meeting terminiert haben.

Zuletzt aktualisiert ·

Ihr Zug

Lassen Sie uns Ihre Software unausweichlich machen.

Sagen Sie uns, was Sie brauchen. Wir antworten innerhalb eines Arbeitstags — mit echter Meinung, nicht mit Verkaufspitch.