Vier deterministische Schritte · ein Human-in-the-Loop · kein Lock-in
Die Ausgangslage
Das Accounts-Payable-Team verarbeitete rund 4.000 Lieferantenrechnungen pro Monat — PDFs, Scans, gelegentlich ein abfotografiertes Dokument. Pro Rechnung brauchten Operatoren 12–16 Minuten: herunterladen, neu erfassen, PO zuordnen, in die Freigabe schicken. Fehler schlichen sich ein. Neue Mitarbeitende brauchten Wochen, bis sie sicher in der Routine waren.
Im Vorjahr hatten sie einen OCR-Anbieter ausprobiert. Dessen Extraktion lag an einem guten Tag bei 82% Genauigkeit — also musste ein Mensch trotzdem jedes Feld nachprüfen. Statt Workflow war aus dem Tool noch ein weiterer offener Tab geworden.
Der Auftrag an uns war klar: “Baut uns etwas, das wirklich Stunden spart — nicht noch ein Dashboard.”
Unsere Roadmap
-
01Phase 01 Woche 1
Discovery & Daten
Drei Operatoren beim Arbeiten begleitet, 500 reale Rechnungen als Gold-Set gelabelt, zwei LLMs gegen den Status quo gebenchmarkt.
-
02Phase 02 Woche 2
Agent & Extraktion
Mehrstufigen Agenten gebaut: klassifizieren, extrahieren, validieren, PO zuordnen. Structured Outputs, JSON-Schema, deterministische Retries.
-
03Phase 03 Woche 3
Prüf-UI mit Human-in-the-Loop
Single-Pane-UI mit Inline-Korrekturen gelauncht. Ein Tastendruck bestätigt, Korrekturen landen automatisch im Evaluation-Set.
-
04Phase 04 Woche 4
Härten & Go-Live
Kosten-Caps, PII-Guardrails, DATEV-Export, On-Call-Runbook. Rollout ans gesamte Ops-Team an Tag 28.
Wie wir gebaut haben
Woche 1 — Discovery, die sich selbst bezahlt
Bevor wir den ersten Prompt geschrieben haben, haben wir drei AP-Operatoren jeweils einen Tag begleitet. Der eigentliche Flaschenhals war nicht die Extraktion — es waren die sechs kleinen Entscheidungen, die ein Mensch pro Rechnung traf (Duplikat? VAT-ID im Lieferantenstamm? Budget im PO noch verfügbar?). Diese Entscheidungen wurden zur Spezifikation für den Agenten, nicht umgekehrt.
500 repräsentative Rechnungen haben wir als Gold-Set gelabelt. Dieses Set blieb für jeden Benchmark danach die Wahrheitsquelle.
Woche 2 — Der Agent, bewusst langweilig gebaut
Vier deterministische Schritte statt ein Mega-Prompt:
- Klassifizieren — Rechnung, Gutschrift, Kontoauszug oder etwas anderes?
- Extrahieren — strukturiertes JSON gegen ein Zod-Schema (Kopf, Positionen, Summen, Umsatzsteuer).
- Validieren — Summen stimmen, VAT-IDs im EU-VIES-Register, Währung passt zum Lieferantenstamm.
- Zuordnen — Vorschlag für Bestellung und Kostenstelle mit Confidence-Score.
Jeder Schritt wird eigenständig evaluiert, retried und gecached. Das ist der langweilige Teil, der das System günstig macht und um 2 Uhr nachts debugbar.
Woche 3 — Eine Prüf-UI, die niemand gehasst hat
Links das PDF, rechts die extrahierten Felder, farblich nach Confidence. Grüne Felder nur kurz überfliegen. Orange kurz bestätigen. Rote sind fokussiert, bereit zur Korrektur. Alles ist tastaturgesteuert — Tab, Enter, fertig.
Jede Korrektur landet automatisch im gelabelten Evaluation-Set. Die Genauigkeit des Agenten steigt, ohne dass jemand einen Trainingslauf startet.
Woche 4 — Härten vor der Übergabe
- Kosten-Caps pro Rechnung und pro Tag, hart durchgesetzt.
- PII-Redaktion auf allem, was in Logs landet.
- DATEV-Export im Format der Steuerkanzlei.
- On-Call-Runbook, Grafana-Board, Slack-Alert, wenn der Agent zweimal hintereinander unsicher war.
Wir sind an einem Donnerstag live gegangen. Der Ops-Lead hat uns am Freitagabend geschrieben: “Zum ersten Mal seit zwei Jahren gehe ich pünktlich nach Hause.”
Die Architektur
Ein lesbarer Stack ist ein wartbarer Stack. Nichts Exotisches.
- Ingestion: Microsoft-365-Konnektor + überwachtes Postfach → S3-kompatibler Bucket.
- Agent-Runtime: TypeScript, Anthropic Claude Sonnet fürs Reasoning, Structured Outputs gegen Zod, strenge JSON-Validierung.
- Orchestrierung: Temporal für Retries, Idempotenz und Human-in-the-Loop-Waits.
- Validierung: EU VIES für USt-IDs, Lieferantenstamm als Read-only-Source-of-Truth.
- Prüf-UI: Astro + HTMX auf Cloudflare, Deploy in unter einer Minute pro Change.
- Export: DATEV-CSV direkt in die ERP-Importqueue des Kunden.
- Observability: OpenTelemetry-Traces, Token-Spend-Dashboards, Eval-Regressionen als CI-Gate.
Kein Lock-in. Der Kunde besitzt Repo, Infrastruktur und Evaluation-Set ab Tag 1.
Die Ergebnisse
Vier Wochen nach Kick-off, gemessen über die folgenden 90 Tage:
- Bearbeitungszeit von 14 auf 3 Minuten pro Rechnung gesunken.
- 99,2% Feldgenauigkeit auf dem Gold-Set — Tendenz steigend durch Feedback-Loop.
- 180 Operator-Stunden / Monat frei — eingesetzt für Lieferantenbeziehungen, die ein Jahr liegen geblieben waren.
- Null Incidents in den ersten 90 Tagen. Der Agent hat bei 2,1% der Rechnungen bewusst zurückgehalten, Menschen haben reibungslos nachgeprüft.
- EU-AI-Act-ready — als Limited Risk klassifiziert, dokumentiert, jede automatisierte Entscheidung nachvollziehbar.
Wie es weitergeht
Das gleiche Agenten-Muster wird jetzt auf Reisekostenabrechnungen und KYC im Kunden-Onboarding ausgerollt — 80% der Infrastruktur aus dem ersten Monat werden wiederverwendet. Das ist der Compounding-Effekt von Craft-first Engineering: der zweite Agent kostet einen Bruchteil des ersten.
Wenn Sie auf einen repetitiven Back-Office-Prozess schauen und unsicher sind, ob sich ein Agent lohnt — reden Sie mit uns. Wir sagen ehrlich, wenn es nicht passt, und wenn es passt, sind wir in Produktion, bevor die meisten Anbieter das zweite Meeting terminiert haben.