Ein Sprint · 18 bewertete Chancen · 3 Piloten in Produktion
Die Ausgangslage
Die COO einer mittelständischen DACH-Versicherungsgruppe — Schaden-, Lebens- und ein kleines Gewerbebuch — hatte eine 200-seitige “KI-Roadmap” aus einem Big-Four-Projekt des Vorjahres geerbt. Drei Dinge waren reichlich vorhanden: Reifegrad-Modelle, Risiko-Matrizen und schöne Typografie. Zwei fehlten: ein einziges live-gestelltes System und eine ehrliche Priorisierung.
Der Vorstand wollte drucktestbare Antworten auf drei Fragen:
- Wo liegen die Top-5-KI-Chancen, nach echtem Aufwand und echtem Impact gerankt?
- Wie bringen wir etwas in diesem Quartal live — nicht nächstes Jahr — ohne über den EU AI Act zu stolpern?
- Was ist das kleinste Team und Budget, das das Ganze trägt, wenn die Berater weg sind?
Sie brauchten kein weiteres Deck. Sie brauchten ein Studio, das im selben Raum denken und bauen kann.
Unsere Roadmap
-
01Phase 01 Woche 1
Strategie-Sprint
18 Chancen bewertet, 3 priorisiert, Governance & EU-AI-Act-Layer skizziert, Leadership-Handover.
-
02Phase 02 Tage 8–30
Pilot 1 — Schaden-Triage
LLM-gestützte Schaden-Triage für Haushalt und Kfz. Human-in-the-Loop ab Tag eins, sauberer Audit-Trail.
-
03Phase 03 Tage 31–60
Pilot 2 — Makler-Assistent
Retrieval-gestützter Assistent für die Makler-Hotline. Kürzere Wartezeit, zitierte Quellen auf jeder Antwort.
-
04Phase 04 Tage 61–90
Pilot 3 — Policen-QA
Underwriter-seitige QA auf 80k Policen-Dokumenten — mit Quellenverlinkung und sauberer Verweigerung bei Unsicherheit.
Wie wir gebaut haben
Woche 1 — Ein Strategie-Sprint, der Code hinterlässt
Unser Strategie-Sprint läuft fünf Arbeitstage, vor Ort oder hybrid. Kein 200-Seiten-Deck — ein kurzes, schonungsloses Dokument und ein funktionierender Prototyp der Top-Chance.
Was wir gemacht haben:
- Tag 1: 12 Interviews in Schaden, Maklerbetreuung, Underwriting, Compliance und IT. Echte Volumen, echte Tools, echte Pain Points — nicht die geschönte Intranet-Version.
- Tag 2: 18 Use Cases auf einer 4-Achsen-Rubrik bewertet: erwarteter Impact, Datenreife, regulatorisches Risiko, Time-to-Value. Acht, die umetikettierte OCR-Projekte waren, haben wir rausgeworfen.
- Tag 3: 90-minütiger Governance-Workshop mit Legal und Compliance. EU-AI-Act-Klassifikation für jede verbliebene Chance skizziert (limited vs. high risk) — und was das konkret für Kontrollen, Dokumentation und menschliche Aufsicht bedeutet.
- Tag 4: Lauffähiger Prototyp der Top-Chance (Schaden-Triage) — roh, aber real, auf anonymisierten Beispieldaten. Damit konnte der Raum aufhören, über Hypothesen zu diskutieren.
- Tag 5: Leadership-Handover. 14-seitiger schriftlicher Brief. Rangierter Backlog. Governance-Frame. Empfohlene Team-Form. Fixpreis-Angebot für Pilot 1.
Der Vorstand hat am Montag der Woche 2 drei Piloten und ein laufendes Governance-Modell abgesegnet.
Tage 8–30 — Pilot 1: Schaden-Triage
Der Pilot zielte auf Haushalt und Kfz, die zwei volumenstärksten Sparten. Der Agent liest die Schadensmeldung, prüft gegen die Policen-Abdeckung, flaggt mögliche Betrugsindikatoren und leitet den Fall mit einem Confidence-Score in die richtige Warteschlange.
Was gezogen hat:
- Human-in-the-Loop ab Tag eins. Keine Auto-Freigaben. Sachbearbeitende sehen die Empfehlung, bestätigen sie mit einem Tastendruck — die Entscheidung bleibt ihre.
- Jede Empfehlung nennt ihre Quellen — welche Klausel, welcher Vorfall, welches Fraud-Signal. Compliance kann jede Entscheidung in Sekunden auditen.
- Verweigerung als First-Class-Feature. Bei 6% der Fälle hat der Agent bewusst keine Empfehlung gegeben, Menschen haben die ungestört übernommen.
Tage 31–60 — Pilot 2: Makler-Assistent
Die Makler-Hotline nahm 1.400 Anrufe pro Tag entgegen, die meisten fragten dieselben fünfzig Fragen zu 12.000 Seiten Produktdokumentation. Wir haben einen retrieval-gestützten Assistenten für die Telefonist:innen gebaut — immer zitiert, nie erfunden, verweigert sauber bei Unkenntnis.
- Durchschnittliche Wartezeit von 4m 20s auf 2m 10s auf abgedeckten Themen.
- Zufriedenheit der Agents stieg — sie beschrieben das Tool als “Kollege, der die Produkthandbücher tatsächlich gelesen hat.”
- Jede Antwort zitierte Dokument und Abschnitt. Compliance geliebt.
Tage 61–90 — Pilot 3: Policen-Dokumenten-QA
Underwriter suchten Stunden pro Tag in 80.000 Policen-Dokumenten — Legacy-PDFs, gescannte Verträge, Mail-Nachträge. Wir haben ein Dokumenten-QA-Interface gelauncht, das natürlichsprachliche Fragen beantwortet und den exakten Absatz verlinkt — und schweigt, wenn die Quelle mehrdeutig ist.
Das Differenzierungsmerkmal war die Verweigerungs-Politik. Underwriter haben uns gesagt, ein Tool, das zugibt, etwas nicht zu wissen, sei vertrauenswürdiger als eines, das bluffed — und haben es dadurch deutlich öfter eingesetzt.
Der Governance-Layer
Alles oben ist in einem Governance-Rahmen gelandet, den der Vorstand wirklich unterzeichnen konnte. Er ist kurz:
- Klassifikation: Jeder Pilot als limited-risk nach EU AI Act eingestuft, mit dokumentierter Begründung.
- Menschliche Aufsicht: Verpflichtend bei jeder Live-Entscheidung. Keine stillen Auto-Aktionen in Y1.
- Transparenz: Jede Ausgabe zitiert Quellen. Jedes Prompt-Template ist in Git versioniert.
- Evaluation: Ein 500-Beispiel-Gold-Set pro Pilot, in CI regrediert, monatlich von einem internen KI-Rat geprüft.
- Recht zu pausieren: Compliance, Legal oder der Fachbereich können jeden Piloten in 15 Minuten stoppen. Sie mussten nie.
Derselbe Rahmen steuert jetzt Piloten 4 und 5 — ohne erneute Vorstandsrunde.
Die Ergebnisse
Nach 90 Tagen über alle drei Piloten gemessen:
- 3 Piloten in Produktion, nicht im Labor.
- 18 Chancen ehrlich bewertet — 11 bewusst geparkt, 4 begraben, 3 gelauncht.
- Projizierte Y1-Einsparung von 420.000 € allein aus dem Schaden-Triage-Piloten, konservativ über Sachbearbeiter-Zeit gerechnet.
- Wartezeit an der Makler-Hotline halbiert auf abgedeckten Themen.
- Null regulatorische Incidents. Der Governance-Rahmen hat im vierten Monat eine BaFin-Informationsprüfung passiert.
Und die wichtigste Zahl aus Sicht der COO: “Wir haben jetzt vier Leute, die das ohne euch weiterführen können. Das ist, was wir eigentlich gekauft haben.”
Wie es weitergeht
Piloten 4 und 5 — ein Underwriting-Assistent für SME-Gewerbe und eine Beschwerde-Klassifikation für das Ombudsmann-Team — sind in Discovery. Weil Governance, Evaluation-Infrastruktur und Retrieval-Tooling stehen, startet jeder neue Pilot mit rund 40% bereits gebaut.
Wenn Sie eine mehrhundertseitige KI-Strategie und kein Produkt in Produktion haben — wir übersetzen das in fünf Wochen in eine kurze Rangliste und einen live-gelaunchten Piloten. Wenn Sie noch keine Strategie haben, überspringen wir die und gehen direkt zum Piloten. Wir sagen ehrlich, was sich lohnt.