Mehrmodale KI‑Beweiserfassung für Sicherheitsfragebögen

Sicherheitsfragebögen sind die Gate‑Keeper jedes B2B‑SaaS‑Deals. Lieferanten werden gebeten, Belege—Policy‑PDFs, Architektur‑Diagramme, Code‑Snippets, Audit‑Logs und sogar Screenshots von Dashboards—zur Verfügung zu stellen. Traditionell verbringen Sicherheits‑ und Compliance‑Teams Stunden damit, Repositories zu durchsuchen, Dateien zu kopieren und sie manuell den entsprechenden Feldern des Fragebogens anzuhängen. Das Ergebnis ist ein Engpass, der Verkaufszyklen verlangsamt, menschliche Fehler erhöht und Audit‑Lücken schafft.

Procurize hat bereits eine leistungsstarke, einheitliche Plattform für das Management von Fragebögen, Aufgabenverteilung und KI‑unterstützte Antwortgenerierung aufgebaut. Die nächste Grenze ist, die Beweiserfassung selbst zu automatisieren. Durch den Einsatz von mehrmodaler generativer KI — Modelle, die Text, Bilder, Tabellen und Code in einer einzigen Pipeline verstehen — können Organisationen sofort das passende Artefakt für jedes Fragebogen‑Element finden, unabhängig vom Format.

In diesem Artikel werden wir:

Erklären, warum ein ein‑modaler Ansatz (reine Text‑LLMs) für moderne Compliance‑Workloads nicht ausreicht.
Die Architektur einer mehrmodalen Beweiserfassungs‑Engine vorstellen, die auf Procurize aufsetzt.
Zeigen, wie das System mit Generative Engine Optimization (GEO)‑Techniken trainiert, evaluiert und kontinuierlich verbessert wird.
Ein konkretes End‑to‑End‑Beispiel liefern, vom Sicherheits‑Fragewort bis zum automatisch angehängten Beweis.
Governance‑, Sicherheits‑ und Audit‑Bedenken diskutieren.

Wichtigste Erkenntnis: Mehrmodale KI verwandelt die Beweiserfassung von einer manuellen Aufgabe in einen wiederholbaren, auditierbaren Service und reduziert die Durchlaufzeit von Fragebögen um bis zu 80 %, bei gleichzeitigem Erhalt der Compliance‑Strenge.

1. Die Grenzen von rein‑textbasierten LLMs in Fragebogen‑Workflows

Die heutige KI‑basierte Automatisierung stützt sich meist auf große Sprachmodelle (LLMs), die im Text‑Generieren und semantischen Suchen glänzen. Sie können Policy‑Klauseln heraussuchen, Audit‑Berichte zusammenfassen und sogar narrative Antworten entwerfen. Compliance‑Belege sind jedoch selten reiner Text:

Beweisart	Typisches Format	Schwierigkeit für rein textbasierte LLM
Architektur‑Diagramme	PNG, SVG, Visio	Benötigt visuelles Verständnis
Konfigurationsdateien	YAML, JSON, Terraform	Strukturiert, aber oft verschachtelt
Code‑Snippets	Java, Python, Bash	Syntax‑bewusste Extraktion erforderlich
Screenshots von Dashboards	JPEG, PNG	UI‑Elemente und Zeitstempel müssen gelesen werden
Tabellen in PDF‑Audit‑Reports	PDF, gescannte Bilder	OCR + Tabellen‑Parsing nötig

Wenn eine Frage lautet „Stellen Sie ein Netzwerk‑Diagramm bereit, das den Datenfluss zwischen Ihrer Produktions‑ und Backup‑Umgebung illustriert“, kann ein rein‑textbasiertes Modell höchstens eine Beschreibung liefern; es kann das eigentliche Bild weder finden, verifizieren noch einbetten. Diese Lücke zwingt die Nutzer zu manuellen Eingriffen und re‑introduziert den Aufwand, den wir eliminieren wollen.

2. Architektur einer mehrmodalen Beweiserfassungs‑Engine

Unten ein hochlevel Diagramm der vorgeschlagenen Engine, integriert in das Kern‑Fragebogen‑Hub von Procurize.

  graph TD
    A["Benutzer reicht Fragebogen‑Eintrag ein"] --> B["Frage‑Klassifizierungsservice"]
    B --> C["Mehrmodaler Abruf‑Orchestrator"]
    C --> D["Text‑Vektor‑Store (FAISS)"]
    C --> E["Bild‑Embedding‑Store (CLIP)"]
    C --> F["Code‑Embedding‑Store (CodeBERT)"]
    D --> G["Semantische Übereinstimmung (LLM)"]
    E --> G
    F --> G
    G --> H["Beweis‑Ranking‑Engine"]
    H --> I["Compliance‑Metadaten‑Anreicherung"]
    I --> J["Auto‑Anhang an Procurize‑Aufgabe"]
    J --> K["Human‑in‑the‑Loop‑Verifikation"]
    K --> L["Audit‑Log‑Eintrag"]

2.1 Kern‑Komponenten

Frage‑Klassifizierungsservice — verwendet ein feinabgestimmtes LLM, um eingehende Fragebogen‑Einträge mit Beweis‑Typen (z. B. „Netzwerk‑Diagramm“, „Security‑Policy‑PDF“, „Terraform‑Plan“) zu kennzeichnen.
Mehrmodaler Abruf‑Orchestrator — leitet die Anfrage basierend auf der Klassifizierung an die passenden Embedding‑Stores weiter.
Embedding‑Stores
- Text‑Store — FAISS‑Index, aufgebaut aus allen Policy‑Docs, Audit‑Reports und Markdown‑Dateien.
- Bild‑Store — CLIP‑basierte Vektoren, generiert aus jedem Diagramm, Screenshot und SVG im Dokumenten‑Repository.
- Code‑Store — CodeBERT‑Embeddings für alle Quell‑Dateien, CI/CD‑Konfigurationen und IaC‑Templates.
Semantische‑Match‑Schicht — ein übergreifendes Transformer‑Modell verschmilzt das Anfrage‑Embedding mit den Vektoren jeder Modalität und liefert eine sortierte Liste von Kandidaten‑Artefakten.
Beweis‑Ranking‑Engine — wendet GEO‑Heuristiken an: Frische, Versions‑Status, Relevanz der Compliance‑Tags und Confidence‑Score des LLM.
Compliance‑Metadaten‑Anreicherung — hängt SPDX‑Lizenzen, Audit‑Zeitstempel und Datenschutz‑Tags an jedes Artefakt an.
Human‑in‑the‑Loop‑Verifikation — UI in Procurize zeigt die Top‑3‑Vorschläge; ein Prüfer kann genehmigen, ersetzen oder ablehnen.
Audit‑Log‑Eintrag — jeder Auto‑Anhang wird mit kryptografischem Hash, Prüfer‑Signatur und KI‑Confidence protokolliert und erfüllt SOX‑ und GDPR-Audit‑Anforderungen.

2.2 Daten‑Ingest‑Pipeline

Crawler scannt Unternehmens‑Dateifreigaben, Git‑Repos und Cloud‑Storage‑Buckets.
Pre‑Processor führt OCR auf gescannten PDFs (Tesseract) aus, extrahiert Tabellen (Camelot) und konvertiert Visio‑Dateien zu SVG.
Embedder erzeugt modalitäts‑spezifische Vektoren und speichert sie mit Metadaten (Dateipfad, Version, Owner).
Inkrementelles Update — ein Change‑Detection‑Micro‑Service (Watchdog) re‑embeddet nur geänderte Assets und hält die Vektor‑Stores nahezu in Echtzeit aktuell.

3. Generative Engine Optimization (GEO) für Beweis‑Abruf

GEO ist ein systematisches Verfahren, um die gesamte KI‑Pipeline – nicht nur das Sprachmodell – so zu optimieren, dass das End‑KPI (Durchlaufzeit des Fragebogens) verbessert wird, während die Compliance‑Qualität erhalten bleibt.

GEO‑Phase	Ziel	Schlüssel‑Metriken
Datenqualität	Sicherstellen, dass Embeddings den aktuellen Compliance‑Status reflektieren	% der Assets < 24 h aktualisiert
Prompt‑Engineering	Abruf‑Prompts so formulieren, dass das Modell zur richtigen Modalität geleitet wird	Abruf‑Confidence‑Score
Modell‑Kalibrierung	Confidence‑Schwellen an die Akzeptanz‑Rate der Prüfer anpassen	False‑Positive‑Rate < 5 %
Feedback‑Loop	Prüfer‑Aktionen erfassen, um Klassifizierung und Ranking zu verfeinern	Mean Time to Approve (MTTA)
Kontinuierliche Evaluation	Nächtliche A/B‑Tests gegen ein Validierungs‑Set historischer Fragebogen‑Einträge	Reduktion der durchschnittlichen Antwortzeit

3.1 Prompt‑Beispiel für mehrmodalen Abruf

[FRAGE] Stellen Sie den aktuellsten [SOC 2] Type II‑Audit‑Report zum Thema Datenverschlüsselung im Ruhezustand bereit.

[KONTEXT] Rufen Sie ein PDF‑Dokument ab, das den relevanten Audit‑Abschnitt enthält. Geben Sie die Dokument‑ID, Seiten‑Bereich und einen kurzen Auszug zurück.

[MODALITÄT] text

Der Orchestrator extrahiert das [MODALITÄT]‑Tag und fragt ausschließlich den Text‑Store ab, wodurch das Rauschen aus Bild‑ oder Code‑Vektoren drastisch reduziert wird.

3.2 Adaptive Schwellenwerte

Mittels Bayesian Optimization passt das System automatisch die Confidence‑Schwelle für jede Modalität an. Werden Vorschläge für Diagramme konsequent ab einer Confidence von 0,78 akzeptiert, steigt die Schwelle, wodurch unnötige Prüfschritte entfallen. Umgekehrt sinkt die Schwelle für Code‑Snippets, wenn diese häufig abgelehnt werden, sodass mehr Kandidaten präsentiert werden.

4. End‑to‑End‑Beispiel: Von der Frage zum Auto‑Anhang

4.1 Die Frage

„Fügen Sie ein Diagramm bei, das den Datenfluss vom Eingang bis zur Speicherung inklusive der Verschlüsselungspunkte zeigt.“

4.2 Schritt‑für‑Schritt‑Ablauf

Schritt	Aktion	Ergebnis
1	Benutzer legt in Procurize einen neuen Fragebogen‑Eintrag an.	Eintrag‑ID `Q‑2025‑1123`.
2	Klassifizierungsservice taggt die Anfrage als `evidence_type: Netzwerk‑Diagramm`.	Modalität = Bild.
3	Orchestrator sendet die Anfrage an den CLIP‑Bild‑Store.	12 Kandidaten‑Vektoren werden zurückgeliefert.
4	Semantische‑Match‑Schicht berechnet Cosine‑Similarity zwischen Anfrage‑Embedding und jedem Vektor.	Top‑3 Scores: 0,92
5	Ranking‑Engine bewertet Frische (zuletzt vor 2 Tagen geändert) und Compliance‑Tags (enthält „Encryption“).	End‑Ranking: Diagramm `arch‑data‑flow‑v3.svg`.
6	HITL‑UI zeigt das Diagramm mit Vorschau, Metadaten (Autor, Version, Hash).	Prüfer klickt Genehmigen.
7	System hängt das Diagramm automatisch an `Q‑2025‑1123` an und protokolliert einen Audit‑Eintrag.	Audit‑Log verzeichnet KI‑Confidence 0,91, Prüfer‑Signatur, Zeitstempel.
8	Antwort‑Generierungsmodul erstellt einen narrativen Text, der auf das Diagramm verweist.	Vollständige Antwort ist export‑bereit.

Die gesamte Zeit von Schritt 1 bis Schritt 8 beträgt ≈ 45 Sekunden, verglichen mit den üblichen 15–20 Minuten bei manueller Beschaffung.

5. Governance, Sicherheit und Audit‑Trail

Die Automatisierung von Beweiserfassungen wirft berechtigte Bedenken auf:

Datenlecks — Embedding‑Dienste laufen in einer Zero‑Trust‑VPC mit strikten IAM‑Rollen. Keine Embeddings verlassen das Firmennetzwerk.
Versions‑Kontrolle — jedes Artefakt wird mit seinem Git‑Commit‑Hash (bzw. Speicher‑Objekt‑Version) gespeichert. Bei Dokument‑Updates invalidiert das System alte Embeddings.
Erklärbarkeit — die Ranking‑Engine protokolliert Similarity‑Scores und die Prompt‑Kette, sodass Compliance‑Beauftragte nachvollziehen können, warum ein bestimmtes Dokument ausgewählt wurde.
Regulatorische Konformität — durch das Anfügen von SPDX‑Lizenz‑Identifikatoren und GDPR-Verarbeitungskategorien zu jedem Artefakt erfüllt die Lösung die Herkunfts‑Anforderungen von ISO 27001 Annex A.
Aufbewahrungs‑Richtlinien — Auto‑Purge‑Jobs entfernen Embeddings für Dokumente, die außerhalb des unternehmensinternen Aufbewahrungs‑Fensters liegen, sodass keine veralteten Beweise persistieren.

6. Zukünftige Entwicklungen

6.1 Mehrmodaler Abruf als Service (RaaS)

Den Abruf‑Orchestrator mittels GraphQL‑API öffnen, sodass weitere interne Werkzeuge (z. B. CI/CD‑Compliance‑Checks) Beweise anfordern können, ohne den kompletten Fragebogen‑UI zu durchlaufen.

6.2 Echtzeit‑Integration von Regulierungs‑Radar

Die mehrmodale Engine mit dem Regulatory‑Change‑Radar von Procurize verknüpfen. Sobald eine neue Vorschrift erkannt wird, erfolgt automatisch eine Neubewertung betroffener Fragen und ein frischer Beweis‑Abruf, sodass die hochgeladenen Artefakte stets konform bleiben.

6.3 Föderiertes Lernen über Unternehmen hinweg

Für SaaS‑Anbieter, die mehrere Kunden bedienen, kann eine föderierte Lern‑Schicht anonymisierte Embedding‑Updates teilen, um die Abruf‑Qualität zu erhöhen, ohne proprietäre Dokumente preiszugeben.

7. Fazit

Sicherheitsfragebögen bleiben ein Grundpfeiler des Vendor‑Risk‑Managements, doch der manuelle Aufwand für das Sammeln und Anhängen von Beweisen wird zunehmend untragbar. Durch den Einsatz von mehrmodaler KI — einer Kombination aus Text‑, Bild‑ und Code‑Verständnis — kann Procurize die Beweiserfassung zu einem automatisierten, auditierbaren Service transformieren. Mit Generative Engine Optimization wird das System kontinuierlich verbessert und stimmt die KI‑Confidence mit den Erwartungen von Prüfern und regulatorischen Vorgaben ab.

Das Ergebnis ist eine drastische Beschleunigung der Antwortzeiten auf Fragebögen, reduzierte menschliche Fehler und ein stärkerer Audit‑Trail — alles, was Sicherheits‑, Rechts‑ und Vertriebsteams befähigt, sich auf strategische Risikominimierung statt auf wiederholtes Durchsuchen von Dokumenten zu konzentrieren.