Kontekstualni Sustav Preporuke Dokaza za Automatizirane Sigurnosne Upitnike

TL;DR – Kontekstualni Sustav Preporuke Dokaza (CERE) kombinira velike jezične modele (LLM‑ove) s kontinuirano osvježavanjem grafa znanja kako bi auditorima i timovima za sigurnost prikazao točno onaj dokaz koji im je potreban – baš kad ga trebaju. Rezultat je smanjenje ručnog pretraživanja za 60‑80 %, veća točnost odgovora i radni tijek usklađenosti koji raste zajedno s brzinom modernog SaaS razvoja.

1. Zašto je Sustav Preporuke Nedostajući Link

Sigurnosni upitnici, SOC 2 provjere spremnosti, ISO 27001 revizije i procjene rizika dobavljača sve dijele zajednički problem: potraga za pravim dokazom. Timovi obično održavaju opsežan repozitorij politika, revizijskih izvješća, snimaka konfiguracija i potvrda trećih strana. Kada stigne upitnik, analitičar usklađenosti mora:

Analizirati pitanje (često prirodnim jezikom, ponekad s industrijskim žargonima).
Identificirati domenu kontrole (npr. “Upravljanje Pristupom”, “Zadržavanje Podataka”).
Pretražiti repozitorij za dokumente koji zadovoljavaju kontrolu.
Kopirati‑zalijepiti ili prepisati odgovor, dodajući kontekstualne napomene.

Čak i uz sofisticirane alate za pretraživanje, ručna petlja može potrošiti nekoliko sati po upitniku, osobito kada su dokazi rašireni kroz više cloud računa, sustava za ticketing i naslijeđene dijeljenje datoteka. Pogreške u ovom procesu uzrokuju umor usklađenosti i mogu dovesti do propuštenih rokova ili netočnih odgovora – oba skupa za brzo rastuće SaaS poduzeće.

Upoznajte CERE: motor koji automatski izlaže najrelevantnije stavke dokaza čim se pitanje unese, vođen kombinacijom semantičkog razumijevanja (LLM‑ovi) i relacijskog zaključivanja (traversal grafa znanja).

2. Osnovni Arhitektonski Stubovi

CERE se temelji na tri međusobno povezana sloja:

Sloj	Odgovornost	Ključne Tehnologije
Semantic Intent Layer	Pretvara sirovi tekst upitnika u strukturiranu namjeru (familija kontrole, razina rizika, tip traženog artefakta).	Prompt‑engineered LLM (npr. Claude‑3, GPT‑4o) + Retrieval‑Augmented Generation (RAG)
Dynamic Knowledge Graph (DKG)	Pohranjuje entitete (dokumenti, kontrole, resursi) i njihove odnose, kontinuirano osvježavan iz izvora podataka.	Neo4j/JanusGraph, GraphQL API, Change‑Data‑Capture (CDC) pipelines
Recommendation Engine	Izvršava upite nad grafom na temelju namjere, rangira kandidatske dokaze i vraća konciznu, ocijenjenu preporuku.	Graph Neural Network (GNN) za ocjenu relevantnosti, reinforcement‑learning petlja za inkorporaciju povratnih informacija

Ispod je Mermaid dijagram koji vizualizira protok podataka.

  flowchart LR
    A["User submits questionnaire question"]
    B["LLM parses intent\n(Control, Risk, ArtifactType)"]
    C["DKG lookup based on intent"]
    D["GNN relevance scoring"]
    E["Top‑K evidence items"]
    F["UI presents recommendation\nwith confidence"]
    G["User feedback (accept/reject)"]
    H["RL loop updates GNN weights"]
    A --> B --> C --> D --> E --> F
    F --> G --> H --> D

All node labels are wrapped in double quotes as required.

3. Od Teksta do Namjere: Prompt‑Engineered LLM

Prvi korak je razumijevanje pitanja. Pažljivo kreirani prompt izvlači tri signala:

Identifikator Kontrole – npr. “ISO 27001 A.9.2.3 – Upravljanje Lozinkama”.
Kategorija Dokaza – npr. “Policijski Dokument”, “Izvoz Konfiguracije”, “Revizijski Log”.
Kontekst Rizika – “Visoki Rizik, Vanjski Pristup”.

Primjer prompta (zadržan kratak iz sigurnosnih razloga):

You are a compliance analyst. Return a JSON object with the fields:
{
  "control": "<standard ID and title>",
  "evidence_type": "<policy|config|log|report>",
  "risk_tier": "<low|medium|high>"
}
Question: {question}

Izlaz LLM‑a se provjerava prema šemi, zatim se prosljeđuje u generator upita za DKG.

4. Dinamički Graf Znanja (DKG)

4.1 Model Entiteta

Entitet	Atributi	Veze
Document	`doc_id`, `title`, `type`, `source_system`, `last_modified`	`PROVIDES` → `Control`
Control	`standard_id`, `title`, `domain`	`REQUIRES` → `Evidence_Type`
Asset	`asset_id`, `cloud_provider`, `environment`	`HOSTS` → `Document`
User	`user_id`, `role`	`INTERACTS_WITH` → `Document`

4.2 Sinkronizacija u Realnom Vremenu

Procurize već integrira SaaS alate poput GitHub‑a, Confluence‑a, ServiceNow‑a i API‑ja cloud pružatelja. Mikrousluga temeljena na CDC‑u prati CRUD događaje i ažurira graf s podsekundnom latencijom, čuvajući auditabilnost (svaka veza nosi source_event_id).

5. Put Preporuke Vođen Grafom

Odabir Anchor Čvora – namjera control postaje početni čvor.
Ekspanzija Puta – breadth‑first search (BFS) istražuje PROVIDES veze ograničene na evidence_type koji je vratio LLM.
Ekstrakcija Značajki – za svaki kandidat dokument izgrađuje se vektor od:
- Tekstualne sličnosti (ugrađivanje iz istog LLM‑a).
- Vremenske svježine (last_modified dob).
- Učestalosti korištenja (koliko je puta dokument referiran u prošlim upitnicima).
Ocjena Relevantnosti – GNN agregira značajke čvora i veze, proizvodeći ocjenu s ∈ [0,1].
Rangiranje & Povjerenje – vrh‑K dokumenata se poredaju po s; motor također ispisuje postotak povjerenja (npr. “85 % uvjerenja da ova politika zadovoljava zahtjev”).

6. Povratna Značka Čovjek‑u‑Povratnoj Petlji

Nijedna preporuka nije savršena od početka. CERE bilježi odluku prihvati/odbij i bilo koji slobodni tekst povratne informacije. Ti podaci napajaju reinforcement‑learning (RL) petlju koja povremeno fino podešava politiku GNN‑a, usklađujući model s subjektivnim preferencijama organizacije.

RL cjevovod se izvršava noću:

  stateDiagram-v2
    [*] --> CollectFeedback
    CollectFeedback --> UpdateRewards
    UpdateRewards --> TrainGNN
    TrainGNN --> DeployModel
    DeployModel --> [*]

7. Integracija s Procurize‑om

Procurize već nudi Unified Questionnaire Hub gdje korisnici mogu dodjeljivati zadatke, komentirati i prilažati dokaze. CERE se priključuje kao pametni widget polja:

Kad analitičar klikne “Add Evidence”, widget pokreće LLM‑DKG pipeline.
Preporučeni dokumenti pojavljuju se kao klikabilne kartice, svaka s “Insert citation” gumbom koji automatski generira markdown referencu formatiranu za upitnik.
Za multi‑tenant okruženja, motor poštuje particije podataka po najmodavcima – graf svakog klijenta ostaje izoliran, jamčeći povjerljivost, dok se istovremeno omogućuje učenje preko najmodavaca u privatno‑čuvajućem načinu (pomoću federiranog prosjekovanja GNN težina).

8. Opipljive Prednosti

Metrika	Ručno (Osnova)	S CERE‑om
Prosječno vrijeme pretrage dokaza	15 min po pitanju	2‑3 min
Točnost odgovora (uspjeh revizije)	87 %	95 %
Zadovoljstvo tima (NPS)	32	68
Smanjenje zaostatka usklađenosti	4 tjedna	1 tjedan

Pilot s fintechom srednje veličine (≈200 zaposlenika) zabilježio je 72 % skraćenje vremena obrade upitnika i 30 % pad revizijskih ciklusa nakon prvog mjeseca.

9. Izazovi & Mitigacije

Izazov	Mitigacija
Hladni start za nove kontrole – nema povijesnih referenci dokaza.	Inicijalno napuniti graf standardnim predlošcima politika, zatim koristiti transfer learning sličnih kontrola.
Privatnost podataka među najmodavcima – rizik od curenja pri dijeljenju ažuriranja modela.	Primijeniti Federirano Učenje: svaki najmodavac trenira lokalno, a samo delta težina se agregira.
Halucinacije LLM‑a – pogrešno identificirani ID‑ovi kontrola.	Validirati izlaz LLM‑a protiv kanoničkog registra kontrola (ISO, SOC, NIST) prije upita na graf.
Drift grafa – zastarjele veze nakon migracije u oblaku.	CDC pipeline s garancijom eventualne konzistentnosti i periodični health‑check grafova.

10. Planovi za Budućnost

Multimodalno Dohvaćanje Dokaza – integrirati screenshotove, dijagrame konfiguracija i video walkthroughe koristeći vizualno‑omogućene LLM‑ove.
Predictive Regulation Radar – spojiti real‑time feedove regulatornih promjena (npr. GDPR amandmani) kako bi se proaktivno obogatili DKG najnovijim kontrolama.
Explainable AI Dashboard – vizualizirati zašto je dokument dobio svoju ocjenu povjerenja (trag puta, doprinos značajki).
Self‑Healing Graph – automatski otkrivati orfane čvorove i reconciliati ih pomoću AI‑vođenog rješavanja entiteta.

11. Zaključak

Kontekstualni Sustav Preporuke Dokaza pretvara radno‑intenzivnu umjetnost odgovaranja na sigurnosne upitnike u podatkovno‑vođeno, gotovo trenutačno iskustvo. Spajanjem semantičkog parsiranja LLM‑ova s živim grafom znanja i GNN‑om za rangiranje, CERE isporučuje pravi dokaz, u pravo vrijeme, s izmjerljivim poboljšanjima u brzini, točnosti i povjerenju u usklađenost. Kako SaaS organizacije nastave rasti, takva inteligentna pomoć neće biti samo „lijepa opcija“ – bit će temelj otporne, audit‑spremne operacije.