Izgradnja AI‑potpomognutog kontinuiranog spremišta dokaza za automatizaciju sigurnosnih upitnika u stvarnom vremenu

Poduzeća danas suočavaju se s nepremostivim valom sigurnosnih upitnika, revizija dobavljača i regulatornih zahtjeva. Iako platforme poput Procurize već centraliziraju što — upitnike i zadatke — i dalje postoji skrivena uska grla: dokazi koji podupiru svaki odgovor. Tradicionalno upravljanje dokazima oslanja se na statične biblioteke dokumenata, ručno povezivanje i ad‑hoc pretrage. Rezultat je krhki “copy‑and‑paste” radni tok koji uvodi greške, odgode i rizik od revizije.

U ovom vodiču ćemo:

Definirati koncept Kontinuiranog spremišta dokaza (CER) — živo znanje koje se razvija s svakom novom politikom, kontrolom ili incidentom.
Pokazati kako se veliki jezični modeli (LLM‑i) mogu iskoristiti za izdvajanje, sažimanje i mapiranje dokaza na klauzule upitnika u stvarnom vremenu.
Predstaviti cjelovitu arhitekturu koja kombinira pohranu pod kontrolom verzija, obogaćivanje metapodataka i AI‑pokretano preuzimanje.
Pružiti praktične korake za implementaciju rješenja na vrhu Procurize‑a, uključujući točke integracije, sigurnosne aspekte i savjete za skaliranje.
Raspraviti upravljanje i revizorsku sposobnost kako bi sustav ostao usklađen i pouzdan.

1. Zašto je Kontinuirano spremište dokaza važno

1.1 Praznina dokaza

Simptom	Uzrok	Poslovni utjecaj
“Gdje je najnoviji SOC 2 izvještaj?”	Dokazi pohranjeni u više SharePoint mapa, nema jedinstvenog izvora istine	Odgodni odgovori, propuštene SLA‑e
“Naš odgovor više ne odgovara verziji politike X”	Politike ažurirane u izolaciji; odgovori na upitnike nikada ne osvježeni	Nedosljedna usklađenost, revizijski nalazi
“Treba dokaz o šifriranju podataka u mirovanju za novu značajku”	Inženjeri ručno učitavaju PDF‑ove → metapodaci nedostaju	Potrošnja vremena na pretraživanje, rizik od korištenja zastarjelog dokaza

CER rješava ove bolne točke kontinuiranim unosom politika, rezultata testova, zapisa incidenata i arhitekturnih dijagrama, te normalizacijom u pretraživi, verzionirani graf znanja.

1.2 Prednosti

Brzina: Najnoviji dokaz dohvaćen u sekundi, eliminirajući ručno traženje.
Točnost: AI‑generirane provjere križnog povezivanja upozoravaju kada odgovor odstupa od osnovne kontrole.
Spremnost za reviziju: Svaki dokaz nosi nepromjenjive metapodatke (izvor, verzija, recenzent) koji se mogu izvesti kao paket usklađenosti.
Skalabilnost: Novi tipovi upitnika (npr. GDPR DPA, CMMC) dodaju se jednostavnim pravilima mapiranja, ne izgradnjom cijelog spremišta.

2. Osnovne komponente CER‑a

Ispod je visokorazinski prikaz sustava. Svaki blok je namjerno tehnološki neutralan, omogućavajući odabir cloud‑servisa, open‑source alata ili hibridnog pristupa.

  graph TD
    A["Izvori politika i kontrola"] -->|Uvoz| B["Sirovi spremište dokaza"]
    C["Rezultati testiranja i skeniranja"] -->|Uvoz| B
    D["Zapisi incidenata i promjena"] -->|Uvoz| B
    B -->|Versioniranje & Metapodaci| E["Jezero dokaza (objektna pohrana)"]
    E -->|Ugrađivanje / Indeksiranje| F["Vektorska pohrana (npr. Qdrant)"]
    F -->|LLM preuzimanje| G["AI motor preuzimanja"]
    G -->|Generiranje odgovora| H["Sloj automatizacije upitnika (Procurize)"]
    H -->|Povratna sprega| I["Modul kontinuiranog učenja"]

Ključne poruke:

Svi sirovi ulazi završavaju u centraliziranom Blob/Lake‑u (Jezero dokaza). Datoteke zadržavaju originalni format (PDF, CSV, JSON) i popraćene su laganim JSON‑side‑car‑om koji sadrži verziju, autora, oznake i SHA‑256 hash.
Usluga ugrađivanja pretvara tekstualni sadržaj (klauzule politika, zapise skeniranja) u visokodimenzionalne vektore pohranjene u Vektorsku pohranu. To omogućuje semantičko pretraživanje, a ne samo pretragu po ključnim riječima.
AI motor preuzimanja pokreće retrieval‑augmented generation (RAG) cjevovod: upit (klauzula upitnika) najprije povlači top‑k relevantnih isječaka dokaza, koji se zatim predaju finetuniranom LLM‑u koji sastavlja sažet, citat‑bogat odgovor.
Modul kontinuiranog učenja prikuplja povratnu informaciju recenzenata (👍 / 👎, uređeni odgovori) i finetunira LLM na organizacijski specifičan jezik, poboljšavajući točnost kroz vrijeme.

3. Unos podataka i normalizacija

3.1 Automatizirani dohvat

Izvor	Tehnika	Učestalost
Git‑upravljane dokumentacije politika	Git webhook → CI cjevovod pretvara Markdown u JSON	pri svakom push‑u
SaaS skener rezultati (npr. Snyk, Qualys)	API dohvat → CSV → JSON konverzija	svakih sat vremena
Sustav upravljanja incidentima (Jira, ServiceNow)	Webhook streaming → Lambda događaj	u stvarnom vremenu
Cloud konfiguracija (Terraform state, AWS Config)	Terraform Cloud API ili izvoz Config Rules	dnevno

Svaki posao unosa zapisuje manifest koji bilježi:

{
  "source_id": "github.com/company/policies",
  "file_path": "iso27001/controls/A.12.1.2.md",
  "commit_sha": "b7c9d2e...",
  "ingested_at": "2025-10-05T14:23:00Z",
  "hash": "4a7d1ed414..."
}

3.2 Obogaćivanje metapodataka

Nakon pohrane sirovih podataka, usluga ekstrakcije metapodataka dodaje:

Identifikatore kontrola (npr. ISO 27001 A.12.1.2, NIST 800‑53 AC‑2).
Vrstu dokaza (policy, scan, incident, architecture diagram).
Ocjenu povjerenja (bazirano na kvaliteti OCR‑a, validaciji sheme).
Oznake kontrole pristupa (confidential, public).

Obogaćeni metapodaci pohranjuju se u document database (npr. MongoDB) koja služi kao izvor istine za kasnije upite.

4. Cjevovod za Retrieval‑Augmented Generation

4.1 Normalizacija upita

Kad stigne klauzula upitnika (npr. “Opišite svoje kontrole šifriranja podataka u mirovanju”), sustav provodi:

Parsiranje klauzule — identifikacija ključnih riječi, regulatornih referenci i namjere pomoću klasifikatora razine rečenice.
Semantičko proširenje — proširenje “šifriranje‑u‑miru” sinonimima (“enkripcija podataka u mirovanju”, “disk enkripcija”) koristeći prethodno istrenirani Word2Vec model.
Ugrađivanje vektora — kodiranje proširenog upita u gusti vektor (npr. sentence‑transformers/all‑mpnet‑base‑v2).

4.2 Vektorska pretraga

Vektorska pohrana vraća top‑k (obično 5‑10) isječaka dokaza rangiranih po kosinusnoj slici. Svaki isječak dolazi s metapodacima o porijeklu.

4.3 Izgradnja prompta

You are a compliance analyst for a SaaS company. Based on the following evidence, answer the questionnaire clause. Cite each source with its identifier.

Evidence:
1. "ISO 27001 A.10.1.1 – Data encryption policy version 3.2" (policy, v3.2, 2025‑09‑12)
2. "AWS KMS configuration – All S3 buckets encrypted with AES‑256" (scan, 2025‑10‑01)
3. "Incident #12345 – Encryption key rotation performed after breach" (incident, 2025‑08‑20)

Clause: "Describe your encryption‑at‑rest controls."

LLM odgovara sažetim odgovorom i uključenim citatima, npr.:

All SaaS data stored in Amazon S3, RDS, and EBS is encrypted at rest using AES‑256 via AWS KMS, as defined in our ISO 27001‑aligned encryption policy (v3.2). Encryption keys are rotated automatically every 90 days, and a manual rotation was triggered after Incident #12345 (see evidence 1‑3). — Sources: 1, 2, 3.

4.4 Ljudi u petlji

Procurize prikazuje AI‑generirani odgovor uz popis izvora. Recenzenti mogu:

Odobriti — dodaje zelenu oznaku i bilježi odluku.
Urediti — izmjena odgovora; radnja se zapisuje za finetuning modela.
Odbiti — pokreće fallback na ručni odgovor i dodaje negativni primjer za trening.

Sve radnje pohranjuje Modul kontinuiranog učenja, omogućujući periodično ponovno treniranje LLM‑a na organizacijski specifičan stil i terminologiju usklađenosti.

5. Integracija CER‑a s Procurize‑om

5.1 API most

Procurize‑ov Questionnaire Engine emitira webhook svaki put kad se aktivira novi upitnik ili klauzula:

{
  "question_id": "Q-2025-SEC-07",
  "text": "Describe your encryption‑at‑rest controls."
}

Lagani integracijski servis prima payload, prosljeđuje klauzulu AI motoru preuzimanja, i vraća generirani odgovor s oznakom statusa (auto_generated).

5.2 Poboljšanja UI‑ja

U Procurize‑ovom sučelju:

Panel dokaza prikazuje sklopivu listu citiranih stavki, svaka s gumbom za pregled.
Mjerilo povjerenja (0‑100) pokazuje koliko je semantička podudarnost jaka.
Selektor verzija omogućava da se odgovor poveže s određenom verzijom politike, osiguravajući tragost.

5.3 Dozvole i revizija

Sav AI‑generirani sadržaj nasljeđuje oznake kontrole pristupa svojih izvora. Ako je dokaz označen confidential, samo korisnici s ulogom Compliance Manager mogu vidjeti pripadajući odgovor.

Revizijski zapisi bilježe:

Tko je odobrio AI odgovor.
Kada je odgovor generiran.
Koji dokazi su upotrebljeni (uključujući hash‑ove verzija).

Ti zapisi mogu se izvesti u revizijske nadzorne ploče (npr. Splunk, Elastic) za kontinuirano praćenje.

6. Skaliranje

Problem	Rješenje
Latencija vektorske pohrane	Postaviti distribuirani klaster (npr. Qdrant Cloud) i koristi keširanje za „top“ upite.
Trošak LLM‑a	Primijeniti mješavinu stručnjaka: mali open‑source model za rutinske klauzule, a veći model pružatelja usluga za kompleksne, visokorizične stavke.
Rast podataka	Primijeniti tiered storage: „hot“ dokaz (posljednjih 12 mj.) u SSD‑backed bucket‑ima, stariji artefakti arhivirati u hladnu objekt‑pohranu s pravilima životnog ciklusa.
Model Drift	Planirati kvartalne fine‑tuning sesije koristeći prikupljene recenzije i pratiti perplexity na validacijskom setu prošlih upitnika.

7. Okvir upravljanja

Matrica vlasništva – Dodijeliti Data Steward za svako područje dokaza (politika, skeniranje, incidenti). Oni odobravaju cjevovode unosa i sheme metapodataka.
Upravljanje promjenama – Svako ažuriranje izvornog dokumenta automatski pokreće ponovno evaluiranje svih odgovora koji ga citiraju, označavajući ih za reviziju.
Kontrole privatnosti – Osjetljivi dokazi (npr. penetration test izvještaji) šifrirani su u mirovanju KMS ključem koji se rotira godišnje. Evidencija pristupa čuva se 2 godine.
Izvoz usklađenosti – Periodični posao sastavlja zip paket svih dokaza + odgovora za određeno revizijsko razdoblje, potpisan organizacijskim PGP ključem radi provjere integriteta.

8. Korak‑po‑korak popis za implementaciju

Faza	Akcija	Alati/Tehnologija
1. Osnove	Postaviti bucket objektne pohrane s versioniranjem	AWS S3 + Object Lock
	Implementirati MongoDB za metapodatke	MongoDB Atlas
2. Unos	Izraditi CI pipeline za Git‑based politike	GitHub Actions → Python skripte
	Konfigurirati API dohvat za skenere	AWS Lambda + API Gateway
3. Indeksiranje	Pokrenuti OCR na PDF‑ove, generirati vektore	Tesseract + sentence‑transformers
	Učitaj vektore u pohranu	Qdrant (Docker)
4. AI sloj	Fine‑tuning LLM‑a na internim podacima usklađenosti	OpenAI fine‑tune / LLaMA 2
	Implementirati RAG servis (FastAPI)	FastAPI, LangChain
5. Integracija	Povezati Procurize webhook s RAG krajnjom točkom	Node.js middleware
	Proširiti UI s panelom dokaza	React komponentna biblioteka
6. Upravljanje	Definirati SOP‑ove za označavanje dokaza	Confluence dokumenti
	Postaviti proslijeđivanje revizijskih zapisa	CloudWatch → Splunk
7. Monitoring	Dashboard za latenciju, povjerenje	Grafana + Prometheus
	Periodični pregled performansi modela	Jupyter notebooki

9. Mini‑studija slučaja (realni učinak)

Tvrtka: FinTech SaaS pružatelj s 300 zaposlenika, SOC 2‑Type II certificiran.

Metrika	Prije CER‑a	Nakon CER‑a (3 mjeseca)
Prosječno vrijeme odgovora na klauzulu	45 min (ručno traženje)	3 min (AI preuzimanje)
% odgovora zahtijeva ručnu izmjenu	38 %	12 %
Revizijski nalazi vezani uz zastarjele dokaze	4	0
Zadovoljstvo tima (NPS)	32	71

Najveći dobitak bio je eliminacija revizijskih nalaza uzrokovanih zastarjelim referencama politika. Automatskim ponovnim evaluiranjem odgovora pri svakoj promjeni politike, tim je mogao demonstrirati „kontinuiranu usklađenost“ revizorima, pretvarajući tradicionalni rizik u konkurentsku prednost.

10. Budući smjerovi

Međusobno dijeljenje grafova znanja: Anonimizirane sheme dokaza dijeliti s ekosustavom partnera radi ubrzavanja zajedničkih inicijativa usklađenosti.
Prognoza regulative: Uvesti nadolazeće regulatorne nacrte u CER‑ov cjevovod, predtrenirajući LLM na „buduće“ kontrole.
Generativno stvaranje dokaza: Koristiti AI za izradu početnih verzija politika (npr. nove procedure čuvanja podataka) koje se potom pregledaju i zaključaju u spremište.

11. Zaključak

Kontinuirano spremište dokaza pretvara statične artefakte usklađenosti u živu, AI‑poboljšanu bazu znanja. Kombinacijom semantičkog pretraživanja vektora i retrieval‑augmented generation, organizacije mogu odgovarati na sigurnosne upitnike u stvarnom vremenu, održavati spremnost za reviziju i osloboditi svoje sigurnosne timove od tereta ručnog rada.

Implementacija ove arhitekture na vrhu Procurize‑a ne samo da ubrzava vrijeme odgovora, već gradi temelj usklađenosti spreman za budućnost, sposoban evoluirati uz promjene regulative, tehnologija i poslovnog rasta.

Vidi također

Procurize dokumentacija – Automatizacija radnih tokova upitnika
NIST SP 800‑53 Rev 5 – Mapiranje kontrola za automatiziranu usklađenost
Qdrant vektorsko pretraživanje – Obrasci skalabilnosti