Ontologicky založený prompt engine pro sjednocení bezpečnostních dotazníků

TL;DR – Ontologicky orientovaný prompt engine vytváří sémantický most mezi protichůdnými rámcemi compliance, což umožňuje generativní AI poskytovat jednotné, auditovatelné odpovědi na jakýkoli bezpečnostní dotazník při zachování kontextové relevance a regulační věrnosti.

1. Proč je potřeba nový přístup

Bezpečnostní dotazníky zůstávají hlavní úzkou hrdlou pro SaaS dodavatele. I když nástroje jako Procurize centralizují dokumenty a automatizují pracovní postupy, sémantická mezera mezi různými standardy stále nutí týmy bezpečnosti, práv a inženýrství přepisovat stejné důkazy opakovaně:

Rámec	Typická otázka	Ukázková odpověď
SOC 2	Popište šifrování vašich dat v klidu.	„Všechna zákaznická data jsou šifrována pomocí AES‑256…“
ISO 27001	Jak chráníte uložené informace?	„Implementujeme šifrování AES‑256…“
GDPR	Vysvětlete technická opatření na ochranu osobních údajů.	„Data jsou šifrována pomocí AES‑256 a rotována čtvrtletně.“

Ačkoliv je podkladová kontrola identická, liší se formulace, rozsah a očekávané důkazy. Stávající AI pipeline to řeší laděním promptu pro každý rámec, což se rychle stává neudržitelným, jak počet standardů roste.

Ontologicky založený prompt engine řeší problém u kořene: vytvoří jednu, formální reprezentaci koncepčních prvků compliance a namapuje jazyk každého dotazníku na tento sdílený model. AI tak potřebuje pochopit jen jeden „kanonický“ prompt, zatímco ontologie provádí těžkou práci překladu, verzování a odůvodnění.

2. Hlavní komponenty architektury

Níže je high‑level pohled na řešení vyjádřený jako Mermaid diagram. Všechny štítky uzlů jsou uzavřeny v uvozovkách, jak je požadováno.

  graph TD
    A["Úložiště regulační ontologie"] --> B["Mapovače rámců"]
    B --> C["Generátor kanonického promptu"]
    C --> D["Engine pro inference LLM"]
    D --> E["Renderer odpovědí"]
    E --> F["Záznamník auditu"]
    G["Repozitář důkazů"] --> C
    H["Služba detekce změn"] --> A

Úložiště regulační ontologie – graf znalostí zachycující koncepty (např. šifrování, řízení přístupu), vztahy (vyžaduje, dědí) a jurisdikční atributy.
Mapovače rámců – lehké adaptéry, které parsují příchozí položky dotazníku, identifikují odpovídající uzly ontologie a přiřadí skóre důvěry.
Generátor kanonického promptu – vytváří jediný, kontextově bohatý prompt pro LLM pomocí normalizovaných definic ontologie a propojených důkazů.
Engine pro inference LLM – libovolný generativní model (GPT‑4o, Claude 3 atd.), který produkuje odpověď v přirozeném jazyce.
Renderer odpovědí – formátuje surový výstup LLM do požadované struktury dotazníku (PDF, markdown, JSON).
Záznamník auditu – uchovává rozhodnutí o mapování, verzi promptu a LLM odpověď pro revizi compliance a budoucí trénink.
Repozitář důkazů – ukládá politické dokumenty, auditní zprávy a odkazy na artefakty, na které se odpovědi odkazují.
Služba detekce změn – monitoruje aktualizace standardů či interních politik a automaticky propaguje změny skrze ontologii.

3. Vytváření ontologie

3.1 Datové zdroje

Zdroj	Příklad entit	Metoda extrakce
ISO 27001 Annex A	“Cryptographic Controls”, “Physical Security”	Pravidlové parsování ISO klauzulí
SOC 2 Trust Services Criteria	“Availability”, “Confidentiality”	NLP klasifikace na základě SOC dokumentace
GDPR Recitals & Articles	“Data Minimisation”, “Right to Erasure”	Extrakce entit‑vztahů pomocí spaCy + vlastní vzory
Interní Vault politik	“Company‑wide Encryption Policy”	Přímý import z YAML/Markdown souborů politik

Každý zdroj přispívá uzly konceptů (C) a hrany vztahů (R). Např. “AES‑256” je technika (C), která implementuje kontrolu “Data at Rest Encryption” (C). Odkazy jsou anotovány provenance (zdroj, verze) a důvěrou.

3.2 Pravidla normalizace

Aby nedocházelo k duplikaci, jsou koncepty canonicalizovány:

Raw Term	Normalized Form
“Encryption at Rest”	`encryption_at_rest`
“Data Encryption”	`encryption_at_rest`
“AES‑256 Encryption”	`aes_256` (podtyp `encryption_algorithm`)

Normalizaci provádí slovník‑řízený fuzzy matcher, který se učí z lidsky schválených mapování.

3.3 Strategie verzování

Standardy compliance se vyvíjejí; ontologie používá semantické verzování (MAJOR.MINOR.PATCH). Když se objeví nová klauzule, provede se menší (minor) zvýšení, což spustí přehodnocení postihnutých promptů. Záznamník auditu zachytí přesnou verzi ontologie použitou pro každou odpověď, což umožňuje sledovatelnost.

4. Generování promptu v praxi

4.1 Od dotazníku k uzlu ontologie

“Do you encrypt backups stored off‑site?”

Mapovač rámců provede vyhledávání podobnosti v ontologii a vrátí uzel encryption_at_rest s důvěrou 0,96. Také vyextrahuje doplňující atributy (backups, off‑site) jako tagy.

4.2 Šablona kanonického promptu

You are an expert compliance officer. Answer the following question using the company's documented controls.

Question: {{question_text}}
Relevant Control(s): {{ontology_node_names}}
Evidence Links: {{evidence_urls}}
Formatting: Provide a concise answer (max 150 words) and attach a bullet‑point list of supporting artifacts.

Engine nahradí zmapované uzly ontologie a načte nejnovější odkazy na důkazy z Repozitáře důkazů. Protože podkladová kontrola je stejná pro všechny rámce, LLM dostane konzistentní kontext, což eliminuje variace způsobené rozdílnou formulací.

4.3 Příklad výstupu LLM

Answer: Yes, all off‑site backups are encrypted using AES‑256 with a unique key per backup set. Encryption keys are managed in our HSM‑protected vault and rotated quarterly.
Supporting Artifacts:
Backup Encryption Policy – https://repo.company.com/policies/backup-encryption.pdf
HSM Key Rotation Log – https://repo.company.com/audit/hsm-rotation.json

Renderer odpovědí poté formátuje tento výstup do konkrétní struktury dotazníku (např. tabulka pro ISO, volné pole pro SOC 2).

5. Výhody oproti tradičnímu ladění promptů

Metric	Tradiční ladění promptu	Ontologicky založený engine
Scalability	Jeden prompt na rámec → lineární růst	Jediný kanonický prompt → konstantní
Consistency	Rozdílné formulace napříč rámci	Jednotná odpověď generovaná z jednoho zdroje
Auditability	Manuální sledování verzí promptu	Automatizované verzování ontologie + auditní log
Adaptability	Nutnost retréninku při každé aktualizaci standardu	Detekce změn automaticky propagována přes ontologii
Maintenance Overhead	Vysoký – desítky souborů promptů	Nízký – jednovrstevná mapovací vrstva a graf znalostí

Ve skutečných testech v Procurize ontologický engine snížil průměrnou dobu generování odpovědi z 7 s (laděný prompt) na 2 s, přičemž zvýšil podobnost napříč rámci (BLEU skóre +18 %).

6. Tipy pro implementaci

Začněte malým – nejprve naplňte ontologii nejčastějšími kontrolami (šifrování, řízení přístupu, logování) před rozšířením.
Využijte existující grafy – projekty jako Schema.org, OpenControl a CAPEC nabízejí předpřipravené slovníky, které lze rozšířit.
Použijte grafovou databázi – Neo4j nebo Amazon Neptune efektivně zvládají složité traversály a verzování.
Integrujte CI/CD – považujte změny ontologie za kód; spusťte automatické testy ověřující správnost mapování na vzorové sadě dotazníků.
Lidé v cyklu – poskytujte UI pro analytiky bezpečnosti, aby schvalovali nebo opravovali mapování, čímž posilujete fuzzy matcher.

7. Budoucí rozšíření

Federovaná synchronizace ontologií – společnosti mohou sdílet anonymizované části svých ontologií a vytvořit tak komunitní databázi compliance.
Vrstva vysvětlitelné AI – k každé odpovědi připojit graf odůvodnění, který vizualizuje, jaké uzly ontologie přispěly k finálnímu textu.
Integrace zero‑knowledge proof – pro vysoce regulované odvětví zavést zk‑SNARK důkazy, které potvrzují správnost mapování, aniž by odhalovaly citlivé politické texty.

8. Závěr

Ontologicky řízený prompt engine představuje paradigmatický posun v automatizaci bezpečnostních dotazníků. Unifikací rozmanitých standardů pod jediným, verzovaným grafem znalostí mohou organizace:

Eliminovat duplicitní manuální práci napříč rámcemi.
Zaručit konzistenci a auditovatelnost odpovědí.
Rychle reagovat na změny regulací s minimálním technickým úsilím.

V kombinaci s platformou Procurize tento přístup umožňuje týmům bezpečnosti, práv a produktového vývoje reagovat na vendorové hodnocení během minut místo dnů, čímž promění compliance z nákladového centra na konkurenceschopnou výhodu.

Viz také

OpenControl GitHub Repository – Open‑source politiky‑jako‑kód a definice kontrol compliance.
MITRE ATT&CK® Knowledge Base – Strukturovaná taxonomie technik útočníků vhodná pro budování bezpečnostních ontologií.
ISO/IEC 27001:2025 Standard Overview – Nejnovější verze standardu řízení informační bezpečnosti.