Komponovatelná AI Mikro‑službová architektura pro škálovatelnou automatizaci bezpečnostních dotazníků

Podniky se topí v neustále rostoucím množství bezpečnostních dotazníků, hodnocení dodavatelů a auditů souhlasu. Tradiční monolitické nástroje mají problémy držet krok, zejména když musejí integrovat rozmanité ekosystémy produktů, podporovat vícejazyčné požadavky a poskytovat auditní stopu v reálném čase.

Komponovatelná mikro‑službová architektura, postavená na velkých jazykových modelech (LLM) a retrieval‑augmented generation (RAG), nabízí způsob, jak škálovat automatizaci a přitom zachovat flexibilitu a řízení, které regulované odvětví vyžadují. V tomto průvodci:

Popíšeme hlavní principy návrhu, které udržují systém bezpečný, auditovatelný a rozšiřitelný.
Projdeme referenční implementaci znázorněnou diagramem v Mermaid.
Ukážeme, jak lze každou službu nasadit nezávisle v Kubernetes, serverless FaaS nebo na edge runtime.
Poskytneme konkrétní doporučení nejlepších postupů pro správu dat, pozorovatelnost a kontinuální zlepšování.

TL;DR: Rozdělte platformu automatizace dotazníků na malé, dobře definované služby, nechte LLM fungovat za stateless inference layer a použijte event‑driven pipelines k udržení jediné pravdy pro důkazy a verzování.

1. Proč komponovat místo stavět obrovský monolit?

Monolitický přístup	Komponovatelná mikro‑služba
Jediný kódový základ, těžko škálovat specifické pracovní zatížení (např. inference LLM).	Nezávislé škálování – AI inference může běžet na GPU nodech, zatímco úložiště zůstane na cenově efektivních objektových storech.
Těsná provázanost ztěžuje aktualizace; chyba v UI může zhrouznout celý systém.	Volná provázanost pomocí asynchronních událostí nebo HTTP API izoluje selhání.
Omezená jazyková integrace – často vázáno na jeden stack.	Polyglot podpora – každá služba může být napsána v nejvhodnějším jazyce (Go pro auth, Python pro orchestraci LLM, Rust pro vysokorychlostní pipeline).
Auditing a compliance se stávají noční můrou, protože logy jsou propojené.	Centralizovaný event store + neměnný auditní log poskytuje jasnou, dotazovatelnou stopu pro regulátory.

Komponovatelný model přijímá filozofii „vytvoříš jen to, co potřebuješ, a nahradíš to, co nepotřebuješ“. Odpovídá dynamické povaze bezpečnostních dotazníků, kde se pravidelně objevují nové rámce (např. ISO 27001 Rev 2) a týmy musí rychle reagovat.

2. Základní pilíře architektury

Stateless API Gateway – vstupní bod pro UI, SaaS konektory a externí nástroje. Zajišťuje autentizaci, validaci požadavků a throttling.
Doménově specifické mikro‑služby – každá kapslízuje omezený kontext:
- Questionnaire Service – ukládá metadata dotazníků, verzování a přiřazení úkolů.
- Evidence Service – spravuje artefakty (politiky, screenshoty, auditní logy) v neměnném objektovém úložišti.
- AI Orchestration Service – skládá prompty, spouští RAG pipeline a vrací návrhy odpovědí.
- Change‑Detection Service – sleduje aktualizace důkazů, spouští přehodnocení ovlivněných odpovědí.
- Notification Service – posílá události do Slacku, Teams nebo e‑mailu.
Event Bus (Kafka / Pulsar) – zajišťuje doručení událostí alespoň jednou (EvidenceUploaded, AnswerDrafted).
Observability Stack – OpenTelemetry trace napříč službami, Prometheus metriky, Loki logy.
Policy‑as‑Code Engine – vyhodnocuje soulad s pravidly (např. v Rego nebo OPA) před tím, než je odpověď označena jako „konečná“.

Všechny služby komunikují přes gRPC (pro nízkou latenci) nebo REST (pro externí integrace). Navrhováme hloupé trubky, chytré koncové body – logika zůstává tam, kde patří, zatímco bus jen přenáší zprávy.

3. Tok dat – od otázky k auditovatelné odpovědi

Níže je Mermaid diagram, který vizualizuje typický životní cyklus požadavku.

  flowchart TD
    subgraph UI["Uživatelské rozhraní"]
        UI1["\"Webové UI\""] -->|Odeslat dotazník| AG["\"API brána\""]
    end

    AG -->|Auth & Validate| QMS["\"Služba dotazníků\""]
    QMS -->|Fetch template| AIOS["\"Služba orchestraci AI\""]
    AIOS -->|Retrieve relevant evidence| ES["\"Služba důkazů\""]
    ES -->|Evidence objects| AIOS
    AIOS -->|Generate draft answer| RAG["\"RAG potrubí\""]
    RAG -->|LLM output| AIOS
    AIOS -->|Store draft| QMS
    QMS -->|Emit AnswerDrafted| EB["\"Událostní sběrnice\""]
    EB -->|Trigger| CDS["\"Služba detekce změn\""]
    CDS -->|Re‑run if evidence changed| AIOS
    CDS -->|Emit AnswerUpdated| EB
    EB -->|Notify| NS["\"Služba oznamování\""]
    NS -->|Push to Slack/Email| UI

    style UI fill:#f9f,stroke:#333,stroke-width:2px
    style AG fill:#bbf,stroke:#333,stroke-width:1px
    style QMS fill:#bfb,stroke:#333,stroke-width:1px
    style AIOS fill:#ffb,stroke:#333,stroke-width:1px
    style ES fill:#fbb,stroke:#333,stroke-width:1px
    style RAG fill:#fdd,stroke:#333,stroke-width:1px
    style CDS fill:#ddf,stroke:#333,stroke-width:1px
    style NS fill:#cfc,stroke:#333,stroke-width:1px

Klíčové okamžiky v toku:

Uživatel odešle nový dotazník nebo vybere existující.
API brána ověří JWT, zkontroluje limity a předá požadavek službě dotazníků.
Služba dotazníků načte šablonu dotazníku a pošle událost do AI orchestrace.
AI Orchestration provede retrieval krok – dotáže se služby důkazů na artefakty relevantní k dané kontrole (vektorová podobnost nebo keyword match).
Získaný kontext spolu s prompt šablonou vstoupí do RAG potrubí (např. openAI/gpt‑4o‑preview).
Návrh odpovědi se uloží zpět do služby dotazníků a označí se jako „čeká na revizi“.
Služba detekce změn sleduje nové nahrání důkazů. Pokud se politika změní, přepustí RAG pipeline pro dotčené odpovědi.
Po schválení revizorem Policy‑as‑Code Engine ověří, že odpověď splňuje všechna pravidla, a zaznamená ji do neměnného auditního logu.

4. Implementační detaily

4.1. API Gateway (Envoy + OIDC)

Routing – POST /questionnaires/:id/answers → questionnaire-service.
Security – vynutí scopes (questionnaire:write).
Rate limiting – 100 požadavků/min na tenant, chrání před nechtěnými LLM náklady.

4.2. Questionnaire Service (Go)

type Questionnaire struct {
    ID          string            `json:"id"`
    Version     int               `json:"version"`
    Controls    []Control        `json:"controls"`
    Drafts      map[string]Answer `json:"drafts"` // key = control ID
    AssignedTo  map[string]string `json:"assigned_to"` // userID
}

Používá PostgreSQL pro relační data, EventStoreDB pro doménové události.
Exponuje gRPC metody GetTemplate, SaveDraft, FinalizeAnswer.

4.3. Evidence Service (Python + FastAPI)

Ukládá soubory v MinIO nebo AWS S3 s šifrováním na úrovni bucketu.
Indexuje obsah v Qdrant (vektorová DB) pro vyhledávání podobnosti.
Poskytuje endpoint POST /search přijímající dotaz a vracející top‑k ID artefaktů.

4.4. AI Orchestration Service (Python)

def generate_answer(question: str, evidence_ids: List[str]) -> str:
    evidence = fetch_evidence(evidence_ids)
    context = "\n".join(evidence)
    prompt = f"""You are a compliance specialist.
    Using the following evidence, answer the question concisely:\n{context}\n\nQuestion: {question}"""
    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{"role":"system","content":prompt}]
    )
    return response.choices[0].message.content

RAG – Kombinuje vektorové vyhledávání s promptem, který instruuje model citovat ID důkazů.
Caching – Ukládá generované odpovědi na 24 h, aby se snížil počet LLM volání.

4.5. Change‑Detection Service (Rust)

Odebírá události EvidenceUploaded.
Vypočítá hash nového artefaktu a provede diff vůči existujícím důkazům navázaným na každou kontrolu.
Pokud diff překročí konfigurovatelný práh, publikuje AnswerRequiresRegen.

4.6. Notification Service (Node.js)

Poslouchá AnswerDrafted, AnswerFinalized, AnswerRequiresRegen.
Formátuje Slack bloky, Teams Adaptive Cards nebo e‑mailové šablony.
Podporuje deduplication – notifikace je odeslána jen jednou na změnu per dotazník.

5. Bezpečnost & Governance

Oblast	Opatření
Únik dat – Prompt LLM může obsahovat citlivé politiky.	Používat on‑prem LLM inference (např. Llama 3.2) za VPC. Maskovat PII před odesláním na externí API.
Neoprávněný přístup k důkazům	Vynutit jemnozrnné ACL pomocí OPA politik ve službě důkazů.
Model drift – kvalita odpovědí se s časem snižuje.	Plánovat periodické hodnocení vůči benchmark korpusu a přeškolovat prompt šablony.
Auditovatelnost	Každá změna stavu je zaznamenána v neměnném event logu uloženém na WORM S3.
GDPR/CCPA	Implementovat workflow právo být zapomenut, který smaže uživatelské důkazy z vektorové DB i objektového úložiště.
ISO 27001	Ověřit, že retention, šifrování a řízení přístupu splňují požadavky ISO 27001.
HIPAA / SOC 2	Rozšířit OPA pravidla o požadované bezpečnostní kontrolní body.

6. Strategie škálování

Horizontal Pod Autoscaling (HPA) – škálovat pod AI Orchestration na základě využití GPU (nvidia.com/gpu).
Burst‑able Queues – použít partitioning v Kafka pro izolaci trafficu high‑volume tenantů.
Cold‑Start Reduction – udržovat warm pool kontejnerů pro inference server (např. pomocí KEDA s custom scalerem).
Cost Controls – nastavit budget tokenů na tenant; při překročení automaticky omezit nebo fakturovat nadbytečnou spotřebu.

7. Pozorovatelnost & kontinuální zlepšování

Distributed Tracing – OpenTelemetry spany od UI požadavku → API brána → AI Orchestration → RAG → Evidence Service.
Metriky – answer_draft_latency_seconds, evidence_upload_bytes, llm_token_usage.
Log Aggregation – strukturované JSON logy s request_id propagovaným napříč službami.
Feedback Loop – po finalizaci odpovědi zachytávat komentáře revizora (review_score). Tyto data použít v reinforcement learning modelu, který upravuje teplotu promptu nebo volí alternativní zdroje důkazů.

8. Krok‑za‑krokem migrační plán pro existující týmy

Fáze	Cíl	Aktivity
0 – Discovery	Zmapovat současný workflow dotazníků.	Identifikovat datové zdroje, definovat taxonomii kontrol.
1 – Build Foundations	Nasadit API bránu, autentizaci a základní služby.	Containerizovat `questionnaire-service` a `evidence-service`.
2 – Introduce AI	Spustit RAG na pilotním dotazníku.	Použít sandbox LLM, manuálně ověřovat návrhy.
3 – Event‑Driven Automation	Propojit Change‑Detection pipeline.	Aktivovat auto‑regen při aktualizaci důkazů.
4 – Governance Harden	Přidat OPA politiky, neměnný audit log.	Přepnout na produkční on‑prem LLM.
5 – Scale & Optimize	Auto‑scale GPU pody, nastavit cost controls.	Deploy observability stack, definovat SLO.

Postupným nasazováním komponent se vyhnete riziku „big‑bang“ a můžete dříve demonstrovat návratnost investic (často 30‑50 % zkrácení doby zpracování dotazníků).

9. Budoucnost stacku

Federated Learning – trénovat lehké adaptéry na datech každého tenanta bez pohybu surových důkazů, čímž se zvýší relevance odpovědí a zachová suverenita dat.
Zero‑Trust Service Mesh – využít Istio nebo Linkerd s mutual TLS pro zabezpečení interního provozu.
Semantic Governance – rozšířit Policy‑as‑Code engine tak, aby ověřoval nejen obsah odpovědi, ale i sémantickou podobnost mezi důkazy a textem kontroly.
Generative Traceability – uložit přesnou teplotu, top‑p a system prompt každé LLM odpovědi vedle odpovědi pro forenzní kontrolu.

10. Závěr

Komponovatelná mikro‑službová architektura proměňuje automatizaci bezpečnostních dotazníků z bolestného manuálního úkolu na škálovatelný, auditovatelný a neustále se zlepšující motor. Oddělením odpovědností, využitím LLM v stateless RAG vrstvě a propojením všeho event‑driven backbone mohou organizace:

Reagovat na vendorové hodnocení během minut místo dnů.
Udržovat důkazy vždy aktuální díky automatickému detekčnímu mechanismu.
Poskytnout regulátorům jasnou, neměnnou auditní stopu.

Začněte malým, iterujte rychle a nechte filozofii mikro‑služeb vést vás k budoucnosti, kde je compliance funkcí, nikoli překážkou.

Další čtení

OPA Policy‑as‑Code pro mikro‑služby