מנוע המלצת ראיות קונטקסטואליות לשאלונים בטחוניים אוטומטיים

TL;DR – מנוע המלצת ראיות מודע להקשר (CERE) משלב מודלי שפה גדולים (LLMs) עם גרף ידע מתעדכן באופן מתמשך כדי להציג למ auditors וצוותי האבטחה את הראייה המדויקת שהם זקוקים לה – ברגע שהם זקוקים לה. התוצאה היא קיצור של 60‑80 % בזמן החיפוש הידני, דיוק גבוה יותר בתשובות, ותהליך ציות שמסתגל למהירות הפיתוח של SaaS מודרני.

1. למה מנוע המלצות הוא הקשר החסר

שאלונים בטחוניים, בדיקות מוכנות ל‑SOC 2, ביקורות ISO 27001, והערכות סיכון ספקים חולקים נקודת כאב משותפת: החיפוש אחרי הראייה המתאימה. הצוותים בדרך כלל שומרים מאגר מרחב של מדיניות, דוחות ביקורת, תמונות תצורה, והצהרות של צד שלישי. כאשר מגיע שאלון, אנליסט ציות צריך:

לפרש את השאלה (בדרך כלל בשפה טבעית, לעיתים עם מונחים ספציפיים לתעשייה).
זהות את תחום הבקרה (לדוגמה, “ניהול גישה”, “שמירת נתונים”).
לחפש במאגר מסמכים שעונים על הבקרה.
להעתיק‑הדבק או לכתוב מחדש את התשובה, ולהוסיף הערות קונטקסטואליות.

גם עם כלי חיפוש מתוחכמים, הלולאה הידנית יכולה לצרוך כמה שעות לכל שאלון, בייחוד כאשר הראיות מבוזרות במספר חשבונות ענן, מערכות ניהול קריאות, ומאגרי קבצים מיושנים. הטבע השגוי של תהליך זה גורם לעייפות ציות ויכול להוביל להחמצת מועדים או תשובות מוטעות — שני גורמים יקרים לעסק SaaS בצמיחה מהירה.

הנה CERE: מנוע שמציג באופן אוטומטי את פריטי הראייה הרלוונטיים ברגע שהשאלה מוזנת, בזכות שילוב של הבנה סמנטית (LLMs) והיסק רלאציוני (טרנסברז גרף ידע).

2. עמודי האדריכלות המרכזיים

CERE נבנה על שלושה שכבות צמודות:

שכבה	אחריות	טכנולוגיות מרכזיות
שכבת כוונת סמנטית	ממירה את טקסט השאלון הגולמי לכוונה מובנית (משפחת בקרה, רמת סיכון, סוג הארטיפקט הדרוש).	LLM עם פרומפט הנדסי (לדוגמא Claude‑3, GPT‑4o) + ייצור משלים-שחזור (RAG)
גרף ידע דינמי (DKG)	מאחסן ישויות (מסמכים, בקרות, נכסים) וקשריהם, מתעדכן באופן מתמשך ממקורות המערכת.	Neo4j/JanusGraph, GraphQL API, צינורות Change‑Data‑Capture (CDC)
מנוע המלצות	מריץ שאילתות גרף מונחות כוונה, מדרג ראיות מועמדות, ומחזיר המלצה תמציתית עם מדד אמינות.	רשת נוירונים גרפית (GNN) לדירוג רלוונטיות, לולאת למידת חיזוק לשילוב משוב

להלן תרשים Mermaid שממחיש את זרימת הנתונים.

  flowchart LR
    A["המשתמש מגיש שאלה משאלון"]
    B["LLM מפענח כוונה\n(בקרת, סיכון, סוג ארטיפקט)"]
    C["חיפוש ב‑DKG על בסיס כוונה"]
    D["דירוג רלוונטיות באמצעות GNN"]
    E["פריטי ראייה Top‑K"]
    F["ממשק משתמש מציג המלצה\nעם רמת אמינות"]
    G["משוב משתמש (קבלה/דחייה)"]
    H["לולאת מודל חיזוק מעדכנת משקולות GNN"]
    A --> B --> C --> D --> E --> F
    F --> G --> H --> D

כל תוויות הצמתים מוקפות במרכאות כפולות כפי שנדרש.

3. מטקסט לכוונה: LLM עם פרומפט הנדסי

השלב הראשון הוא להבין את השאלה. פרומפט מדויק מחלץ שלושה איתותים:

מזהה בקרה – לדוגמא, “ISO 27001 A.9.2.3 – ניהול סיסמאות”.
קטגוריית ראייה – לדוגמא, “מסמך מדיניות”, “ייצוא תצורה”, “יומן ביקורת”.
קונטקסט סיכון – “סיכון גבוה, גישה חיצונית”.

דוגמת פרומפט (קצר מטעמי אבטחה) נראית כך:

You are a compliance analyst. Return a JSON object with the fields:
{
  "control": "<standard ID and title>",
  "evidence_type": "<policy|config|log|report>",
  "risk_tier": "<low|medium|high>"
}
Question: {question}

פלט ה‑LLM נבדק מול סכמת JSON, ולאחר האימות מועבר לבונה שאילתת DKG.

4. גרף הידע הדינמי (DKG)

4.1 מודל ישויות

ישות	מאפיינים	קשרים
Document	`doc_id`, `title`, `type`, `source_system`, `last_modified`	`PROVIDES` → `Control`
Control	`standard_id`, `title`, `domain`	`REQUIRES` → `Evidence_Type`
Asset	`asset_id`, `cloud_provider`, `environment`	`HOSTS` → `Document`
User	`user_id`, `role`	`INTERACTS_WITH` → `Document`

4.2 סנכרון בזמן אמת

Procurize משולב כבר עם כלי SaaS כגון GitHub, Confluence, ServiceNow, ו‑APIs של ספקי ענן. שירות מיקרו‑פלט מקור מבוסס CDC צופה אירועי CRUD ומעדכן את הגרף תוך סיביות ספורות, תוך שמירה על אודיטביליות (כל קשת נושאת source_event_id).

5. נתיב המלצה מבוסס גרף

בחירת צומת עיגון – ה‑control מהכוונה הופך לצומת ההתחלתי.
הרחבת מסלול – חיפוש ברוחב (BFS) חוקר קשתות PROVIDES המוגבלות ל‑evidence_type שהחזיר ה‑LLM.
חילוץ תכונות – לכל מסמך מועמד נבנה וקטור מתכונות:
- דמיון טקסטואלי (הטמעה מה‑LLM עצמו).
- עדכניות זמנית (last_modified).
- תדירות שימוש (מספר הפניות במספר שאלונים קודמים).
דירוג רלוונטיות – רשת נוירונים גרפית (GNN) מצרפת תכונות צומת וקשת, ומייצרת ציון s ∈ [0,1].
מיון & אמינות – המסמכים המובילים (Top‑K) ממוינים לפי s; המנוע מציג גם אחוז אמינות (למשל, “85 % בטוח שמדיניות זו ממלאת את הדרישה”).

6. משוב אנושי בלולאת הלמידה

אף המלצה איננה מושלמת מההתחלה. CERE קולט את החלטת קבלה/דחייה וכל משוב חופשי. הנתונים מזינים לולאת למידת חיזוק (RL) שמעדכנת את רשת ה‑GNN, כך שהמודל מתואם עם העדפות הרלוונטיות של הארגון.

צינור ה‑RL פועל לילה:

  stateDiagram-v2
    [*] --> CollectFeedback
    CollectFeedback --> UpdateRewards
    UpdateRewards --> TrainGNN
    TrainGNN --> DeployModel
    DeployModel --> [*]

7. אינטגרציה עם Procurize

Procurize מציע כבר מרכז שאלונים מאוחד שבו משתמשים יכולים להקצות משימות, להגיב, ולצרף ראיות. CERE משולב כווידג’ט שדה חכם:

כאשר האנליסט לוחץ על „הוסף ראייה”, הווידג’ט מפעיל את צינור LLM‑DKG.
מסמכי ההמלצה מופיעים ככרטיסים לחיצה, ולכל כרטיס כפתור „הכנס ציטוט” שמייצר באופן אוטומטי את ההתייחסות במרקאפ Markdown המתאים לשאלון.
בסביבות מרובות שוכרים, המנוע מכבד מחיצות נתונים לפי שוכר – גרף הידע של כל לקוח מבודד, מה שמבטיח סודיות, ובמקביל מאפשר למידת חיזוק חוצת שוכרים באופן שומר פרטיות (אגרגציית משקולות GNN בפדרציה).

8. יתרונות מדידים

מדד	בסיס (ידני)	עם CERE
זמן חיפוש ראייה ממוצע	15 דקות לכל שאלה	2‑3 דקות
דיוק תשובה (שיעור passing audit)	87 %	95 %
שביעות רצון צוות (NPS)	32	68
צמצום עומס ציות	4 שבועות	1 שבוע

פיילוט עם פינטק בגודל בינוני (≈200 עובדים) הראה קיצור של 72 % בזמן הטיפול בשאלונים ו‑30 % ירידה במעגלי תיקון לאחר החודש הראשון.

9. אתגרים ופתרונות

אתגר	פתרון
התחלה קרה לבקרות חדשות – אין הפניות היסטוריות.	מזינים את הגרף בתבניות מדיניות סטנדרטיות, ולאחר מכן משתמשים בלמידת העברה מבקרות דומות.
פרטיות נתונים בין שוכרים – סיכון דליפה בעדכוני מודל משותפים.	מאמצים למידה פדרלית: כל שוכר מאמן מקומי, ורק הפרשי משקולות מצורפים למרכז.
הזיות של LLM – זיהוי של קודי בקרה שגויים.	מאמתים את הפלט של ה‑LLM מול רשם בקרים קנוני (ISO, SOC, NIST) לפני חיפוש בגרף.
שחיקה של גרף – קשרים בלתי עדכניים לאחר מהגרות ענן.	צינורות CDC מבטיחים עקביות סופית, ובדיקה תקופתית של בריאות הגרף.

10. מפת דרכים עתידית

שחזור מולטימודלי של ראיות – שילוב צילומי מסך, דיאגרמות תצורה, וסרטוני walkthrough באמצעות מודלים המיועדים לראייה.
רדאר רגולטורי חזוי – אינטגרציה של מקורות עדכונים רגולטוריים בזמן אמת (כגון תיקוני GDPR) כדי לעדכן את ה‑DKG מראש.
לוח מחוונים עם AI מוסבר – הצגת סיבת דירוג ראייה (נתיב גרף, תרומת תכונות).
גרף מתקן עצמי – זיהוי ישויות יתומות ותיקונן באופן אוטומטי בעזרת רוזולוציית ישויות מבוססת AI.

11. סיכום

מנוע המלצת ראיות קונטקסטואליות משנה את האמנות הידנית של מענה לשאלונים בטחוניים לחוויה מונחת נתונים ובזמן אמת. על‑ידי שילוב של פענוח סמנטי של LLM עם גרף ידע חי ומנוע דירוג מבוסס GNN, CERE מספק את הראייה הנכונה, ברגע הנכון, עם רווחים נמדדים במהירות, דיוק וביטחון הציות. ככל שארגוני SaaS ממשיכים לצמוח, סיוע אינטיליגנטי מסוג זה יהפוך מאופציה נוחה לשורש של תפעול עמיד וצייתן.