מנוע ייחוס ראיות דינמי באמצעות רשתות נוירונים גרפיות

בעידן שבו שאלוני אבטחה מצטברים בקצב מהיר יותר מספירת ספרים בספרייה, ארגונים זקוקים לדרך חכמה יותר למצוא את הראייה הנכונה ברגע הנכון. רשתות נוירונים גרפיות (GNN) מציעות בדיוק זאת – דרך להבין את הקשרים המוסתרים בגרף הידע של הציות שלכם ולהציג את האובייקטים הרלוונטיים מיידית.

1. נקודת הכאב: חיפוש ראיות ידני

שאלוני אבטחה כגון SOC 2, ISO 27001 ו‑GDPR דורשים ראיות עבור עשרות בקרות. גישות מסורתיות מתבססות על:

חיפוש מילות‑מפתח במאגרי מסמכים
מיפוי ידני בין בקרות לראיות
תיוג סטטי על‑יסוד חוקים

שיטות אלה איטיות, שגויות, ו‑קשות למעקב כאשר מדיניות או תקנות משתנות. פריט ראייה אחד שנשמט יכול לעכב עסקה, לגרום לחוסר ציות, או לפגוע באמון הלקוחות.

2. למה רשתות נוירונים גרפיות?

מאגר הידע של הציות הוא בטבלאות גרף טבעי:

קודקודים – מדיניות, בקרות, מסמכי ראייה, סעיפים רגולטוריים, נכסי ספקים.
קשתות – “מבצע”, “ממש מ‑”, “מעודכן על‑ידי”, “קשור ל‑”.

רשתות נוירונים גרפיות מצטיינות בלמידת הטמעות קודקוד (node embeddings) שקולעות הן למידע האטיבי (למשל טקסט המסמך) והן להקשר המבני (איך הקודקוד מחובר לשאר הגרף). כאשר אתם שואלים על בקרה, ה‑GNN יכול לדרג קודקודי ראייה שהינם הכי תואמים סמנטית וטופולוגית, אפילו שהמילים המדויקות אינן תואמות.

יתרונות מרכזיים:

יתרון	מה מביאות רשתות נוירונים גרפיות
רלוונטיות קונטקסטואלית	ההטמעות משקפות את כל הגרף, ולא רק טקסט מבודד
התאמה לשינויים	אימון מחדש על קשתות חדשות מעדכן אוטומטית את הדירוגים
הסברתיות	ציוני תודעה (attention) מצביעים על הקשרים שהשפיעו על ההמלצה

3. ארכיטקטורה ברמה גבוהה

להלן תרשים מרמיד שמציג כיצד מנוע ייחוס הראיות הדינמי משתלב בתהליך העבודה של Procurize.

  graph LR
    A["Policy Repository"] -->|Parse & Index| B["Knowledge Graph Builder"]
    B --> C["Graph Database (Neo4j)"]
    C --> D["GNN Training Service"]
    D --> E["Node Embedding Store"]
    subgraph Procurize Core
        F["Questionnaire Manager"]
        G["Task Assignment Engine"]
        H["AI Answer Generator"]
    end
    I["User Query: Control ID"] --> H
    H --> J["Embedding Lookup (E)"]
    J --> K["Similarity Search (FAISS)"]
    K --> L["Top‑N Evidence Candidates"]
    L --> G
    G --> F
    style D fill:#f9f,stroke:#333,stroke-width:2px
    style E fill:#ff9,stroke:#333,stroke-width:2px

כל תוויות הצמתים מוקפות במרכאות כפולות כפי שנדרש במרמיד.

4. זרימת נתונים בפירוט

קליטה
- מדיניות, ספריות בקרות וקבצי ראייה בפורמט PDF נקלטים דרך מסגרת המחברים של Procurize.
- כל אובייקט נשמר בדלי מסמכים והמטא‑דטה שלו נשלפת (כותרת, גרסה, תגיות).
בניית גרף
- בונה גרף הידע יוצר קודקודים לכל אובייקט וקשתות על‑בסיס:
  - מיפויי בקרה ↔️ תקנה (לדוגמה ISO 27001 A.12.1 → GDPR סעיף 32)
  - ציטוטי ראייה ↔️ בקרה (מוכן מ‑PDFים בעזרת Document AI)
  - קשתות היסטוריית גרסאות (ראייה v2 “מעדכנת” ראייה v1)
יצירת מאפיינים
- תוכן הטקסט של כל קודקוד מקודד בעזרת מודל LLM מראש‑מאומן (למשל mistral‑7B‑instruct) לוקטור של 768 מימדים.
- מאפיינים מבניים כגון degree centrality, betweenness וסוגי הקשתות מתווספים.
אימון ה‑GNN
- אלגוריתם GraphSAGE מעביר מידע משכנים עד 3 קפיצות, ולומד הטמעות קודקוד שמכבדות הן את המשמעות והן את טופולוגיית הגרף.
- ההשגחה מגיעה מרשומות דיווח ייחוס היסטוריות: כאשר אנליסט אבטחה קושר ידנית ראיה לבקרה, זוג זה נחשב לדוגמת אימון חיובית.
דירוג בזמן אמת
- כאשר נפתח פריט שאלון, AI Answer Generator מבקש מה‑GNN את הטמעת הבקרה המבוקשת.
- חיפוש דמיון FAISS מחזיר את ההטמעות הקרובות ביותר, ומציג רשימת דירוג.
מעגל משוב אנושי
- אנליסטים יכולים לאשר, לדחות, או להזיז את ההצעות. פעולותיהם מוזנות חזרה ל‑pipeline האימון, ויוצרות לולאה של למידה מתמשכת.

5. נקודות אינטגרציה עם Procurize

רכיב Procurize	אינטראקציה
מחבר Document AI	חוקר טקסט מובנה מ‑PDFים ומזין את בונה הגרף.
Task Assignment Engine	יוצר משימות סקירה באופן אוטומטי עבור k‑ההצעות המובילות.
Commenting & Versioning	שומר משוב אנליסטים כמאפייני קשת (“review‑score”).
API Layer	חושף endpoint `/evidence/attribution?control_id=XYZ` לממשק המשתמש.
Audit Log Service	קולט כל החלטת ייחוס לצורכי מסלול ביקורת צייתנות.

6. אבטחה, פרטיות ומשילות

הוכחות אפס‑ידע (ZKP) לאחזור ראיות – ראיות רגישות אינן עוזבות את האחסון המוצפן; ה‑GNN מקבל רק ההטמעות גֻהְשׁוֹת.
פרטיות שונה‑דיפרנציאלי – במהלך האימון מוסיף רעש לעדכוני גרדיאנטים כדי להבטיח שלא ניתן לפרט את תרומת ראייה בודדת.
בקרת גישה מבוססת תפקיד (RBAC) – רק למשתמשים בתפקיד אנליסט ראיות ניתן לצפות במסמכים המלאים; בממשק מוצגת רק הקטע המומלץ על‑ידי ה‑GNN.
לוח מחוונים להסברתיות – מפת חום מציגה איזו קשת (למשל “covers”, “updates”) תרמה ביותר להמלצה, וכך ממלאת דרישות ביקורת.

7. מדריך יישום שלב‑אחר‑שלב

הקמת מסד נתונים גרפי

docker run -d -p 7474:7474 -p 7687:7687 \
  --name neo4j \
  -e NEO4J_AUTH=neo4j/securepwd \
  neo4j:5.15

התקנת בונה גרף הידע (חבילה Python procurize-kg)
```
pip install procurize-kg[neo4j,docai]
```

הפעלת צינור הקליטה

kg_builder --source ./policy_repo \
           --docai-token $DOCAI_TOKEN \
           --neo4j-uri bolt://localhost:7687 \
           --neo4j-auth neo4j/securepwd

הפעלת שירות אימון ה‑GNN (Docker‑compose)

version: "3.8"
services:
  gnn-trainer:
    image: procurize/gnn-trainer:latest
    environment:
      - NE04J_URI=bolt://neo4j:7687
      - NE04J_AUTH=neo4j/securepwd
      - TRAIN_EPOCHS=30
    ports:
      - "5000:5000"

חשיפת API הייחוס

from fastapi import FastAPI, Query
from gnns import EmbeddingService, SimilaritySearch

app = FastAPI()
emb_service = EmbeddingService()
sim_search = SimilaritySearch()

@app.get("/evidence/attribution")
async def attribute(control_id: str = Query(...)):
    control_emb = await emb_service.get_embedding(control_id)
    candidates = await sim_search.top_k(control_emb, k=5)
    return {"candidates": candidates}

חיבור לממשק משתמש של Procurize
- הוספת וידג’ט חדש אשר קורא ל‑/evidence/attribution בכל פתיחת כרטיס בקרה.
- הצגת התוצאות עם כפתורי קבלה שמפעילים POST /tasks/create עבור הראייה שנבחרה.

8. יתרונות מדידים

מדד	לפני ה‑GNN	לאחר ה‑GNN (פיילוט 30‑יום)
זמן חיפוש ממוצע של ראייה	4.2 דקות	18 שניות
מאמץ ייחוס ידני (איש‑שעות)	120 שעה / חודש	32 שעה / חודש
דיוק ההצעות (לפי אנליסטים)	68 %	92 %
שיפור מהירות סגירת עסקאות	–	+14 ימים בממוצע

הנתונים מהפיילוט מראים הפחתה של יותר מ‑75 % במאמץ ידני ועלייה משמעותית בביטחון של הסוקרים.

9. מפת דרכים עתידית

גרפים משותפים בין שכירים – למידה פדרטיבית בין מספר ארגונים תוך שמירת פרטיות הנתונים.
ראיות רב‑מודליות – שילוב קבצי קוד וקונפיגורציות יחד עם PDFs באמצעות טרנספורמרים רב‑מודליים.
שוק Prompt מותאם – יצירת Prompt של LLM אוטומטית על‑בסיס ראיות שמחלצות ה‑GNN, ליצירת צינור תשובה סגור.
גרף מתקן עצמי – זיהוי קודקודי ראייה מיותרים והצעת ארכיון או קישור מחדש באופן אוטומטי.

10. סיכום

מנוע ייחוס הראיות הדינמי משנה את רוטינת “חיפוש‑והדבקה” המשעממת לחוויה מונחית נתונים ובעלי אינטגרציה של AI. בעזרת רשתות נוירונים גרפיות, ארגונים יכולים:

להאיץ את השלמת השאלונים משניות לדקות.
להגביר את הדיוק של המלצות הראיות, ולצמצם ממצאי ביקורת.
לשמור על מסלול ביקורת מלא והסבריות, ובכך לעמוד בדרישות הרגולטוריות.

השתלבות מנוע זה עם כלי שיתוף הפעולה וניהול תהליכים של Procurize מספקת מקור אמת אחד לראיות הציות, ומאפשרת לצוותי אבטחה, משפטיים ומוצרים להתמקד באסטרטגיה במקום בניירת.

ראה גם

ISO 27001:2022 – Best Practices for Controls and Evidence Management