בניית מאגר ראיות רציף מבוסס בינה מלאכותית לאוטומציה של שאלונים אבטחתיים בזמן אמת

הארגונים של היום מתמודדים עם גל בלתי פוסק של שאלוני אבטחה, ביקורות ספקים ובקשות רגולטוריות. בעוד פלטפורמות כמו Procurize מרכזות כבר את מה—השאלונים והמשימות—עדיין קיים צוואר בקבוק מוסתר: הראיות שמגבות כל תשובה. ניהול ראיות מסורתי נשען על ספריות מסמכים סטטיות, קישור ידני וחיפושים אד‑הוק. התוצאה היא זרימת עבודה שבירה של “העתק‑והדבק” שמביאה שגיאות, עיכובים וסיכון לביקורת.

במדריך זה נסקור:

הגדרת מושג מאגר ראיות רציף (CER)—בסיס ידע חי שמתרחב עם כל מדיניות, שליטה או אירוע חדש.
הדגמת שימוש במודלי שפה גדולים (LLMs) כדי לחלץ, לסכם ולמקם ראיות בסעיפי שאלונים בזמן אמת.
הצגת ארכיטקטורה מקצה לקצה שמשלבת אחסון מבוסס גרסאות, העשרת מטא‑דאטה, ושליפה מונעת בינה מלאכותית.
מתן שלבים פרקטיים ליישום הפתרון בטופס Procurize, כולל נקודות אינטגרציה, שיקולי אבטחה וטיפים להרחבה.
דיון בממשל וניתנות לביקורת כדי לשמור על המערכת תואמת ואמינה.

1. למה מאגר ראיות רציף חשוב

1.1 פער הראיות

סימפטום	גורם שורש	השפעה עסקית
“איפה הדו"ח האחרון של SOC 2?”	ראיות מאוחסנות בתיקיות SharePoint מרובות, אין מקור אמת אחד	עיכוב בתגובות, חוסר עמידה ב‑SLA
“התשובה שלנו כבר לא תואמת לגרסת מדיניות X”	מדיניות מתעדכנת בנפרד; תשובות השאלון אינן מתחדשות	עמדת בהתאם לא עקבית, ממצאי ביקורת
“צריך הוכחה להצפנה במנוחה עבור תכונה חדשה”	מהנדסים מעלים קבצי PDF ידנית → מטא‑דאטה חסרה	חיפוש גוזל זמן, סיכון לשימוש בהוכחה מיושנת

CER פותר נקודות כאב אלו על‑ידי צמיתת קליטת מדיניות, תוצאות בדיקות, יומני אירועים ותרשימי ארכיטקטורה, ולאחר מכן נרמול למאגר גרף ידע ניתן לחיפוש ולגרסאות.

1.2 יתרונות

מהירות: שליפת הראייה העדכנית ביותר בתוך שניות, ללא צורך בחפירות ידניות.
דיוק: קריאות חוצות‑AI מזהירות כאשר תשובה מתנגשת עם השליטה הבסיסית.
מוכנות לביקורת: לכל אובייקט ראייה מצורפת מטא‑דאטה בלתי משתנה (מקור, גרסה, מסקר) שניתן לייצא כחבילה תואמת.
סקלאביליות: סוגי שאלונים חדשים (למשל GDPR DPA, CMMC) מתווספים על‑ידי הוספת כללי מיפוי, ללא צורך בבנייה מחדש של המאגר.

2. רכיבי הליבה של CER

הנה מבט ברמה גבוהה על המערכת. כל בלוק נבנה בטכנולוגיה ניטרלית, כך שניתן לבחור שירותי ענן, כלים קוד פתוח או גישה היברידית.

  graph TD
    A["מקורות מדיניות & שליטה"] -->|קלט| B["מאגר ראיות גולמי"]
    C["תוצאות מבחנים וסריקות"] -->|קלט| B
    D["יומני אירועים ושינויים"] -->|קלט| B
    B -->|גרסאות & מטא‑דאטה| E["אגם ראיות (אחסון אובייקטים)"]
    E -->|הטמעה / אינדקס| F["חנות וקטורים (למשל Qdrant)"]
    F -->|שליפה AI| G["מנוע שליפה AI"]
    G -->|יצירת תשובה| H["שכבת אוטומציה של שאלונים (Procurize)"]
    H -->|לולאת משוב| I["מודול למידה רציפה"]

נקודות מפתח:

כל הקלטים הגולמיים מגיעים לאגם ראיות מרכזי (Evidence Lake). הקבצים נשמרים בפורמט המקורי (PDF, CSV, JSON) ומלוים בקובץ JSON לצידו שמכיל גרסה, מחבר, תגים ו‑SHA‑256.
שירות הטמעה ממיר תוכן טקסטואלי (סעיפי מדיניות, יומני סריקה) לוקטורים במימד גבוה המאוחסנים בחנות וקטורים. זה מאפשר חיפוש סמנטי, לא רק מילולי.
מנוע השליפה AI מריץ שרשרת קבלת מידע‑מתווסף (RAG): שאילתא (סעיף שאלון) תחזיר ראשּונות‑k קטעי ראייה רלוונטיים, אשר יעברו ל‑LLM מותאם אישית ליצירת תשובה תמציתית עם ציטוטים.
מודול למידה רציפה אוסף משוב של המבקרים (👍 / 👎, עריכות) ומעדכן את ה‑LLM על שפה ופרמטרים ספציפיים לארגון, משפר את הדיוק עם הזמן.

3. קליטת נתונים ונרמול

3.1 משיכות אוטומטיות

מקור	טכניקה	תדירות
מסמכי מדיניות מנוהלים ב‑Git	webhook של Git → צינור CI שיומר Markdown ל‑JSON	בעת דחיפה
פלטי סורק SaaS (למשל Snyk, Qualys)	משיכת API → CSV → המרת JSON	כל שעה
ניהול אירועים (Jira, ServiceNow)	זרימת webhook → Lambda מבוסס אירועים	בזמן אמת
קונפיגורציית ענן (Terraform state, AWS Config)	API של Terraform Cloud או ייצוא חוקים של Config	יומי

כל משימת קליטה כותבת מאויין המתעד:

{
  "source_id": "github.com/company/policies",
  "file_path": "iso27001/controls/A.12.1.2.md",
  "commit_sha": "b7c9d2e...",
  "ingested_at": "2025-10-05T14:23:00Z",
  "hash": "4a7d1ed414..."
}

3.2 העשרת מטא‑דאטה

לאחר האחסון הגולמי, שירות העשרת מטא‑דאטה מוסיף:

זהות שליטה (למשל ISO 27001 A.12.1.2, NIST 800‑53 AC‑2).
סוג ראייה (policy, scan, incident, architecture diagram).
ציון ביטחון (בהתאם לאיכות OCR, אימות סכימה).
תגי בקרת גישה (confidential, public).

המטא‑דאטה המועשר נשמר במאגר מסמכים (MongoDB) המשמש כמקור אמת לשאלות עתידיות.

4. שרשרת קבלת מידע‑מתווסף (RAG)

4.1 נרמול שאילתא

כאשר מגיע סעיף שאלון (לדוגמה, “תארו את שליטת ההצפנה במנוחה שלכם”), המערכת מבצעת:

ניתוח סעיף – זיהוי מילות מפתח, הפניות רגולטוריות והכוונה באמצעות סווג משפט‑רמה.
הרחבה סמיתית – הרחבת “הצפנה במנוחה” עם נרדפים (data‑at‑rest encryption, disk encryption) בעזרת מודל Word2Vec מראש‑מאומן.
הטמעת וקטור – קידוד השאילתא למרחב וקטורי צפוף (למשל sentence‑transformers/all‑mpnet‑base‑v2).

4.2 חיפוש וקטורי

חנות הווקטורים מחזירה את הראשּונות‑k (בדרך‑כלל 5‑10) קטעי ראייה מדורגים לפי דמיון קוסינוס.

4.3 בניית פרומפט

פרומפט RAG מורכב כך:

You are a compliance analyst for a SaaS company. Based on the following evidence, answer the questionnaire clause. Cite each source with its identifier.

Evidence:
1. "ISO 27001 A.10.1.1 – Data encryption policy version 3.2" (policy, v3.2, 2025‑09‑12)
2. "AWS KMS configuration – All S3 buckets encrypted with AES‑256" (scan, 2025‑10‑01)
3. "Incident #12345 – Encryption key rotation performed after breach" (incident, 2025‑08‑20)

Clause: "Describe your encryption‑at‑rest controls."

ה‑LLM מחזיר תשובה תמציתית עם ציטוטים אינליין, לדוגמה:

כל הנתונים של SaaS המאוחסנים ב‑Amazon S3, RDS ו‑EBS מוצפנים במנוחה באמצעות AES‑256 דרך AWS KMS, כפי שהוגדר במדיניות ההצפנה שלנו המתאימה ל‑ISO 27001 (גרסה 3.2). מפתחות ההצפנה מתחלפים אוטומטית כל 90 יום, והחלפה ידנית בוצעה לאחר אירוע #12345 (ראו ראיות 1‑3). — מקורות: 1, 2, 3.

4.4 לולאת ביקורת אנושית

Procurize מציג את התשובה שנוצרה על‑ידי AI יחד עם רשימת המקורות. המבקרים יכולים:

לאשר (מוסיף סימון ירוק ורושם את ההחלטה).
לערוך (עדכון תשובה; הפעולה מתועדת ללימוד מודל).
לדחות (מחזיר לתשובה ידנית ומוסיף דוגמה שלילית לאימון).

כל הפעולות נשמרות במודול הלמידה הרציפה, מאפשרות עדכונים מחזוריים של ה‑LLM על סגנון ארגוני ומונחים תואמים.

5. אינטגרציה של CER עם Procurize

5.1 גשר API

מנוע השאלונים של Procurize משגר webhook בכל פעם ששאלון או סעיף הופך לפעיל:

{
  "question_id": "Q-2025-SEC-07",
  "text": "Describe your encryption‑at‑rest controls."
}

שירות אינטגרציה קל ויטה את הפayload, מעביר את הסעיף ל‑מנוע השליפה AI, וכותב חזרה את התשובה עם דגל סטטוס (auto_generated).

5.2 שיפורי UI

ב‑UI של Procurize:

חלון ראייה מציג רשימת ציטוטים מתקפלים, כל אחד עם כפתור תצוגה מקדימה.
מד דקרן (0‑100) מציג כמה החיבור הסמנטי היה חזק.
בורר גרסאות מאפשר לקשר את התשובה לגרסה ספציפית של מדיניות, ובכך מבטיח עקביות.

5.3 הרשאות וביקורת

כל תוכן שנוצר על‑ידי AI יורש את תגי בקרת הגישה ממקורות הראייה שלו. לדוגמה, אם ראייה מסוימת מתויגת confidential, רק משתמשים בתפקיד Compliance Manager יוכלו לצפות בתשובה המשויכת.

יומני ביקורת מתעדים:

מי אישר את התשובה.
מתי נוצרה.
איזו ראייה שומשה (כולל גרסת ה‑hash).

ניתן לייצא יומנים אלה ללוחות בקרה (Splunk, Elastic) למעקב רציף.

6. שיקולי סקלאביליות

דאגה	פיתרון
שיהוי חנות וקטורים	פריסה של אשכול גאוגרפי (למשל Qdrant Cloud) ושימוש במטמון לשאלות חמות.
עלות LLM	גישה של תערובת מומחים: מודל קטן קוד‑פתוח לשאלות שגרתיות, מודל גדול יותר לסביבות בעלות סיכון גבוה.
צמיחת נתונים	אחסון בשכבות: ראייה חמה (12 חודשים אחרונים) על גבי בקטים עם SSD, וראייה ישנה בארכיון קפוא עם מדיניות מחזור חיים.
הסטת מודל	תזמון אימון רטרו (quarterly) בעזרת משוב מבקרים, וניטור perplexity על סט אימות של שאלונים קודמים.

7. מסגרת ממשל

מפת אחריות – מינוי אחראי נתונים לכל תחום ראייה (מדיניות, סריקות, אירועים). הם מאשרים צינורות קליטה וסכימות מטא‑דאטה.
ניהול שינוי – כל עדכון של מסמך מקור מפעיל חידוש אוטומטי של כל תשובות השאלון המתייחסים אליו, ומסמן אותן לבחינה.
בקרת פרטיות – ראיות רגישות (לדוגמה, דוחות פנצ׳ר) מוצפנות במנוחה עם מפתח KMS שמסתובב מדי שנה. יומני גישה נשמרים למשך שנתיים.
ייצוא תואם – משימת רוטינה מרכיבה קובץ zip של כל הראיות והתשובות עבור תקופת ביקורת, עם חתימה דיגיטלית (PGP) לאימות שלמות.

8. רשימת ביקורת ליישום שלב‑אחר‑שלב

שלב	משימה	כלים/טכנולוגיה
1. יסודות	הקמת דלי אובייקטים וגרסאות	AWS S3 עם Object Lock
	פריסת מסד מסמכים למטא‑דאטה	MongoDB Atlas
2. קליטה	בניית צינור CI למסמכי מדיניות מבוססי Git	GitHub Actions → סקריפט Python
	קונפיגורציית משיכת API עבור סורקים	AWS Lambda + API Gateway
3. אינדקס	הרצת OCR על PDF, יצירת הטמעות	Tesseract + sentence‑transformers
	טעינת וקטורים לחנות	Qdrant (Docker)
4. שכבת AI	התאמת LLM לנתונים פנימיים	OpenAI fine‑tune / LLaMA 2
	יישום שירות RAG (FastAPI)	FastAPI, LangChain
5. אינטגרציה	חיבור webhook של Procurize לנקודת קצה RAG	Node.js middleware
	הרחבת UI עם חלון ראייה	ספריית רכיבי React
6. ממשל	הגדרת SOP לתיוג ראיות	דוקומנטים ב‑Confluence
	הגדרת העברת יומני ביקורת	CloudWatch → Splunk
7. ניטור	לוח מחוונים לזמני תגובה, מד דקרן	Grafana + Prometheus
	סקירה תקופתית של ביצועי מודל	מחברות Jupyter
8. המשך	תכנון תרחישי עומס נוספים	קונפיגורציית Autoscaling
	ארכיטקטורת גרף ידע משותפת עם שותפים	Neo4j, GraphQL

9. מקרה בוחן מינימלי

חברה: ספק SaaS פיננסי בעל 300 עובד, מאושר SOC 2‑Type II.

מדד	לפני CER	אחרי CER (3 חודשים)
ממוצע זמן למענה על סעיף בטחון	45 דק׳ (חיפוש ידני)	3 דק׳ (שליפה AI)
אחוז תשובות שדרשו עריכה ידנית	38 %	12 %
ממצאי ביקורת הקשורים לראיות מיושנות	4	0
שביעות רצון צוות (NPS)	32	71

ההצלחה המשמעותית ביותר הייתה הביטול של ממצאי ביקורת שנגרמו עקב הפניות למדיניות מיושנת. על‑ידי עדכון אוטומטי של תשובות עם שינוי גרסת המדיניות, צוות הציות הפך את המצב מחולשה תחרותית לנקודת מכירה.

10. כיוונים עתידיים

גרפי ידע חוצי‑ארגון: שיתוף סכימות ראייה אנונימיות עם מערכות שותפים להאצת יוזמות ציות משותפות.
חיזוי רגולציה: העברת טיוטות רגולטוריות לתוך צינור ה‑CER, אימון מוקדם של LLM על “בקרות עתידיות”.
יצירת ראיות גנרטיביות: שימוש ב‑AI ליצירת טיוטות ראשוניות של מדיניות (למשל, נהלי שמירת נתונים חדשים) שהן נבדקות ונקבעות במאגר.

11. סיכום

מאגר ראיות רציף הופך מסמכי ציות סטטיים לבסיס ידע חי, מונע בינה מלאכותית. על‑ידי שילוב חיפוש וקטורי עם שליפה‑מתווסף, ארגונים מסוגלים לענות על שאלוני אבטחה בזמן אמת, לשמור על עקבות תואמות לביקורת, ולפנות את צוותי האבטחה משגר של ניירת אל ניהול סיכונים אסטרטגי.

יישום ארכיטקטורה זו בטופס Procurize לא רק מזרז את זמני המענה, אלא בונה תשתית ציות עתידנית שגדלה יחד עם הרגולציה, תשתיות הטכנולוגיות וצמיחת העסק.

ראה גם

תיעוד Procurize – אוטומציה של זרימות שאלונים
NIST SP 800‑53 Rev 5 – מיפוי שליטה לאוטומציה של ציות
Qdrant – דפוסי סקלאביליות לחיפוש וקטורי