מנוע מיפוי ראיות ללמידה עצמית המופעל על ידי יצור משופר באמצעות שליפה (RAG)

פורסם בתאריך 2025‑11‑29 • זמן קריאה משוער: 12 דקות

מבוא

שאלוני אבטחה, ביקורת SOC 2, הערכות ISO 27001 ומסמכי ציות דומים הם צוואר בקבוק משמעותי עבור חברות SaaS המתפתחות במהירות. צוותים משקיעים שעות אינסופיות בחיפוש אחר הסעיף המדויק במדיניות, שימוש חוזר בפסקאות זהות, וקישור ידני של ראיות לכל שאלה. בעוד שמתקיימים מסייעי שאלונים מבוססי AI כלליים, הם לרוב מייצרים תשובות סטטיות שהופכות מהר להיבדלות ככל שהתקנות מתעדכנות.

כך נולד מנוע מיפוי ראיות ללמידה עצמית (SLEME) – מערכת המשלבת יצור משופר באמצעות שליפה (RAG) עם גרף ידע בזמן אמת. SLEME לומד באופן מתמשך מכל אינטראקציה עם שאלון, מחלץ באופן אוטומטי ראיות רלוונטיות, וממפה אותן לשאלות המתאימות באמצעות ריבוי סמנטי מבוסס גרף. התוצאה היא פלטפורמה מתאימה, ניתנת לביקורת ולשיפור עצמי שיכולה לענות על שאלות חדשות באופן מיידי תוך שמירה על מקוריות מלאה.

במאמר זה נפרק:

הארכיטקטורה המרכזית של SLEME.
כיצד RAG וגרפי ידע משתפים פעולה ליצירת מיפויים מדויקים של ראיות.
יתרונות בעולם האמיתי ו-ROI מדיד.
שיטות יישום מומלצות לצוותים הרוצים לאמץ את המנוע.

1. תכנון ארכיטקטוני

להלן דיאגרמת מרמייד ברמה גבוהה המציגה את זרימת הנתונים בין המרכיבים המרכזיים.

  graph TD
    A["Incoming Questionnaire"] --> B["Question Parser"]
    B --> C["Semantic Intent Extractor"]
    C --> D["RAG Retrieval Layer"]
    D --> E["LLM Answer Generator"]
    E --> F["Evidence Candidate Scorer"]
    F --> G["Knowledge Graph Mapper"]
    G --> H["Answer & Evidence Package"]
    H --> I["Compliance Dashboard"]
    D --> J["Vector Store (Embeddings)"]
    G --> K["Dynamic KG (Nodes/Edges)"]
    K --> L["Regulatory Change Feed"]
    L --> D
    style A fill:#f9f,stroke:#333,stroke-width:2px
    style I fill:#bbf,stroke:#333,stroke-width:2px

המרכיבים המרכזיים מוסברים

רכיב	מטרה
Question Parser	מצפין ומנורמל את תוכן השאלון הנכנס (PDF, טופס, API).
Semantic Intent Extractor	משתמש במודל שפה קל כדי לזהות את תחום הציות (לדוגמה, הצפנת נתונים, שליטת גישה).
RAG Retrieval Layer	משאל חנות וקטור של קטעי מדיניות, דוחות ביקורת ותשובות קודמות, ומחזיר את הקטעים הרלוונטיים ביותר (top‑k).
LLM Answer Generator	מייצר תשובה ראשונית בתנאי הקטעים שנשלפו והכוונה הסמנטית שהזוהתה.
Evidence Candidate Scorer	מדרג כל קטע לפי רלוונטיות, עדכניות וניתנות לביקורת (באמצעות מודל דירוג שנלמד).
Knowledge Graph Mapper	מוסיף את הראיות שנבחרו כקודקודים, יוצר קשתות לשאלות המתאימות, וקושר תלותיות (למשל, קשר “covers‑by”).
Dynamic KG	גרף מתעדכן באופן רציף המשקף את מרקם הראיות הנוכחי, שינויי רגולציה, ונתוני מקור.
Regulatory Change Feed	מתאם חיצוני הקולט עדכונים מ-NIST, GDPR וסטנדרטים תעשייתיים; גורם לחידוש אינדקס של חלקי גרף מושפעים.
Compliance Dashboard	ממשק חזותי המציג רמת ביטחון בתשובה, קוורציית ראיות, והתראות שינוי.

2. למה יצור משופר באמצעות שליפה עובד כאן

גישות מסורתיות מבוססות רק על מודל שפה סובלות מ-הזיות ודהייה של הידע. הוספת שלב שליפה מעגנת את הייצור בעובדות:

עדכניות – חנויות הווקטורים מתעדכנות בכל פעם שמטען מסמך מדיניות חדש או שמפרסם רגולטור שינוי.
תאימות קונטקסטואלית – על ידי הטמעת כוונת השאלה יחד עם הטמעות מדיניות, שלב השאיבה מציג את הקטעים המתואמים סמנטית ביותר.
ניתנות להסבר – לכל תשובה שנוצרה מצורף קטעי המקור המשמשים, מה שמספק דרישות ביקורת.

2.1 עיצוב Prompt

דוגמת Prompt המופעל על ידי RAG נראית כך (הקולון אחרי “Prompt” נשאר כחלק מהקוד, לא ככותרת):

You are a compliance assistant. Using the following retrieved passages, answer the question concisely and cite each passage with a unique identifier.

Question: {{question_text}}

Passages:
{{#each retrieved_passages}}
[{{@index}}] {{text}} (source: {{source}})
{{/each}}

Answer:

המודל ממלא את סעיף “Answer” תוך שמירת סימני הציטוטים.

2.2 לולאת למידה עצמית

לאחר שמבקר אבטחה מאשר או משנה את התשובה, המערכת מתעדת משוב אדם‑ב‑מעגל:

חיזוק חיובי – אם התשובה לא נזקקה לעריכות, מודל דירוג השאיבה מקבל אות תגמול.
חיזוק שלילי – אם המבקר החליף קטע, המערכת מורידה את החשיבות של נתיב השאיבה זה ומחדשת את מודל הדירוג.

במהלך שבועות, המנוע לומד אילו קטעי מדיניות הם האמינים ביותר לכל תחום ציות, ומשפר בצורה משמעותית את דיוק העבר הראשון.

3. השפעה בעולם האמיתי

מחקר מקרה עם ספק SaaS בגודל בינוני (≈ 200 עובדים) הראה את ה‑KPI‑ים הבאים לאחר שלושה חודשים של פריסת SLEME:

מדד	לפני SLEME	אחרי SLEME
זמן תגובה ממוצע לשאלון	3.5 ימים	8 שעות
אחוז תשובות שדורשות עריכה ידנית	42 %	12 %
שלמות מסלול ביקורת (כיסוי ציטוטים)	68 %	98 %
חיסכון בכוח אדם של צוות הציות	–	1.5 משרת זמן מלא נשמרו

תובנות מרכזיות

מהירות – מתן תשובה מוכנה לבחינה בתוך דקות מצמצם משמעותית את מחזורי העסקה.
דיוק – גרף המקור מבטיח שכל תשובה ניתנת למעקב חזרה למקור וודאי.
קנה מידה – הוספת ערוצי רגולציה חדשים גורמת לחידוש אינדקס אוטומטי; אין צורך בעדכון חוקים ידני.

4. תוכנית יישום לצוותים

4.1 דרישות מוקדמות

מאגר מסמכים – מאגר מרכזי של מדיניות, ראיות בקרה, דוחות ביקורת (PDF, DOCX, markdown).
חנות וקטור – לדוגמה, Pinecone, Weaviate, או אשכול FAISS קוד פתוח.
גישה ל‑LLM – מודל מאוחסנת (OpenAI, Anthropic) או LLM מקומי בעל חלון קונטקסט מספיק.
מאגר גרף – Neo4j, JanusGraph, או שירות גרף ענן תומך ב‑property graphs.

4.2 שלב אחר שלב ביישום

שלב	פעולות	קריטריונים להצלחה
הזנה	המרת כל מסמכי המדיניות לטקסט פשוט, חיתוך (≈ 300 טוקנים), הטבעה, והעלאה לחנות הווקטור.	> 95 % מהמסמכים המקוריים מוצמדים.
הפעלת גרף ראשוני	יצירת קודקודים לכל קטע, הוספת מטא‑נתונים (רגולציה, גרסה, מחבר).	גרף כולל ≥ 10 k קודקודים.
שילוב RAG	קישור ה‑LLM לשאילת החנות הווקטורית, העברת הקטעים שנשלפו לתבנית Prompt.	תשובות ראשוניות נוצרות לשאלון מבחן עם ≥ 80 % רלוונטיות.
מודל דירוג	אימון מודל דירוג קל (למשל XGBoost) על נתוני ביקורת ראשוניים.	המודל משפר MRR ב‑≥ 0.15.
משוב	תיעוד עריכות מבקר, אחסון כסימני חיזוק ללמידה.	המערכת מתאימה משקלי שאיבה אוטומטית אחרי 5 עריכות.
הזנת רגולציה	חיבור לאספקות RSS/JSON של גופי תקינה; הפעלה מחודשת של אינדקס חלקי גרף.	שינויי רגולציה חדשים משתקפים ב‑KG בתוך 24 שעה.
לוח מחוונים	בניית UI עם מדדי ביטחון, תצוגת ציטוטים, והתראות שינוי.	משתמשים יכולים לאשר תשובה בלחיצה אחת ב‑> 90 % מהמקרים.

טיפים תפעוליים

תוזמן גרסת‑הפעלה לכל קודקוד – שמור שדות effective_from ו‑effective_to לתמיכה בחיפוש “כמו‑בזמן” לביקורות היסטוריות.
מנגוני פרטיות – השתמש ב‑differential privacy בעת הצבירה של משוב כדי להגן על זהות המבקרים.
חיפוש היברידי – שלב חיפוש וקטורי צפוף עם חיפוש BM25 מילולי כדי לתפוס התאמות מדויקות של מונחים משפטיים.
ניטור – הגדר התראות לזיהוי השפלה ברמת הביטחון של תשובות; במקרה של השפלה, הפעל ביקורת ידנית.

5. כיווני עתיד

ארכיטקטורת SLEME מהווה בסיס איתן, אך חידושים נוספים יכולים לדחוף את הגבולות:

ראיות רב‑מודליות – הרחבת שכבת השאיבה לטיפול בתמונות של תעודות חתומות, צילומי מסך של תצורות, ואפילו קטעי וידאו.
גרפים ידע פדרטיים – לאפשר למספר חברות בנות‑קבוצה לשתף קודקודי ראייה אנונימיים תוך שמירה על ריבונות הנתונים.
שילוב הוכחות אפס‑ידע – לספק הוכחה קריפטוגרפית שהתגובה נגזרת מסעיף מסוים מבלי לחשוף את הטקסט עצמו.
התראות סיכון פרואקטיביות – לשלב את ה‑KG עם זרם מודיעין אי‑התקפות בזמן אמת כדי לתייג ראיות שעשויות להפוך ללא תואמות בקרוב (כגון אלגוריתמים הצפנה מיושנים).

מסקנה

באמצעות שילוב של יצור משופר באמצעות שליפה (RAG) עם גרף ידע ללמידה עצמית, מנוע מיפוי ראיות ללמידה עצמית מספק פתרון מותאם, ניתנת לביקורת, ובעל קצב גבוה למענה על שאלוני ציות. צוותים המאמינים ב‑SLEME יכולים לצפות ל‑קיצורי זמן בעסקאות, הפחתת עומס הציות, ו‑קוורציית ביקורת עתיד‑מוכנה המתפתחת יחד עם הנוף הרגולטורי.