Trích xuất bằng chứng AI Đa phương thức cho Các bảng câu hỏi Bảo mật

Các bảng câu hỏi bảo mật là cánh cửa kiểm soát cho mọi giao dịch SaaS B2B. Nhà cung cấp được yêu cầu cung cấp bằng chứng — các file PDF chính sách, sơ đồ kiến trúc, đoạn mã, nhật ký kiểm toán, và thậm chí ảnh chụp màn hình của bảng điều khiển. Truyền thống, các đội bảo mật và tuân thủ phải tốn giờ để dò qua các kho lưu trữ, sao chép tệp và gắn chúng một cách thủ công vào các trường câu hỏi. Kết quả là một nút thắt gây chậm chu kỳ bán hàng, tăng lỗi con người và tạo ra khoảng trống kiểm toán.

Procurize đã xây dựng một nền tảng thống nhất mạnh mẽ cho việc quản lý các bảng câu hỏi, phân công nhiệm vụ và tạo câu trả lời hỗ trợ AI. Bước tiếp theo là tự động hoá việc thu thập bằng chứng. Bằng cách tận dụng AI tạo sinh đa phương thức — các mô hình hiểu văn bản, hình ảnh, bảng và mã trong một quy trình duy nhất — các tổ chức có thể ngay lập tức đưa ra tài liệu phù hợp cho bất kỳ mục câu hỏi nào, bất kể định dạng.

Trong bài viết này chúng ta sẽ:

Giải thích tại sao cách tiếp cận một mô hình duy nhất (LLM chỉ xử lý văn bản) không đáp ứng được nhu cầu công việc tuân thủ hiện đại.
Chi tiết kiến trúc của động cơ trích xuất bằng chứng đa phương thức được xây dựng trên nền tảng Procurize.
Trình bày cách đào tạo, đánh giá và liên tục cải thiện hệ thống bằng các kỹ thuật Generative Engine Optimization (GEO).
Cung cấp một ví dụ thực tế từ đầu đến cuối, từ câu hỏi bảo mật đến bằng chứng được tự động đính kèm.
Thảo luận về các vấn đề quản trị, bảo mật và khả năng kiểm toán.

Điểm chính: AI đa phương thức biến quá trình thu thập bằng chứng từ công việc thủ công thành một dịch vụ có thể lặp lại, kiểm toán được, giảm thời gian phản hồi bảng câu hỏi lên đến 80 % trong khi vẫn duy trì tính chặt chẽ của tuân thủ.

1. Giới hạn của các LLM chỉ xử lý văn bản trong quy trình bảng câu hỏi

Hầu hết tự động hoá dựa trên AI hiện nay dựa vào các mô hình ngôn ngữ lớn (LLM) xuất sắc trong tạo văn bản và tìm kiếm ngữ nghĩa. Chúng có thể trích xuất các đoạn chính sách, tóm tắt báo cáo kiểm toán, và thậm chí soạn thảo các câu trả lời mô tả. Tuy nhiên, bằng chứng tuân thủ hiếm khi chỉ là văn bản thuần:

Loại bằng chứng	Định dạng thường gặp	Độ khó đối với LLM chỉ xử lý văn bản
Sơ đồ kiến trúc	PNG, SVG, Visio	Yêu cầu hiểu hình ảnh
Tệp cấu hình	YAML, JSON, Terraform	Có cấu trúc nhưng thường lồng nhau
Đoạn mã	Java, Python, Bash	Cần trích xuất dựa trên cú pháp
Ảnh chụp màn hình của bảng điều khiển	JPEG, PNG	Phải đọc các thành phần giao diện, dấu thời gian
Bảng trong báo cáo kiểm toán PDF	PDF, scanned images	Cần OCR + phân tích bảng

Khi một câu hỏi yêu cầu “Cung cấp sơ đồ mạng mô tả luồng dữ liệu giữa môi trường sản xuất và sao lưu của bạn”, một mô hình chỉ xử lý văn bản chỉ có thể trả lời bằng mô tả; nó không thể tìm, xác minh, hoặc nhúng hình ảnh thực tế. Khoảng trống này buộc người dùng phải can thiệp, tái tạo lại nỗ lực thủ công mà chúng ta muốn loại bỏ.

2. Kiến trúc của Động cơ Trích xuất Bằng chứng Đa phương thức

Dưới đây là sơ đồ mức cao của động cơ đề xuất, tích hợp với trung tâm câu hỏi chính của Procurize.

  graph TD
    A["User submits questionnaire item"] --> B["Question classification service"]
    B --> C["Multi‑modal retrieval orchestrator"]
    C --> D["Text vector store (FAISS)"]
    C --> E["Image embedding store (CLIP)"]
    C --> F["Code embedding store (CodeBERT)"]
    D --> G["Semantic match (LLM)"]
    E --> G
    F --> G
    G --> H["Evidence ranking engine"]
    H --> I["Compliance metadata enrichment"]
    I --> J["Auto‑attach to Procurize task"]
    J --> K["Human‑in‑the‑loop verification"]
    K --> L["Audit log entry"]

2.1 Các Thành phần Cốt lõi

Dịch vụ Phân loại Câu hỏi – Sử dụng một LLM được tinh chỉnh để gắn thẻ các mục câu hỏi đến với loại bằng chứng (ví dụ: “sơ đồ mạng”, “PDF chính sách bảo mật”, “kế hoạch Terraform”).
Bộ điều phối Truy xuất Đa phương thức – Điều hướng yêu cầu tới các kho lưu trữ embedding phù hợp dựa trên kết quả phân loại.
Kho lưu trữ Embedding
- Kho Văn bản – Chỉ mục FAISS được xây dựng từ tất cả tài liệu chính sách, báo cáo kiểm toán và các file markdown.
- Kho Hình ảnh – Vector dựa trên CLIP được tạo từ mọi sơ đồ, ảnh chụp màn hình và SVG lưu trong kho tài liệu.
- Kho Mã – Embedding CodeBERT cho tất cả các file nguồn, cấu hình pipeline CI/CD, và mẫu IaC.
Lớp Khớp Ngữ nghĩa – Một transformer đa môđun hợp nhất embedding của truy vấn với các vector của từng phương thức, trả về danh sách đã xếp hạng các tài liệu đề xuất.
Động cơ Xếp hạng Bằng chứng – Áp dụng các heuristics của Generative Engine Optimization: độ mới, trạng thái kiểm soát phiên bản, mức độ liên quan của thẻ tuân thủ, và điểm tin cậy từ LLM.
Bổ sung Siêu dữ liệu Tuân thủ – Gắn các giấy phép SPDX, dấu thời gian kiểm toán, và thẻ bảo vệ dữ liệu cho mỗi tài liệu.
Xác minh Người‑trong‑vòng (HITL) – Giao diện người dùng trong Procurize hiển thị 3 đề xuất hàng đầu; người kiểm tra có thể chấp nhận, thay thế, hoặc từ chối.
Nhật ký Kiểm toán – Mỗi lần tự động đính kèm được ghi lại với hàm băm mật mã, chữ ký người kiểm tra, và độ tin cậy AI, đáp ứng các yêu cầu kiểm toán của SOX và GDPR.

2.2 Quy trình Tiếp nhận Dữ liệu

Crawler quét các chia sẻ tệp công ty, kho lưu trữ Git, và các bucket lưu trữ đám mây.
Pre‑processor chạy OCR trên PDF đã quét (Tesseract), trích xuất bảng (Camelot), và chuyển đổi file Visio sang SVG.
Embedder tạo các vector đặc thù cho từng phương thức và lưu chúng cùng siêu dữ liệu (đường dẫn file, phiên bản, chủ sở hữu).
Cập nhật Gia tăng – Một micro‑service phát hiện thay đổi (watchdog) chỉ tái‑embedding các tài nguyên đã sửa đổi, giữ các kho vector luôn cập nhật gần thời gian thực.

3. Tối ưu hoá Động cơ Tạo sinh (GEO) cho Truy xuất Bằng chứng

GEO là một phương pháp có hệ thống để tinh chỉnh toàn bộ quy trình AI — không chỉ mô hình ngôn ngữ — nhằm cải thiện KPI cuối cùng (thời gian phản hồi bảng câu hỏi) đồng thời duy trì chất lượng tuân thủ.

Giai đoạn GEO	Mục tiêu	Các chỉ số chính
Chất lượng Dữ liệu	Đảm bảo các embedding phản ánh trạng thái tuân thủ mới nhất	% tài sản được làm mới < 24 h
Kỹ thuật Prompt	Soạn prompt truy xuất để hướng mô hình tới phương thức đúng	Điểm tin cậy truy xuất
Hiệu chỉnh Mô hình	Điều chỉnh ngưỡng tin cậy phù hợp với tỷ lệ chấp nhận của người kiểm tra	Tỷ lệ dương tính giả < 5 %
Vòng phản hồi	Ghi lại hành động của người kiểm tra để tinh chỉnh phân loại và xếp hạng	Thời gian trung bình để chấp nhận (MTTA)
Đánh giá Liên tục	Thực hiện kiểm thử A/B hàng đêm trên tập hợp xác thực các mục câu hỏi lịch sử	Giảm thời gian trả lời trung bình

Ví dụ Prompt cho Truy xuất

[QUESTION] Cung cấp báo cáo kiểm toán [SOC 2] Loại II mới nhất bao gồm mã hóa dữ liệu khi lưu trữ.

[CONTEXT] Truy xuất tài liệu PDF có phần kiểm toán liên quan. Trả về ID tài liệu, phạm vi trang và một đoạn trích ngắn.

[MODALITY] text

Tham số Ngưỡng thích ứng

Sử dụng Bayesian Optimization, hệ thống tự động điều chỉnh ngưỡng tin cậy cho mỗi phương thức. Khi các người kiểm tra liên tục chấp nhận các đề xuất có độ tin cậy trên 0.78 cho các sơ đồ, ngưỡng sẽ tăng, giảm số lần kiểm tra không cần thiết. Ngược lại, nếu các đoạn mã nhận được nhiều lần từ chối, ngưỡng sẽ giảm, đưa ra nhiều tài liệu đề xuất hơn.

4. Ví dụ Toàn diện: Từ Câu hỏi đến Bằng chứng Được Tự động Đính kèm

4.1 Câu hỏi

“Đính kèm một sơ đồ thể hiện luồng dữ liệu khách hàng từ quá trình nhập đến lưu trữ, bao gồm các điểm mã hóa.”

4.2 Quy trình Từng bước

Bước	Hành động	Kết quả
1	Người dùng tạo mục câu hỏi mới trong Procurize.	Mã mục `Q‑2025‑1123`.
2	Dịch vụ phân loại gắn thẻ truy vấn là `evidence_type: network diagram`.	Phương thức = hình ảnh.
3	Bộ điều phối gửi truy vấn tới kho hình ảnh CLIP.	Thu được 12 vector đề xuất.
4	Lớp khớp ngữ nghĩa tính độ tương đồng cosine giữa embedding truy vấn và từng vector.	3 điểm cao nhất: 0.92, 0.88, 0.85.
5	Động cơ xếp hạng đánh giá độ mới (cập nhật lần cuối 2 ngày trước) và thẻ tuân thủ (chứa “encryption”).	Xếp hạng cuối cùng: Sơ đồ `arch‑data‑flow‑v3.svg`.
6	Giao diện HITL hiển thị sơ đồ với bản xem trước, siêu dữ liệu (tác giả, phiên bản, hash).	Người kiểm tra nhấn Approve.
7	Hệ thống tự động đính kèm sơ đồ vào `Q‑2025‑1123` và ghi lại mục nhật ký kiểm toán.	Nhật ký kiểm toán hiển thị độ tin cậy AI 0.91, chữ ký người kiểm tra, thời gian.
8	Mô‑đun tạo câu trả lời soạn thảo đoạn mô tả tham chiếu sơ đồ.	Câu trả lời hoàn thành sẵn sàng xuất.

Thời gian tổng cộng từ bước 1 đến bước 8 là ≈ 45 giây, so với 15–20 phút thường cần cho việc truy xuất thủ công.

5. Quản trị, Bảo mật và Dấu vết Kiểm toán

Rò rỉ Dữ liệu – Dịch vụ embedding phải chạy trong một VPC zero‑trust với các vai trò IAM chặt chẽ. Không có embedding nào rời khỏi mạng công ty.
Kiểm soát Phiên bản – Mỗi tài liệu được lưu trữ cùng hash commit Git (hoặc phiên bản đối tượng lưu trữ). Khi tài liệu được cập nhật, động cơ sẽ vô hiệu hoá các embedding cũ.
Giải thích – Động cơ xếp hạng ghi lại các điểm tương đồng và chuỗi prompt, cho phép nhân viên tuân thủ truy vết tại sao một file cụ thể được chọn.
Định hướng Quy định – Bằng cách gắn các định danh giấy phép SPDX và danh mục xử lý GDPR vào mỗi tài liệu, giải pháp đáp ứng các yêu cầu về nguồn gốc bằng chứng cho Phụ lục A của ISO 27001.
Chính sách Lưu trữ – Các tác vụ tự động xóa bỏ dọn dẹp embedding cho các tài liệu cũ hơn thời gian lưu trữ dữ liệu của tổ chức, đảm bảo không có bằng chứng lỗi thời tồn tại.

6. Hướng phát triển trong tương lai

6.1 Truy xuất Đa phương thức dưới dạng Dịch vụ (RaaS)

Công khai bộ điều phối truy xuất qua API GraphQL để các công cụ nội bộ khác (ví dụ: kiểm tra tuân thủ CI/CD) có thể yêu cầu bằng chứng mà không cần đi qua giao diện câu hỏi đầy đủ.

6.2 Tích hợp Radar Quy định Thời gian Thực

Kết hợp động cơ đa phương thức với Radar Thay đổi Quy định của Procurize. Khi phát hiện quy định mới, tự động phân loại lại các câu hỏi bị ảnh hưởng và kích hoạt một tìm kiếm bằng chứng mới, đảm bảo các tài liệu đã tải lên luôn tuân thủ.

6.3 Học Liên hợp giữa Các Doanh nghiệp

Đối với các nhà cung cấp SaaS phục vụ nhiều khách hàng, một lớp học liên hợp có thể chia sẻ các cập nhật embedding ẩn danh, cải thiện chất lượng truy xuất mà không tiết lộ tài liệu sở hữu.

7. Kết luận

Các bảng câu hỏi bảo mật sẽ vẫn là nền tảng của quản lý rủi ro nhà cung cấp, nhưng công sức thủ công để thu thập và đính kèm bằng chứng đang nhanh chóng trở nên không thể duy trì. Bằng cách áp dụng AI đa phương thức — sự kết hợp của hiểu biết văn bản, hình ảnh và mã — Procurize có thể biến việc trích xuất bằng chứng thành một dịch vụ tự động, có thể kiểm toán. Việc tận dụng Generative Engine Optimization đảm bảo hệ thống liên tục cải tiến, đồng nhất độ tin cậy AI với mong đợi của người kiểm tra và các yêu cầu tuân thủ.