Trí tuệ nhân tạo dựa trên Tính toán đa bên bảo mật cho phản hồi bí mật của bảng câu hỏi nhà cung cấp
Giới thiệu
Các bảng câu hỏi bảo mật là cổng vào cho các hợp đồng SaaS B2B. Chúng yêu cầu cung cấp thông tin chi tiết về hạ tầng, cách xử lý dữ liệu, phản hồi sự cố và các kiểm soát tuân thủ. Các nhà cung cấp thường phải trả lời hàng chục bảng câu hỏi mỗi quý, mỗi câu hỏi đều cần bằng chứng có thể chứa dữ liệu nội bộ nhạy cảm—sơ đồ kiến trúc, thông tin đăng nhập có quyền ưu tiên, hoặc mô tả quy trình độc quyền.
Các giải pháp tự động hoá dựa trên AI truyền thống, như Procurize AI Engine, tăng tốc đáng kể việc tạo câu trả lời nhưng thường đòi hỏi truy cập tập trung vào tài liệu gốc. Việc tập trung này gây ra hai rủi ro lớn:
- Rò rỉ dữ liệu – Nếu mô hình AI hoặc kho lưu trữ bị xâm nhập, thông tin công ty bí mật có thể bị lộ.
- Không tuân thủ quy định – Các quy định như GDPR, CCPA và các luật chủ quyền dữ liệu đang nổi lên hạn chế nơi và cách dữ liệu cá nhân hoặc sở hữu được xử lý.
Giải pháp Tính toán đa bên bảo mật (SMPC)—một giao thức mật mã cho phép nhiều bên cùng tính toán một hàm trên dữ liệu đầu vào mà không tiết lộ dữ liệu đó—được đưa vào. Khi kết hợp SMPC với AI sinh ra, chúng ta có thể tạo ra các câu trả lời chính xác, có thể kiểm toán mà không bao giờ tiết lộ dữ liệu thô cho mô hình AI hoặc bất kỳ nút xử lý đơn lẻ nào.
Bài viết này khám phá nền tảng kỹ thuật, các bước triển khai thực tiễn và lợi ích kinh doanh của một pipeline Secure‑SMPC‑AI, được thiết kế riêng cho nền tảng Procurize.
Điểm quan trọng: AI được tăng cường bằng SMPC mang lại tốc độ của tự động hoá và đảm bảo riêng tư của zero‑knowledge, thay đổi cách các công ty SaaS phản hồi các bảng câu hỏi bảo mật.
1. Nguyên tắc cơ bản của Tính toán đa bên bảo mật
Tính toán đa bên bảo mật cho phép một nhóm người tham gia, mỗi người giữ một đầu vào riêng tư, cùng tính toán một hàm chung f sao cho:
- Đúng đắn – Tất cả các bên nhận được kết quả đúng f(x₁, x₂, …, xₙ).
- Riêng tư – Không bên nào học được gì về đầu vào của các bên khác ngoài những gì có thể suy ra từ kết quả.
Các giao thức SMPC chia thành hai họ chính:
| Giao thức | Ý tưởng chính | Trường hợp sử dụng điển hình |
|---|---|---|
| Secret Sharing (Shamir, additive) | Chia mỗi đầu vào thành các phần ngẫu nhiên (share) được phân phối cho mọi bên. Tính toán diễn ra trên các share; sau khi ghép lại được kết quả. | Các phép tính ma trận lớn, phân tích dữ liệu bảo mật. |
| Garbled Circuits | Một bên (người tạo mạch) mã hoá một mạch Boolean; bên thực thi chạy mạch sử dụng các đầu vào đã mã hoá. | Các hàm quyết định nhị phân, so sánh bảo mật. |
Đối với kịch bản trích xuất văn bản, độ tương đồng ngữ nghĩa và tổng hợp bằng chứng, cách tiếp cận additive secret sharing là tối ưu vì nó xử lý các phép tính vector chiều cao hiệu quả bằng các khung SMPC hiện đại như MP‑SPDZ, CrypTen hoặc Scale‑MPC.
2. Tổng quan kiến trúc
Dưới đây là sơ đồ Mermaid mức cao mô tả luồng công việc SMPC‑augmented AI trong Procurize.
graph TD
A["Data Owner (Company)"] -->|Encrypt & Share| B["SMPC Node 1 (AI Compute)"]
A -->|Encrypt & Share| C["SMPC Node 2 (Policy Store)"]
A -->|Encrypt & Share| D["SMPC Node 3 (Audit Ledger)"]
B -->|Secure Vector Ops| E["LLM Inference (Encrypted)"]
C -->|Policy Retrieval| E
D -->|Proof Generation| F["Zero‑Knowledge Audit Proof"]
E -->|Encrypted Answer| G["Answer Aggregator"]
G -->|Revealed Answer| H["Vendor Questionnaire UI"]
F -->|Audit Trail| H
Giải thích các thành phần
- Data Owner (Company) – Nắm giữ tài liệu sở hữu (ví dụ: báo cáo SOC 2, sơ đồ kiến trúc). Trước khi bất kỳ xử lý nào diễn ra, công ty secret‑shares mỗi tài liệu thành ba mảnh mã hoá và phân phối cho các nút SMPC.
- SMPC Nodes – Tính toán độc lập trên các share. Nút 1 chạy engine suy luận LLM (ví dụ: mô hình Llama‑2 được tinh chỉnh) trong môi trường mã hoá. Nút 2 giữ đồ thị tri thức chính sách (ví dụ: các kiểm soát ISO 27001) cũng được secret‑shared. Nút 3 duy trì sổ kiểm toán bất biến (blockchain hoặc log chỉ thêm) ghi lại siêu dữ liệu yêu cầu mà không lộ dữ liệu thô.
- LLM Inference (Encrypted) – Mô hình nhận các embedding được mã hoá từ tài liệu đã chia, tạo ra các vector câu trả lời được mã hoá và trả về cho aggregator.
- Answer Aggregator – Ghép lại câu trả lời dạng plaintext chỉ sau khi toàn bộ tính toán kết thúc, đảm bảo không có rò rỉ trung gian.
- Zero‑Knowledge Audit Proof – Được Node 3 tạo ra để chứng minh câu trả lời được suy ra từ các nguồn chính sách đã định mà không tiết lộ nguồn đó.
3. Quy trình chi tiết
3.1 Thu thập & Secret Sharing
- Chuẩn hoá tài liệu – Chuyển PDF, Word và đoạn mã nguồn thành plain‑text và token hoá.
- Sinh embedding – Bộ mã hoá nhẹ (ví dụ: MiniLM) tạo vector đặc trưng cho mỗi đoạn văn.
- Phân tách secret additive – Đối với mỗi vector v, tạo các share ngẫu nhiên v₁, v₂, v₃ sao cho
v = v₁ + v₂ + v₃ (mod p). - Phân phối – Các share được gửi qua TLS tới ba nút SMPC.
3.2 Truy xuất chính sách bảo mật một cách bảo mật
- Đồ thị tri thức chính sách (các kiểm soát, ánh xạ tới tiêu chuẩn) được lưu trữ mã hoá trên các nút.
- Khi một mục câu hỏi xuất hiện (ví dụ: “Mô tả mã hoá dữ liệu khi nghỉ”), hệ thống truy vấn đồ thị bằng secure set‑intersection để tìm các điều khoản chính sách liên quan mà không tiết lộ toàn bộ đồ thị.
3.3 Suy luận LLM trong môi trường mã hoá
- Các embedding đã mã hoá và vector chính sách được đưa vào transformer bảo mật thực hiện tính toán trên các share.
- Các kỹ thuật như attention thích hợp cho FHE hoặc softmax tối ưu cho MPC tính ra chuỗi token câu trả lời khả dĩ nhất trong miền mã hoá.
3.4 Ghép lại & bằng chứng kiểm toán
- Khi các token câu trả lời mã hoá sẵn sàng, Answer Aggregator ghép lại bằng cách cộng các share để tái tạo câu trả lời plaintext.
- Đồng thời, Node 3 tạo Zero‑Knowledge Succinct Non‑interactive Argument of Knowledge (zk‑SNARK) xác nhận rằng câu trả lời:
- Được lấy từ các điều khoản chính sách đúng.
- Không rò rỉ nội dung tài liệu thô.
3.5 Giao cho người dùng cuối
- Câu trả lời cuối cùng hiển thị trong giao diện Procurize cùng với huy hiệu bằng chứng mật mã.
- Các kiểm toán viên có thể xác thực huy hiệu bằng khóa công khai, đảm bảo tuân thủ mà không cần yêu cầu tài liệu gốc.
4. Cam kết bảo mật
| Mối đe dọa | Giải pháp SMPC‑AI |
|---|---|
| Rò rỉ dữ liệu từ dịch vụ AI | Dữ liệu thô không bao giờ rời môi trường của chủ sở hữu; chỉ có secret shares được truyền. |
| Mối đe dọa nội bộ tại nhà cung cấp đám mây | Không có nút nào giữ toàn bộ dữ liệu; cần đồng thuận ≥ 2 trong 3 để khôi phục dữ liệu. |
| Tấn công trích xuất mô hình | LLM chạy trên dữ liệu mã hoá; kẻ tấn công không thể gửi truy vấn tùy ý tới mô hình. |
| Kiểm toán quy định | Bằng chứng zk‑SNARK chứng minh tuân thủ đồng thời tôn trọng giới hạn nơi lưu trữ dữ liệu. |
| Man‑in‑the‑Middle | Tất cả kênh đều được bảo vệ TLS; secret sharing thêm lớp độc lập cryptographic so với bảo mật truyền tải. |
5. Xem xét về hiệu suất
Mặc dù SMPC gây tăng overhead, các tối ưu hiện đại giữ độ trễ trong giới hạn chấp nhận cho việc tự động hoá câu hỏi:
| Thước đo | AI thông thường | SMPC‑AI (3 nút) |
|---|---|---|
| Độ trễ suy luận | ~1,2 s mỗi câu trả lời | ~3,8 s mỗi câu trả lời |
| Thông lượng | 120 câu trả lời/phút | 45 câu trả lời/phút |
| Chi phí tính toán | 0,25 CPU‑hour/1k câu trả lời | 0,80 CPU‑hour/1k câu trả lời |
| Lưu lượng mạng | < 5 MB/câu trả lời | ~12 MB/câu trả lời (shares mã hoá) |
Các tối ưu chủ yếu:
- Batching – Xử lý nhiều câu hỏi đồng thời trên cùng một batch share.
- Giao thức lai – Dùng secret sharing cho các phép tính tuyến tính nặng, chuyển sang garbled circuits chỉ cho những hàm phi tuyến (ví dụ: so sánh).
- Triển khai tại biên – Đặt một nút SMPC trong mạng nội bộ công ty giảm độ tin cậy cần có trên cloud bên ngoài.
6. Tích hợp với Procurize
Procurize hiện đã cung cấp:
- Kho tài liệu – Lưu trữ trung tâm cho các tài liệu tuân thủ.
- Trình tạo bảng câu hỏi – Giao diện xây dựng, phân công và theo dõi câu hỏi.
- Engine AI – LLM tinh chỉnh để tạo câu trả lời.
Để tích hợp SMPC‑AI:
- Kích hoạt chế độ SMPC – Quản trị viên bật công tắc trong cài đặt nền tảng.
- Cấp phát nút SMPC – Triển khai ba container Docker (Node 1‑3) bằng hình ảnh chính thức
procurize/smpc-node. Các container tự động đăng ký với lớp điều phối của nền tảng. - Định nghĩa đồ thị chính sách – Xuất các ánh xạ chính sách hiện có sang JSON‑LD; nền tảng mã hoá và phân phối chúng.
- Cấu hình bằng chứng kiểm toán – Cung cấp khóa công khai để UI hiển thị bằng chứng; các bằng chứng sẽ được tạo tự động.
- Đào tạo LLM bảo mật – Sử dụng cùng bộ dữ liệu như engine AI thường; quá trình đào tạo diễn ra ngoài chuỗi nhưng trọng số mô hình được tải vào Node 1 trong enclave được niêm phong (ví dụ: Intel SGX) để tăng cường bảo mật.
7. Trường hợp thực tế: Kiểm toán nhà cung cấp FinTech
Công ty: FinFlow, một nhà cung cấp SaaS FinTech vừa và vừa.
Vấn đề: Các cuộc kiểm toán hàng quý từ các đối tác ngân hàng đòi chi tiết về mã hoá dữ liệu khi nghỉ. Các khóa mã hoá và quy trình quản lý khoá là thông tin bí mật, không thể tải lên dịch vụ AI bên thứ ba.
Giải pháp:
- FinFlow triển khai các nút SMPC‑AI – Node 1 trong Azure Confidential Compute VM, Node 2 trong môi trường on‑premise, Node 3 là một peer Hyperledger Fabric.
- Tài liệu chính sách mã hoá (5 MB) được secret‑share tới các nút.
- Mục câu hỏi “Mô tả lịch quay vòng khóa” được trả lời trong 4,2 giây với bằng chứng kiểm toán có thể xác minh.
- Kiểm toán viên ngân hàng xác thực bằng chứng bằng khóa công khai, khẳng định câu trả lời xuất phát từ chính sách nội bộ của FinFlow mà không thấy được chính sách đó.
Kết quả: Thời gian hoàn thành kiểm toán giảm từ 7 ngày xuống còn 2 giờ, và không có vi phạm tuân thủ nào được ghi nhận.
8. Hướng phát triển trong tương lai
| Hạng mục kế hoạch | Ảnh hưởng dự kiến |
|---|---|
| SMPC liên liên doanh giữa nhiều nhà cung cấp | Cho phép benchmarking chung mà không chia sẻ dữ liệu sở hữu. |
| Cập nhật chính sách động với quản trị trên chuỗi khối | Cập nhật chính sách tức thì và tự động phản ánh trong tính toán SMPC. |
| Đánh giá rủi ro bằng Zero‑Knowledge | Tạo điểm số rủi ro định lượng được suy ra từ dữ liệu mã hoá. |
| Narratives tuân thủ do AI sinh ra | Mở rộng từ câu trả lời dạng “có/không” sang các đoạn văn dài, vẫn bảo vệ riêng tư. |
Kết luận
Tính toán đa bên bảo mật, khi được kết hợp với trí tuệ nhân tạo sinh ra, mang lại một giải pháp đầu tiên, bảo mật, có thể kiểm toán và mở rộng cho việc tự động hoá trả lời các bảng câu hỏi bảo mật. Nó đáp ứng ba nhu cầu cốt lõi của các công ty SaaS hiện đại:
- Tốc độ – Tạo câu trả lời gần thời gian thực, giảm đáng kể thời gian chốt hợp đồng.
- Bảo mật – Dữ liệu bí mật không bao giờ rời môi trường sở hữu, ngăn ngừa rò rỉ và vi phạm quy định.
- Tin cậy – Bằng chứng cryptographic cung cấp sự yên tâm cho khách hàng và kiểm toán viên rằng câu trả lời xuất phát từ các nguồn chính sách đã được xác thực.
Bằng cách đưa SMPC‑AI vào Procurize, các tổ chức có thể biến một nút thắt truyền thống thành lợi thế cạnh tranh, giúp ký hợp đồng nhanh hơn đồng thời duy trì tiêu chuẩn bảo mật cao nhất.
