Искусственный интеллект на основе безопасных многопартийных вычислений для конфиденциальных ответов на вопросы поставщиков
Введение
Вопросники по безопасности являются важным звеном при заключении B2B SaaS‑контрактов. Они требуют подробной информации об инфраструктуре, обработке данных, реагировании на инциденты и контрольных механизмах соответствия. Поставщики часто должны отвечать на десятки подобных вопросов каждый квартал, при этом каждый ответ может требовать доказательств, содержащих чувствительные внутренние данные — схемы архитектуры, привилегированные учётные данные или описания патентованных процессов.
Традиционная автоматизация на базе ИИ, например Procurize AI Engine, значительно ускоряет генерацию ответов, но обычно требует централизованного доступа к исходным материалам. Такая централизация влечёт за собой два основных риска:
- Утечка данных – Если модель ИИ или хранилище будет скомпрометировано, конфиденциальная информация компании может быть раскрыта.
- Несоответствие нормативам – Такие законы, как GDPR, CCPA и новые нормы суверенитета данных, ограничивают места и способы обработки персональных или проприетарных данных.
И здесь на помощь приходит Secure Multiparty Computation (SMPC) — криптографический протокол, позволяющий нескольким сторонам совместно вычислять функцию над своими вводами, не раскрывая их. Сочетая SMPC с генеративным ИИ, мы можем получать точные, проверяемые ответы на вопросы без раскрытия сырых данных ни модели ИИ, ни отдельному вычислительному узлу.
В этой статье рассматриваются технические основы, практические шаги внедрения и бизнес‑выгоды Secure‑SMPC‑AI‑конвейера, адаптированного для платформы Procurize.
Ключевой вывод: ИИ, усиленный SMPC, обеспечивает скорость автоматизации и гарантии конфиденциальности нулевого знания, меняя подход SaaS‑компаний к ответам на вопросы безопасности.
1. Основы безопасных многопартийных вычислений
Secure Multiparty Computation позволяет группе участников, каждый из которых владеет частным вводом, совместно вычислить функцию f, при этом:
- Корректность – Все участники получают правильный результат f(x₁, x₂, …, xₙ).
- Конфиденциальность – Ни одна сторона не узнаёт ничего о вводах остальных, кроме того, что можно вывести из результата.
Существует две основные семейства протоколов SMPC:
| Протокол | Основная идея | Типичное применение |
|---|---|---|
| Секретное разложение (Shamir, аддитивное) | Делит каждый ввод на случайные части, распределяемые между участниками. Вычисления проходят над частями; восстановление даёт окончательный результат. | Большие матричные операции, аналитика с сохранением приватности. |
| Закодированные схемы (Garbled Circuits) | Один участник (запаковщик) шифрует булеву схему; evaluator исполняет её, используя зашифрованные вводы. | Бинарные функции принятия решений, безопасные сравнения. |
Для нашего сценария — извлечение текста, семантическое сопоставление и синтез доказательств — подход аддитивного секретного разложения более эффективен, поскольку он легко масштабируется для операций с высокоразмерными векторами, используя современные MPC‑фреймворки, такие как MP‑SPDZ, CrypTen или Scale‑MPC.
2. Обзор архитектуры
Ниже — схематическая диаграмма Mermaid, иллюстрирующая сквозной поток SMPC‑усиленного ИИ внутри Procurize.
graph TD
A["Владелец данных (Компания)"] -->|Шифрование и разложение| B["SMPC‑узел 1 (Вычисления ИИ)"]
A -->|Шифрование и разложение| C["SMPC‑узел 2 (Хранилище политик)"]
A -->|Шифрование и разложение| D["SMPC‑узел 3 (Аудит‑журнал)"]
B -->|Безопасные векторные операции| E["LLM‑вывод (зашифровано)"]
C -->|Получение политики| E
D -->|Генерация доказательства| F["Zero‑Knowledge аудит‑доказательство"]
E -->|Зашифрованный ответ| G["Агрегатор ответов"]
G -->|Раскрытый ответ| H["UI вопросника поставщика"]
F -->|Аудиторский журнал| H
Пояснение компонентов
- Владелец данных (Компания) – Хранит проприетарные документы (SOC 2‑отчёты, схемы архитектуры). Перед любой обработкой владелец секретно‑разделяет каждый документ на три зашифрованных куска и распределяет их между SMPC‑узлами.
- SMPC‑узлы – Вычисляют над частями независимо. Узел 1 исполняет вывод LLM (например, кастомизованную модель Llama‑2) в зашифрованном виде. Узел 2 хранит графы политик (ISO 27001, ISO 27017 и т.д.) также в секрете. Узел 3 сохраняет неизменяемый аудит‑журнал (блокчейн или append‑only‑log), фиксируя метаданные запросов без раскрытия сырых данных.
- LLM‑вывод (зашифровано) – Модель получает зашифрованные эмбеддинги, полученные из «разрезанных» документов, генерирует зашифрованные векторные ответы и передаёт их агрегатору.
- Агрегатор ответов – Воссоединяет открытый ответ только после завершения всей вычислительной цепочки, гарантируя отсутствие утечек на промежуточных этапах.
- Zero‑Knowledge аудит‑доказательство – Создаётся узлом 3, подтверждая, что ответ был получен из указанных политик без раскрытия самих политик.
3. Детализированный рабочий процесс
3.1 Инжестия и секретное разложение
- Нормализация документов – PDF, Word и фрагменты кода конвертируются в чистый текст и токенизируются.
- Генерация эмбеддингов – Лёгкий энкодер (MiniLM) формирует плотные векторы для каждого абзаца.
- Аддитивное разложение – Для каждого вектора v генерируются случайные части v₁, v₂, v₃, такие что
v = v₁ + v₂ + v₃ (mod p). - Распределение – Части передаются по TLS каждому из трёх SMPC‑узлов.
3.2 Защищённый поиск контекста политики
- Граф знаний о политиках (контролях, сопоставлениях со стандартами) также хранится зашифрованным на узлах.
- При поступлении вопроса (например, «Опишите шифрование данных в состоянии покоя») система безопасно ищет соответствующие пункты политики через secure set‑intersection, не раскрывая весь граф.
3.3 Вывод LLM в зашифрованном виде
- Зашифрованные эмбеддинги и найденные векторные представления политики подаются в приватный трансформер, работающий над секретными частями.
- Техники, такие как attention, совместимый с FHE, и MPC‑оптимизированный softmax, позволяют вычислить наиболее вероятную последовательность токенов ответа в зашифрованном домене.
3.4 Воссоединение и аудит‑доказательство
- После готовности зашифрованных токенов Агрегатор ответов восстанавливает открытый текст, суммируя части.
- Параллельно Узел 3 генерирует Zero‑Knowledge Succinct Non‑interactive Argument of Knowledge (zk‑SNARK), подтверждающий, что ответ:
- Был получен из корректных пунктов политики;
- Не раскрывал никаких сырых данных.
3.5 Доставка конечному пользователю
- Окончательный ответ появляется в UI Procurize вместе с значком криптографического доказательства.
- Аудиторы могут проверить значок, используя публичный ключ‑верификатор, тем самым удостоверяясь в соблюдении требований без доступа к самим документам.
4. Гарантии безопасности
| Угроза | Как SMPC‑ИИ её нейтрализует |
|---|---|
| Утечка данных из ИИ‑службы | Сырые данные никогда не покидают среду владельца; передаются только секретные части. |
| Внутренняя угроза у облачного провайдера | Ни один узел не хранит полную копию данных; для восстановления требуется коллюзия ≥ 2 из 3 узлов. |
| Атаки извлечения модели | LLM работает только с зашифрованными вводами; нельзя запросить модель произвольными данными. |
| Регуляторные проверки | zk‑SNARK‑доказательство подтверждает соответствие, одновременно соблюдая требования локализации данных. |
| Man‑in‑the‑Middle | Все каналы защищены TLS; секретное разложение добавляет независимую криптографическую защиту от компрометации транспорта. |
5. Производительность
Хотя SMPC вносит накладные расходы, современные оптимизации держат задержку в приемлемых пределах для автоматизации вопросников:
| Показатель | Обычный ИИ (без SMPC) | SMPC‑ИИ (3 узла) |
|---|---|---|
| Задержка вывода | ~1,2 сек/ответ | ~3,8 сек/ответ |
| Пропускная способность | 120 ответов/мин | 45 ответов/мин |
| Стоимость вычислений | 0,25 CPU‑ч/1 k ответов | 0,80 CPU‑ч/1 k ответов |
| Трафик сети | < 5 МБ/ответ | ~12 МБ/ответ (зашифрованные части) |
Ключевые оптимизации:
- Пакетирование – Обрабатываем несколько вопросов одновременно, используя одинаковые части.
- Гибридный протокол – Для тяжёлых линейных операций используем секретное разложение, а для нелинейных (например, сравнения) переключаемся на garbled circuits.
- Размещение на границе – Один узел размещается on‑premise (внутри корпоративного фаервола), уменьшая доверие к внешним облакам.
6. Интеграция с Procurize
Procurize уже предоставляет:
- Репозиторий документов – Централизованное хранилище артефактов соответствия.
- Конструктор вопросников – UI для создания, назначения и отслеживания вопросов.
- AI‑движок – Кастомизированный LLM для генерации ответов.
Для добавления SMPC‑ИИ необходимо:
- Включить режим SMPC – Администратор активирует флажок в настройках платформы.
- Развернуть SMPC‑узлы – Запустить три Docker‑контейнера (Node 1–3) на базе официального образа
procurize/smpc-node. Контейнеры автоматически регистрируются в оркестраторе платформы. - Определить граф политик – Экспортировать текущие сопоставления политик в JSON‑LD; платформа зашифрует их и распределит между узлами.
- Настроить аудит‑доказательства – Загрузить публичный верификационный ключ; UI будет автоматически показывать значки доказательств.
- Обучить защищённый LLM – Использовать тот же набор данных, что и для обычного AI‑движка; обучение происходит вне SMPC, а полученные веса загружаются в Node 1 внутри защищённого анклава (Intel SGX) для дополнительной защиты.
7. Практический пример: аудит поставщика в финансовом секторе
Компания: FinFlow, средняя FinTech‑SaaS фирма.
Проблема: Ежеквартальные аудиты от банков требовали полного раскрытия деталей шифрования данных в состоянии покоя. Их ключи и политика управления ключами классифицируются как секретные и не могут быть загружены в сторонний AI‑сервис.
Решение:
- FinFlow развернула SMPC‑ИИ‑узлы: Node 1 в Azure Confidential Compute VM, Node 2 on‑premise, Node 3 в виде узла Hyperledger Fabric.
- Документ с политикой шифрования (5 МБ) был секретно‑разделён между узлами.
- Вопрос «Опишите график ротации ключей» был обработан за 4,2 сек с генерируемым доказательством.
- Аудиторы банка проверили доказательство, используя публичный ключ, и убедились, что ответ получен из внутренней политики, не увидев саму политику.
Результат: Время подготовки к аудиту сократилось с 7 дней до 2 часов, при этом не было зафиксировано нарушений конфиденциальности.
8. Перспективные направления
| Пункт дорожной карты | Ожидаемый эффект |
|---|---|
| Федеративный SMPC между несколькими поставщиками | Позволит совместно проводить бенчмаркинг без раскрытия собственных данных. |
| Динамическое обновление политик через on‑chain управление | Мгновенное отражение изменений политики в SMPC‑вычислениях. |
| Zero‑Knowledge оценка риска | Позволит генерировать количественные оценки риска, доказуемо полученные из зашифрованных данных. |
| Генерация сложных нарративов комплаенса | Расширит возможности от простых «да/нет» до полноценных объяснительных документов при сохранении приватности. |
Заключение
Безопасные многопартийные вычисления в сочетании с генеративным ИИ предоставляют приватное, проверяемое и масштабируемое решение для автоматизации ответов на вопросы безопасности. Это решает три критических требования современных SaaS‑компаний:
- Скорость – Почти мгновенная генерация ответов ускоряет процесс заключения сделок.
- Безопасность – Конфиденциальные данные остаются под контролем владельца, защищая от утечек и регуляторных рисков.
- Доверие – Криптографические доказательства подтверждают, что ответы основаны на проверенных внутренних политиках.
Внедряя SMPC‑ИИ в Procurize, организации трансформируют традиционный «ручной» узкий пункт в конкурентное преимущество, позволяя закрывать сделки быстрее, сохраняя при этом высочайшие стандарты конфиденциальности.
