Belge AI ile Sıfır‑Dokunuş Kanıt Çıkarımı ve Güvenli Anket Otomasyonu

Giriş

Güvenlik anketleri—SOC 2, ISO 27001, GDPR veri‑işleme ekleri, satıcı risk değerlendirmeleri—hızla büyüyen SaaS şirketleri için bir darboğaz haline gelmiştir. Takımlar, %30‑%50 oranında güvenlik mühendisliği zamanını sadece doğru kanıtı bulmaya, anket içine kopyalamaya ve manuel olarak alaka düzeyini onaylamaya harcar.

Sıfır‑dokunuş kanıt çıkarımı, Belge AI motorunun her uyumluluk artefaktını alıp anlamasına, makine‑okunur bir kanıt grafiği oluşturmasına ve bu grafiğin gerçek zamanlı sorgulanabilmesine imkan tanıyarak manuel “arama‑ve‑yapıştır” döngüsünü ortadan kaldırır. Bir LLM‑orchestrated yanıt katmanı (Procurize AI gibi) ile birleştiğinde, anket yaşam döngüsü—alımından yanıt teslimine kadar—tamamen otomatik, denetlenebilir ve anında güncel hâle gelir.

Bu makalede şunlar incelenir:

Sıfır‑dokunuş kanıt çıkarımı veri hattının temel mimarisi.
Ana AI teknikleri (OCR, layout‑aware transformer’lar, semantik etiketleme, belge‑arası bağlantı).
Doğrulama kontrollerinin (dijital imzalar, hash‑tabanlı köken) nasıl ekleneceği.
Mevcut uyumluluk merkezleriyle entegrasyon desenleri.
Gerçek‑dünya performans rakamları ve en iyi uygulama önerileri.

Özet: Belge‑AI destekli bir kanıt katmanına yatırım yaparak, organizasyonlar anket yanıt süresini haftalardan dakikalara indirebilir ve denetçilerin güvendiği denetim‑dereceli kanıt izini oluşturabilir.

1. Geleneksel Kanıt Yönetimi Neden Yetersiz Kalıyor?

Sorun Noktası	Manuel Süreç	Gizli Maliyet
Keşif	Dosya paylaşımları, e‑posta zincirleri, SharePoint kütüphaneleri içinde arama.	Denetim döngüsü başına 8‑12 saat
Sürüm Kontrolü	Tahmin yürütme; çoğu zaman eski PDF’ler dolaşımda.	Uyumluluk boşlukları, yeniden iş
Bağlam Eşlemesi	İnsan analistleri “politika‑X” i “soru‑Y” ye bağlar.	Tutarsız yanıtlar, atlanan kontroller
Doğrulama	İmzaların görsel incelenmesine dayanma.	Manipülasyon riski yüksek

Bu verimsizlikler, kanıtları statik belgeler olarak değerlendirmek yerine yapılandırılmış bilgi nesneleri olarak ele almamaktan kaynaklanır. Bilgi grafiğine geçiş, sıfır‑dokunuş otomasyona ulaşmanın ilk adımıdır.

2. Mimari Şema

Aşağıdaki Mermaid diyagramı, sıfır‑dokunuş kanıt çıkarımı motorunun uçtan uca akışını gösterir.

  graph LR
    A["Document Ingestion Service"] --> B["OCR & Layout Engine"]
    B --> C["Semantic Entity Extractor"]
    C --> D["Evidence Knowledge Graph"]
    D --> E["Verification Layer"]
    E --> F["LLM Orchestrator"]
    F --> G["Questionnaire UI / API"]
    subgraph Storage
        D
        E
    end

Temel bileşenler açıklaması:

Bileşen	Rol	Temel Teknoloji
Document Ingestion Service	PDF, DOCX, görseller, draw.io diyagramları dosya depolarından, CI pipeline’larından veya kullanıcı yüklemelerinden çeker.	Apache NiFi, AWS S3 EventBridge
OCR & Layout Engine	Raster görüntüleri aranabilir metne çevirir, tablo ve başlık gibi hiyerarşik yapıyı korur.	Tesseract 5 + Layout‑LM, Google Document AI
Semantic Entity Extractor	Politikalar, kontroller, satıcı adları, tarih ve imzaları tanır. Alt sorgulama için gömme (embedding) üretir.	Layout‑aware Transformer’lar (LayoutLMv3 vb.), Sentence‑BERT
Evidence Knowledge Graph	Her artefakti tip, sürüm, hash ve uyumluluk eşlemesi ile nodelara dönüştürür.	Neo4j, GraphQL‑lite
Verification Layer	Dijital imzalar ekler, SHA‑256 hash’leri hesaplar, değişmez kanıtı blokzincir defteri ya da WORM depolamada saklar.	Hyperledger Fabric, AWS QLDB
LLM Orchestrator	İlgili kanıt nodlarını alır, anlatı yanıtlar oluşturur, atıf‑stilinde referanslar ekler.	OpenAI GPT‑4o, LangChain, Retrieval‑Augmented Generation
Questionnaire UI / API	Güvenlik ekipleri, satıcı portalı veya otomatik API çağrıları için ön yüz.	React, FastAPI, OpenAPI spec

3. Derinlemesine: PDF’den Bilgi Grafiğine

3.1 OCR + Layout Farkındalığı

Standart OCR, “Kontrol ID” ile “Uygulama Detayı” arasındaki tablo mantığını kaybeder. Layout‑LM modelleri, görsel tokenları ve konumsal gömmeleri birlikte işleyerek orijinal belge yapısını korur.

from transformers import LayoutLMv3Processor, LayoutLMv3ForTokenClassification

processor = LayoutLMv3Processor.from_pretrained("microsoft/layoutlmv3-base")
model = LayoutLMv3ForTokenClassification.from_pretrained("custom/evidence-ner")
inputs = processor(images, documents, return_tensors="pt")
outputs = model(**inputs)

Model, B-POLICY, I-POLICY, B-CONTROL, B-SIGNATURE gibi varlık etiketleri üretir. SOC 2 raporları, ISO 27001 ekleri ve sözleşme maddelerinden oluşan bir uyumluluk veri kümesiyle eğitildiğinde, F1 > 0.92 başarısı görülür.

3.2 Semantik Etiketleme & Gömme (Embedding)

Çıkarılan her varlık, düzenleyici anlamı yakalayan bir Sentence‑BERT modeli ile vektörleştirilir. Oluşan gömmeler, grafikte vektör özellikleri olarak saklanır; böylece “Veri‑dinlenme şifrelemesi kanıtı sunun” gibi bir soru sorulduğunda yaklaşık en yakın komşu aramaları yapılabilir.

from sentence_transformers import SentenceTransformer

embedder = SentenceTransformer('all-MiniLM-L6-v2')
vector = embedder.encode("AES‑256 şifreleme tüm depolama birimlerinde")

3.3 Grafik Oluşturma

MERGE (e:Evidence {id: $doc_hash})
SET e.title = $title,
    e.type = $type,
    e.version = $version,
    e.embedding = $embedding,
    e.createdAt = timestamp()
WITH e
UNWIND $mappings AS map
MATCH (c:Control {id: map.control_id})
MERGE (e)-[:PROVES]->(c);

Her Evidence düğümü, tatmin ettiği Control düğümleriyle yönlü kenar üzerinden bağlanır. Bu, bir anket maddesinden doğrudan destekleyen artefakte anında geçiş sağlar.

4. Doğrulama & Değişmez Köken

Denetimlerde kanıtlanabilirlik şarttır. Kanıt alındıktan sonra:

Hash Oluşturma – Orijinal ikili dosyanın SHA‑256’sı hesaplanır.
Dijital İmza – Güvenlik sorumlusu, hash’i X.509 sertifikasıyla imzalar.
Defter Yazımı – {hash, signature, timestamp} değişmez bir deftere kaydedilir.

const crypto = require('crypto');
const hash = crypto.createHash('sha256').update(fileBuffer).digest('hex');
// Sign with private key (PKCS#12)

Yanıt üretimi sırasında LLM, defter kanıtını alır ve şu şekilde bir atıf bloğu ekler:

Kanıt: Policy‑A.pdf (SHA‑256: 3f5a…c8e2) – CFO tarafından 2025‑10‑12 tarihinde imzalanmıştır

Denetçiler, hash’i yüklenen dosyayla karşılaştırarak kanıtın tamamen değişmez olduğunu doğrulayabilirler.

5. LLM‑Yönlendirilmiş Yanıt Üretimi

LLM, aşağıdaki yapılandırılmış promptı alır:

**Soru:** "Veri ihlali olaylarında olay müdahale sürecinizi açıklayın."
**Kanıt Adayları:**
1. Incident_Response_Playbook.pdf (Control: IR‑01)
2. Run‑Book_2025.docx (Control: IR‑02)
**Doğrulama:** Tüm dosyalar imzalanmış ve hash‑doğrulanmıştır.

Retrieval‑Augmented Generation (RAG) kullanılarak model, kesin bir yanıt oluşturur ve otomatik atıflar ekler. Bu yaklaşım şunları garanti eder:

Doğruluk (yanıtlar doğrulanmış belgelere dayanır).
Tutarlılık (aynı kanıt birden çok ankette yeniden kullanılabilir).
Hız (soru başına milisaniye gecikme).

6. Entegrasyon Desenleri

Entegrasyon	Nasıl Çalışır	Avantajlar
CI/CD Uyumluluk Kapısı	Her politika değişikliği commit’inde bir ingestion adımı çalıştırılır.	Anlık grafik güncellemesi, sürüm kayması olmaz.
Ticketing Sistemi Kancası	Yeni bir anket bileti açıldığında sistem, LLM Orchestrator API’sini çağırır.	Otomatik yanıt biletleri, insan müdahalesi azalır.
Satıcı Portalı SDK	`/evidence/{controlId}` endpoint’i dış satıcıların gerçek‑zaman kanıt hash’lerini çekmesini sağlar.	Şeffaflık, daha hızlı satıcı onboarding’i.

Tüm entegrasyonlar OpenAPI tanımlı sözleşmelere dayanır; bu da dili bağımsız kılar.

7. Gerçek‑Dünya Etkisi: Pilot Çalışmadan Sayılar

Ölçüt	Sıfır‑Dokunuş Öncesi	Uygulama Sonrası
Ortalama kanıt bulma süresi	4 saat / anket	5 dakika (otomatik alım)
Manuel düzenleme çabası	12 saat / denetim	< 30 dakika (LLM‑oluşturmalı)
Kanıt sürüm uyuşmazlıkları	%18 yanıt	%0 (hash doğrulama)
Denetçi güven puanı (1‑10)	6	9
Maliyet tasarrufu (FTE)	2.1 FTE / çeyrek	0.3 FTE / çeyrek

Pilot, 3 SOC 2 Type II ve 2 ISO 27001 iç denetimini, 200+ politika belgesiyle bir SaaS platformunda yürütmüştür. Kanıt grafiği 12 k düğüme ulaşmış, sorgu gecikmesi ise 150 ms altında kalmıştır.

8. En İyi Uygulama Kontrol Listesi

İsimlendirmeyi Standartlaştır – Tutarlı bir şema (<type>_<system>_<date>.pdf) kullanın.
Sürüm‑Kilitli Dosyalar – Değiştirilemez anlık görüntüleri WORM depolamada saklayın.
İmza Yetkilisini Merkezileştir – Özel anahtarları donanım güvenlik modülleri (HSM) ile yönetin.
NER Modellerini İncelikli Eğit – Yeni politikalarla periyodik yeniden eğitim yaparak terim evrimini yakalayın.
Grafik Sağlığını İzle – Bağlantısız kanıt düğümleri için uyarı oluşturun.
Defteri Denetle – Çeyrek bazında hash imzalarını kaynak dosyalarla kontrol edin.

9. Gelecek Yönelimler

Çok‑Modelli Kanıt – Ekran görüntüleri, mimari diyagramlar ve video walkthrough’ları vision‑LLM’lerle dahil edin.
Federated Learning – Birçok kuruluşun anonimleştirilmiş varlık gömmelerini paylaşarak NER doğruluğunu artırın, içerik gizliliğini koruyun.
Kendini‑İyileştiren Kontroller – Grafik, yeni bir kontrol gerektiğinde eksik kanıtı algılayıp politikayı otomatik güncelleyecek tetikleyiciler oluşturun.

Bu gelişmeler, sıfır‑dokunuş kanıt çıkarımını yalnızca bir verimlilik artırıcı olmaktan dinamik bir uyumluluk motoru hâline taşıyarak, regülasyonların sürekli değişen manzarasına kendini uyarlayan bir sistem haline getirecek.

Sonuç

Sıfır‑dokunuş kanıt çıkarımı, uyumluluk darboğazını kesintisiz, denetlenebilir ve AI‑destekli bir iş akışına dönüştürür. Statik belgeleri zengin bağlantılı bir bilgi grafiğine çevirerek, her artefaktı kriptografik olarak doğrulayarak ve grafiği bir LLM orchestrator ile birleştirerek şirketler:

Dakikalar içinde güvenlik anketlerine yanıt verir (günler yerine).
Denetçilerin güvenini kazanan değişmez kanıt sunar.
Manuel işe harcanan zamanı azaltır, güvenlik ekiplerini stratejik risk azaltmaya odaklatır.

Belge AI ile kanıt yönetimine geçmek artık bir “olsa güzel olur” seçeneği değil; 2025 ve sonrasındaki rekabetçi SaaS organizasyonları için temel bir gerekliliktir.