Büyük Dil Modellerinde (LLM) PII (Kişisel Bilgi) Tespiti

müfettiş

Moderatör
Katılım
20 Ocak 2024
Mesajlar
325
Tepkime puanı
1
Puanları
18
llmai.jpg


Yapay zeka devrimi, Büyük Dil Modelleri (LLM) aracılığıyla iş dünyasını ve günlük hayatı dönüştürürken, bu modellerin en büyük zayıf noktası "veri gizliliği" olmaya devam ediyor. Modellerin eğitimi ve kullanımı sırasında sisteme sızan PII (Personally Identifiable Information - Kişisel Olarak Tanımlanabilir Bilgiler), hem şirketler hem de bireyler için devasa bir risk oluşturuyor.

TC Kimlik numaraları, adresler, telefonlar veya özel sağlık verilerinin bir yapay zeka çıktısında aniden belirmesi, sadece etik bir sorun değil; GDPR, KVKK ve CCPA gibi ağır yaptırımları olan yasal süreçlerin tetikleyicisidir.


1. PII Nedir ve LLM'ler İçin Neden Tehlikelidir?​

PII (Kişisel Bilgi); bir bireyi doğrudan (ad, soyad, TCKN) veya dolaylı olarak (doğum tarihi, konumu, mesleği gibi bilgilerin birleşimi) tanımlayabilen her türlü veridir.

LLM'ler söz konusu olduğunda iki temel risk alanı bulunur:

  1. Eğitim Verisi Sızıntısı: Modelin milyarlarca parametre arasında bir kullanıcının kredi kartı numarasını "ezberlemesi" ve ileride başka bir kullanıcıya bunu sunması.
  2. Prompt (Girdi) Sızıntısı: Şirket çalışanlarının veya son kullanıcıların, hassas verileri modele soru sorarken (örneğin bir sözleşmeyi özetletirken) sisteme yüklemesi.

2. PII Tespiti ve Temizleme Süreci (Anonymization Pipeline)​

Bir LLM projesinde PII tespiti, verinin modele girmeden (input) veya modelden çıkmadan (output) önce geçtiği bir filtreleme katmanıdır.

Adım 1: Tespit (Detection)​

Veri içindeki hassas desenlerin bulunması aşamasıdır. Günümüzde üç ana yöntem kullanılır:

  • Düzenli İfadeler (Regex): E-posta veya telefon numarası gibi standart formatlı veriler için hızlıdır ancak isim veya adres gibi değişken yapılar için yetersizdir.
  • Varlık İsmi Tanıma (NER - Named Entity Recognition): NLP modelleri kullanarak metin içindeki kişi, yer ve kurum isimlerini tespit eder.
  • LLM Tabanlı Tespit: Küçük, özel eğitilmiş modeller (örneğin bir BERT türevi), metni analiz ederek karmaşık kişisel verileri yüksek doğrulukla bulur.

Adım 2: Sınıflandırma (Classification)​

Tespit edilen verinin türü belirlenir. Bu, verinin silinip silinmeyeceğine veya maskelenip maskelenmeyeceğine karar vermek için kritiktir.

Adım 3: Maskeleme veya Karartma (Redaction)​

PII verileri tespit edildikten sonra şu yöntemlerle etkisiz hale getirilir:

  • Redaksiyon: Verinin tamamen silinmesi (Örn: [KİŞİ ADI]).
  • Sentetik Değiştirme: Verinin gerçeğe benzer ama sahte bir veriyle değiştirilmesi (Örn: "Ahmet Yılmaz" yerine "Can Demir").
  • Şifreleme (Hashing): Verinin geri döndürülemez bir koda dönüştürülmesi.

3. LLM'lerde PII Tespitinde Karşılaşılan Zorluklar​

Geleneksel veri tabanlarının aksine, LLM'lerde PII tespiti "bağlamsal" bir problemdir.

  • Çok Dillilik (Multilingualism): Bir modelin İngilizce bir adresi tanıması kolayken, Türkçe veya Arapça yerel adres formatlarını tanıması özel eğitim gerektirir.
  • Dolaylı Tanımlama (Linkability): Tek başına PII olmayan bir bilgi (örneğin nadir görülen bir hastalık ve yaşanılan şehir), başka bir veriyle birleştiğinde kişiyi ifşa edebilir.
  • Düşük Hata Toleransı: Güvenlik sistemleri %99 başarı gösterse bile, kalan %1'lik sızıntı büyük bir veri ihlali davası için yeterlidir.

4. En Popüler PII Tespit Araçları ve Kütüphaneler​

Geliştiriciler ve veri bilimciler için 2026 yılı itibarıyla standart haline gelmiş bazı açık kaynaklı ve ticari araçlar:

  1. Microsoft Presidio: Esnek, modüler ve özelleştirilebilir bir PII tespit ve anonimleştirme kütüphanesidir. Python tabanlıdır ve Regex ile NER modellerini birleştirir.
  2. Spacy (NER): Endüstriyel düzeyde varlık tanıma kapasitesine sahiptir. Türkçe desteği ve özelleştirilmiş model eğitimi için idealdir.
  3. Amazon Comprehend: (PII API): Bulut tabanlı, yönetilen bir hizmettir. Yüksek hacimli verileri taramak için kullanılır.
  4. Hugging Face PII-Detection: Topluluk tarafından eğitilmiş, LLM'lere özel (örneğin StarCoder gibi modellerde kullanılan) veri temizleme araçlarıdır.

5. Uygulamada En İyi Pratikler (Best Practices)​

LLM tabanlı bir uygulama geliştirirken şu güvenlik adımları izlenmelidir:

Veri Minimizasyonu​

Modele asla ihtiyacından fazlasını vermeyin. Eğer bir müşteri hizmetleri botu sadece sipariş durumunu sorgulayacaksa, müşterinin geçmiş sağlık kayıtlarını veri tabanından çekmesine engel olun.

"In-Context" Temizlik​

Kullanıcı bir komut (prompt) yazdığında, bu komut LLM API'sine gönderilmeden önce yerel bir sunucuda (On-premise) PII taramasından geçirilmelidir.

Diferansiyel Gizlilik (Differential Privacy)​

Eğer kendi modelinizi eğitiyorsanız, verilere matematiksel gürültü ekleyerek modelin spesifik bireyleri "ezberlemesini" engelleyin.


6. Hukuki Boyut: KVKK ve GDPR Uyumu​

Yapay zeka modelleri "veri sorumlusu" veya "veri işleyen" olarak tanımlanabilir. Bir modelin eğitim setinde silinmemiş bir kişisel veri bulunması, "unutulma hakkı"nın ihlali anlamına gelebilir.

  • Şeffaflık: Kullanıcılara verilerinin LLM eğitiminde kullanılıp kullanılmadığı açıkça belirtilmelidir.
  • Denetlenebilirlik: Modellerin periyodik olarak "PII Sızdırma Testlerine" (Penetration Testing for AI) sokulması zorunlu hale gelmektedir.

7. Gelecek Vizyonu: Otonom Gizlilik Savunucuları​

Gelecekte, LLM'lerin içine gömülü (built-in) gizlilik katmanları göreceğiz. Model, bir çıktı üretirken kendi içinde "Bu bilgi bir PII içeriyor mu?" kontrolünü yapacak ve eğer içeriyorsa çıktıyı otomatik olarak sansürleyecektir. Ayrıca, "Makine Unutması" (Machine Unlearning) algoritmaları sayesinde, sızan bir verinin modelin parametrelerinden tamamen silinmesi mümkün olacaktır.


Sonuç​

Büyük Dil Modellerinde PII tespiti, sadece teknik bir filtreleme işlemi değil; kurumsal güvenin ve yasal uyumluluğun temel taşıdır. Veri sızıntılarının maliyeti, bir yapay zeka projesinin getirisinden çok daha yüksek olabilir. Bu nedenle, PII tespiti "sonradan eklenen" bir özellik değil, yazılım geliştirme yaşam döngüsünün (SDLC) en başından itibaren sisteme entegre edilen bir güvenlik katmanı olmalıdır.

Siz de yapay zeka projelerinizde veriyi koruyarak ilerlemek istiyorsanız, açık kaynaklı araçlarla (Microsoft Presidio gibi) başlayıp, kendi veri setinize uygun özel modeller (Fine-tuning) geliştirerek savunmanızı güçlendirebilirsiniz.
 
Geri
Üst