- Katılım
- 20 Ocak 2024
- Mesajlar
- 325
- Tepkime puanı
- 1
- Puanları
- 18
Veri analitiği dünyasında veri, "yeni petrol" olarak nitelendirilse de bu petrolün işlenmesi büyük bir sorumluluk getirir. Kişisel verilerin korunması (KVKK veya GDPR gibi regülasyonlar), sadece yasal bir zorunululuk değil, aynı zamanda etik bir duruştur. Analiz süreçlerinde veri setinin faydasını (utility) kaybetmeden, bireylerin mahremiyetini (privacy) korumak için kullanılan yöntemlere Veri Maskeleme denir.
Etik bir veri analizi süreci, ham verinin analiz aşamasına geçmeden önce tanınmaz hale getirilmesini gerektirir. İşte bu süreçte kullanılan en etkili teknikler:
Etik bir veri analizi süreci, ham verinin analiz aşamasına geçmeden önce tanınmaz hale getirilmesini gerektirir. İşte bu süreçte kullanılan en etkili teknikler:
1. Veri Anonimleştirme ve Maskeleme Teknikleri
Kişisel verileri korumak için tek bir yöntem yoktur; verinin türüne ve analizin amacına göre farklı teknikler uygulanır.Karartma (Redaction)
En radikal maskeleme yöntemidir. Hassas verinin tamamen silinmesi veya üzerinin kapatılmasıdır. Örneğin, bir müşteri tablosundaki "TC Kimlik No" sütununun tamamen kaldırılması veya12345678901 yerine *********** yazılmasıdır. Bu yöntem güvenli olsa da veri çeşitliliğini azaltır.Sözde Anonimleştirme (Pseudonymization)
Gerçek kimlik bilgilerinin, yapay bir tanımlayıcı (ID) ile değiştirilmesidir. Örneğin, "Ahmet Yılmaz" isminin veri setinde "ID_8821" olarak kodlanmasıdır.Önemli Not: Eğer bu ID'lerin gerçek isimlerle eşleştiği bir anahtar liste (lookup table) başka bir yerde tutuluyorsa, bu tam bir anonimleştirme değildir; geri döndürülebilir bir işlemdir.
Veri Karıştırma (Shuffling)
Aynı sütun içindeki değerlerin yerlerinin rastgele değiştirilmesidir. Örneğin, maaş analizi yaparken isimleri ve maaşları birbirinden koparmak için maaş değerlerini satırlar arasında karıştırabilirsiniz. Böylece genel istatistiksel dağılım (ortalama maaş vb.) değişmez ancak kimin ne kadar kazandığı belirsizleşir.2. İleri Seviye Koruma Yöntemleri
Basit maskeleme bazen yeterli olmayabilir. Bir veri setinde isim olmasa bile, yaş, cinsiyet ve posta kodu gibi bilgiler birleştiğinde (quasi-identifiers) kişinin kimliği %80'den fazla doğrulukla tahmin edilebilir. Bunu engellemek için şu yöntemler kullanılır:k-Anonimlik (k-Anonymity)
Veri setindeki her bir kaydın, en az k−1 adet başka kayıtla ayırt edilemez hale getirilmesidir. Örneğin, bir tablodaki yaş verileri "25, 26, 27" yerine "20-30 aralığı" olarak genelleştirilir. Böylece belirli bir özelliği taşıyan tek bir kişi kalmaz, en az k kişilik bir grup oluşur.Diferansiyel Gizlilik (Differential Privacy)
Veriye bilinçli olarak küçük bir miktar istatistiksel "gürültü" (noise) ekleme tekniğidir. Analiz sonuçları (örneğin ortalamalar) hala doğruya çok yakın çıkar ancak veri setine tek bir kişinin eklenmesi veya çıkarılması sonucu değiştirmeyeceği için bireysel veri korunmuş olur. Apple ve Google gibi devler, kullanıcı alışkanlıklarını bu yöntemle toplar.3. Maskeleme Sürecinde Dikkat Edilmesi Gerekenler
Etik bir veri analizi için şu kontrol listesi takip edilmelidir:- Minimizasyon: Sadece analiz için gerçekten gerekli olan sütunları işleme alın.
- Geri Döndürülemezlik: Uygulanan maskelemenin, dışarıdaki başka veri setleriyle (cross-referencing) birleştirildiğinde çözülüp çözülemeyeceğini test edin.
- Veri Kalitesi (Utility): Maskeleme veriyi o kadar bozmamalıdır ki analiz sonuçları anlamsızlaşmasın. Gizlilik ve fayda arasındaki denge iyi kurulmalıdır.
Veri Maskeleme Yöntemleri Karşılaştırma Tablosu
| Teknik | Güvenlik Seviyesi | Veri Faydası (Utility) | Geri Döndürülebilirlik |
| Karartma | Çok Yüksek | Düşük | Hayır |
| Sözde Anonimleştirme | Orta | Yüksek | Evet (Anahtar ile) |
| Veri Karıştırma | Orta | Orta | Hayır |
| Diferansiyel Gizlilik | Çok Yüksek | Orta | Hayır |