müfettiş
Moderatör
- Katılım
- 20 Ocak 2024
- Mesajlar
- 325
- Tepkime puanı
- 1
- Puanları
- 18
Dijital ekosistemde işlem hacimleri arttıkça, bu işlemlerin içindeki kötü niyetli faaliyetleri ayırt etmek samanlıkta iğne aramaya benzemeye başladı. Anomali Tespiti (Anomaly Detection), veri setindeki normal davranış kalıplarına uymayan, sapan veya "tuhaf" görünen veri noktalarını tanımlama sürecidir. Finans dünyasında bu süreç, milyarlarca liralık kayıpların önüne geçen Sahtecilik Önleme (Fraud Detection) sistemlerinin kalbini oluşturur.
Bir kredi kartının her gün İstanbul’da market harcaması için kullanılırken, aniden gece yarısı yurt dışı kaynaklı yüksek tutarlı bir teknoloji alışverişinde kullanılması bir anomalidir. İşte veri bilimi, bu sapmaları saniyeler içinde yakalayarak sistemi uyarır.
Bir kredi kartının her gün İstanbul’da market harcaması için kullanılırken, aniden gece yarısı yurt dışı kaynaklı yüksek tutarlı bir teknoloji alışverişinde kullanılması bir anomalidir. İşte veri bilimi, bu sapmaları saniyeler içinde yakalayarak sistemi uyarır.
Anomali Nedir? Türlerini Tanımak
Her sapma aynı değildir. Veri biliminde anomaliler genellikle üç ana kategoride incelenir:- Noktasal Anomaliler: Tek bir veri noktasının, veri setinin geri kalanından tamamen uzak olmasıdır. (Örn: Birinin normal harcamasının 100 katı büyüklüğünde tek bir işlem).
- Bağlamsal Anomaliler: Veri noktasının tek başına normal göründüğü ancak içinde bulunduğu bağlamda anomali teşkil ettiği durumlardır. (Örn: Kışın dondurma satışlarının patlaması veya gece saat 03:00'te yapılan kurumsal bir EFT).
- Kolektif Anomaliler: Bir grup veri noktasının bireysel olarak normal, ancak birlikte hareket ettiklerinde şüpheli olmasıdır. (Örn: Bir hesaba küçük miktarlarda ama binlerce kez ardışık para girişi yapılması - para aklama işareti olabilir).
Sahtecilik Önlemede Kullanılan Algoritmalar
Anomali tespiti genellikle "denetimsiz öğrenme" (unsupervised learning) yöntemleriyle yapılır, çünkü sahtecilik yöntemleri sürekli değişir ve elimizde her zaman etiketlenmiş "sahte işlem" verisi bulunmaz.1. Isolation Forest (İzolasyon Ormanı)
Bu algoritma, anomalileri "ayırmanın" normal noktaları ayırmaktan daha kolay olduğu ilkesine dayanır.- Mantık: Veriyi rastgele özelliklere göre böler. Normal noktalar çok fazla bölünme gerektirirken, anomaliler (uç değerler) ağaç yapısında çok daha kısa sürede izole edilir.
- Neden Tercih Edilir? Büyük veri setlerinde çok hızlıdır ve "aykırı" olanı bulmakta ustadır.
2. Local Outlier Factor (LOF)
Bir veri noktasının yoğunluğunu, komşularının yoğunluğuyla kıyaslar.- Mantık: Eğer bir noktanın komşuları birbirine çok yakın ama söz konusu nokta onlara uzaksa, o nokta bir anomalidir.
- Kullanım Alanı: Müşteri segmentasyonu içindeki sapmaları bulmak için idealdir.
3. Autoencoders (Derin Öğrenme)
Yapay sinir ağları kullanılarak verinin "normal" halini sıkıştırıp tekrar açmayı öğrenen bir yapıdır.- Mantık: Model normal veriyi mükemmel şekilde yeniden oluşturmayı öğrenir. Sisteme sahte bir işlem girdiğinde, model bu "tuhaf" veriyi yeniden oluşturamaz ve yüksek bir hata payı (reconstruction error) verir. Bu hata, anomalinin kanıtıdır.
Sahtecilik Önleme Sisteminin İş Akışı
Başarılı bir sahtecilik önleme mekanizması şu adımları izler:- Veri Toplama: Cihaz bilgisi, konum, işlem tutarı, işlem saati ve geçmiş harcama alışkanlıkları gibi yüzlerce özellik (feature) anlık olarak toplanır.
- Özellik Mühendisliği (Feature Engineering): "Müşterinin son 24 saatteki harcama toplamı" veya "Son işlemin yapıldığı konum ile şu anki konum arasındaki mesafe" gibi yeni ve anlamlı değişkenler üretilir.
- Anomali Skoru Atama: Algoritma işleme 0 ile 1 arasında bir şüphe skoru verir.
- Eşik Değer ve Aksiyon: Skor belirlenen eşiği (örneğin 0.95) geçerse işlem reddedilir veya müşteri temsilcisi tarafından onaylanması için "askıya" alınır.
Anomali Tespitinde "Dengesiz Veri" Sorunu
Sahtecilik önleme projelerinin en büyük zorluğu verinin doğasıdır. Bir bankada milyonlarca normal işlem varken, sahte işlem sayısı belki de on binde birdir. Bu duruma dengesiz veri (imbalanced data) denir.- Modelin "her şey normal" diyerek %99.99 doğruluk payına ulaşması aslında bir başarı değildir; çünkü asıl hedefimiz o %0.01'lik sahteciliği yakalamaktır.
- Bu sorunu aşmak için SMOTE (sentetik veri üretme) veya Precision-Recall eğrileri gibi özel metrikler kullanılır.