Boyut Azaltma Teknikleri: PCA Nedir?

müfettiş

Moderatör
Katılım
20 Ocak 2024
Mesajlar
325
Tepkime puanı
1
Puanları
18
Veri bilimi projelerinde bazen onlarca, yüzlerce hatta binlerce farklı değişkene (boyuta) sahip veri setleriyle çalışırız. Değişken sayısının bu denli çok olması ilk bakışta "daha fazla bilgi" gibi görünse de, aslında beraberinde Boyut Laneti (Curse of Dimensionality) dediğimiz problemleri getirir. Veri karmaşıklaşır, görselleştirmek imkansız hale gelir ve modellerin eğitim süresi uzar.

İşte bu noktada PCA (Principal Component Analysis - Temel Bileşenler Analizi), karmaşıklığı azaltmak ve verinin özünü koruyarak boyut sayısını düşürmek için imdadımıza yetişir.


PCA Nedir? Temel Mantığı​

PCA, bir veri setindeki yüksek boyutlu değişkenleri, verideki varyansı (bilgiyi) en iyi temsil eden daha az sayıdaki yeni değişkenlere dönüştürme işlemidir. Bu yeni değişkenlere Temel Bileşenler (Principal Components) denir.

PCA'nın temel amacı şudur: "Verinin sahip olduğu toplam varyansı (bilgi miktarını) olabildiğince koruyarak, birbiriyle ilişkili değişkenleri bir araya getir ve boyut sayısını azalt."

Neden PCA Kullanırız?​

  • Veri Görselleştirme: 10 boyutlu bir veriyi göremeyiz, ancak PCA ile 2 veya 3 boyuta indirerek grafiğe dökebiliriz.
  • Hesaplama Hızı: Daha az değişkenle modeller çok daha hızlı eğitilir.
  • Gürültüden Arınma: Verideki önemsiz varyasyonları (gürültüyü) temizleyerek ana yapıya odaklanır.
  • Çoklu Bağlantı (Multicollinearity) Sorununu Çözme: Birbiriyle yüksek korelasyona sahip değişkenleri birleştirir.

PCA Nasıl Çalışır? (Adım Adım)​

PCA'nın arkasında yatan matematiksel süreci şu beş adımda özetleyebiliriz:

1. Standardizasyon​

Veri setindeki değişkenler farklı birimlerde olabilir (örneğin; boy cm, ağırlık kg). PCA varyansa duyarlı olduğu için, büyük değerlere sahip değişkenlerin analizi domine etmemesi adına tüm veriler ölçeklendirilir (genellikle ortalaması 0, standart sapması 1 olacak şekilde).

2. Kovaryans Matrisi Hesaplama​

Değişkenlerin birbirleriyle olan ilişkilerini (birlikte nasıl değiştiklerini) anlamak için kovaryans matrisi oluşturulur.

3. Özdeğerler (Eigenvalues) ve Özvektörler (Eigenvectors)​

Matematiksel olarak bu matrisin özdeğerleri ve özvektörleri hesaplanır.

  • Özvektörler: Yeni boyutların (bileşenlerin) yönünü belirler.
  • Özdeğerler: Bu yönlerin ne kadar varyans (bilgi) taşıdığını gösterir.

4. Bileşenlerin Seçilmesi​

Özdeğerler büyükten küçüğe sıralanır. En yüksek özdeğere sahip olan "Birinci Temel Bileşen (PC1)" olur. Bilginin %90 veya %95'ini temsil eden ilk k adet bileşen seçilir, geri kalanı atılır.

5. Veriyi Yeni Boyutlara Projekte Etme​

Son adımda orijinal veri seti, seçilen bu yeni temel bileşenler eksenine yansıtılır. Artık verimiz daha az boyutludur ancak karakteristik özelliklerini korumaktadır.


PCA Kullanırken Dikkat Edilmesi Gerekenler​

PCA her ne kadar güçlü bir araç olsa da sihirli bir değnek değildir:

  • Yorumlanabilirlik Kaybolur: Orijinal değişkenleriniz (örneğin "yaş" ve "gelir") artık yoktur; bunun yerine "Bileşen 1" ve "Bileşen 2" vardır. Bu bileşenlerin gerçek dünyada neyi temsil ettiğini anlamak zordur.
  • Sadece Doğrusal İlişkiler: PCA, değişkenler arasındaki doğrusal ilişkileri yakalamakta iyidir. Eğer veri seti karmaşık ve doğrusal olmayan (non-linear) bir yapıdaysa Kernel PCA gibi alternatifler düşünülmelidir.
  • Bilgi Kaybı: Boyut azaltırken her zaman bir miktar bilgi (varyans) kaybedilir. Önemli olan bu kaybı minimumda tutmaktır.

PCA'nın Pratik Kullanım Alanları​

  1. Görüntü İşleme: Bir fotoğraftaki binlerce pikseli, temel özellikleri temsil eden birkaç yüze indirgeyerek (Eigenfaces) yüz tanıma sistemlerinde kullanılır.
  2. Genetik Araştırmalar: Binlerce gen verisi arasından hastalıkla ilişkili temel örüntüleri bulmak için tercih edilir.
  3. Müşteri Segmentasyonu: Onlarca farklı tüketici davranışı verisini özetleyerek benzer müşteri gruplarını belirlemede kullanılır.

Sonuç​

PCA, "çok fazla değişkenim var ama hangisi gerçekten önemli bilmiyorum" dediğiniz noktalarda verinizi sadeleştiren en etkili yöntemlerden biridir. Karmaşayı düzene sokar, modellerinizi hafifletir ve verinin içindeki gizli yapıyı görmenizi sağlar.
 
Geri
Üst