Lojistik Regresyon ile Sınıflandırma Problemleri

müfettiş

Moderatör
Katılım
20 Ocak 2024
Mesajlar
325
Tepkime puanı
1
Puanları
18
Veri bilimi dünyasına adım atan her analistin ve mühendisin ilk karşılaştığı duraklardan biri Lojistik Regresyondur. İsmindeki "regresyon" ifadesi kafa karıştırıcı olsa da, bu algoritma aslında dünyadaki en popüler ve temel sınıflandırma yöntemlerinden biridir.

Bir e-postanın spam olup olmadığı, bir banka işleminin sahtekarlık içerip içermediği veya bir hastanın belirli bir hastalığa sahip olup olmadığı gibi "Evet/Hayır" sorularının cevabı, genellikle arka planda çalışan bir lojistik regresyon modeline dayanır.


Lojistik Regresyon Nedir?​

Lojistik regresyon, bağımlı değişkenin kategorik olduğu durumlarda kullanılan bir istatistiksel yöntemdir. En yaygın hali olan İkili (Binary) Lojistik Regresyon, sonucu iki olası sınıftan birine atar: 0 veya 1, Başarılı veya Başarısız, Pozitif veya Negatif.

Neden Doğrusal Regresyon Değil?​

Doğrusal regresyonda sonuçlar −∞ ile +∞ arasında herhangi bir değer alabilir. Ancak sınıflandırma problemlerinde bize 0 ile 1 arasında bir olasılık değeri gerekir. Lojistik regresyon, doğrusal bir denklemi alır ve onu Sigmoid (Lojistik) Fonksiyonu içerisinden geçirerek 0 ile 1 arasına sıkıştırır.


Matematiksel Temel: Sigmoid Fonksiyonu​

Lojistik regresyonun kalbi olan Sigmoid fonksiyonu şu formülle ifade edilir:

f(x)=1+e−x1
Burada x, doğrusal regresyon modelinden gelen w0+w1x1+... sonucudur. Bu fonksiyonun çıktısı her zaman 0 ile 1 arasındadır.

  • Eğer çıktı 0.5'ten büyükse, model veriyi Sınıf 1 olarak tahmin eder.
  • Eğer çıktı 0.5'ten küçükse, model veriyi Sınıf 0 olarak tahmin eder.

Lojistik Regresyonun Türleri​

Problemin yapısına göre lojistik regresyon üç farklı şekilde karşımıza çıkar:

  1. İkili (Binary) Lojistik Regresyon: Sadece iki kategori vardır. (Örn: Geçti/Kaldı)
  2. Çoklu (Multinomial) Lojistik Regresyon: İkiden fazla, sıralanmamış kategori vardır. (Örn: Ulaşım tercihi; Tren, Otobüs, Uçak)
  3. Sıralı (Ordinal) Lojistik Regresyon: Kategoriler arasında bir hiyerarşi vardır. (Örn: Müşteri memnuniyeti; Düşük, Orta, Yüksek)

Model Performansını Ölçme: Karışıklık Matrisi (Confusion Matrix)​

Bir sınıflandırma modelinin sadece "doğruluk" (accuracy) oranına bakmak genellikle yanıltıcıdır. Örneğin, 100 kişiden sadece 1'inin hasta olduğu bir veri setinde model herkese "sağlıklı" derse %99 başarılı görünür ancak asıl görevi olan "hastayı bulma" konusunda başarısızdır.

Bu durumu analiz etmek için Karışıklık Matrisi kullanılır:

  • True Positive (TP): Hasta olana "Hasta" dedik. (Doğru)
  • True Negative (TN): Sağlıklı olana "Sağlıklı" dedik. (Doğru)
  • False Positive (FP): Sağlıklı olana "Hasta" dedik. (Hata - Tip I)
  • False Negative (FN): Hasta olana "Sağlıklı" dedik. (Hata - Tip II)

Lojistik Regresyonun Avantajları ve Dezavantajları​

Her algoritma gibi lojistik regresyonun da güçlü ve zayıf yönleri vardır:

Avantajları​

  • Basitlik ve Hız: Eğitilmesi ve tahmin yapması oldukça hızlıdır.
  • Yorumlanabilirlik: Hangi değişkenin sonucu ne yönde etkilediğini (katsayılar üzerinden) anlamak çok kolaydır.
  • Olasılık Çıktısı: Sadece bir sınıf etiketi değil, o sınıfa ait olma olasılığını da verir.

Dezavantajları​

  • Doğrusallık Varsayımı: Bağımsız değişkenler ile hedef değişken arasında doğrusal bir ilişki olduğunu varsayar. Karmaşık, doğrusal olmayan verilerde (örneğin görüntü işleme) zayıf kalır.
  • Aykırı Değerlere Hassasiyet: Aykırı veriler (outliers) modelin katsayılarını saptırabilir.
  • Overfitting Riski: Çok fazla değişken kullanıldığında model veriyi ezberleyebilir (bunu önlemek için L1/L2 regülarizasyonu kullanılır).

Uygulama Alanları​

  • Sağlık: Bir hastanın tahlil sonuçlarına göre diyabet riski olup olmadığını tahmin etme.
  • Finans: Kredi başvurusu yapan bir kişinin borcuna sadık kalıp kalmayacağını belirleme.
  • Pazarlama: Bir kullanıcının web sitesindeki bir reklama tıklayıp tıklamayacağını öngörme.
  • İK: Bir çalışanın şirketten ayrılma (churn) ihtimalini analiz etme.

Sonuç​

Lojistik regresyon, karmaşık yapay zeka modellerine geçmeden önce her veri bilimcinin ustalaşması gereken bir araçtır. Az veriyle bile etkili sonuçlar verebilmesi ve sonuçlarının iş dünyası için açıklanabilir olması, onu endüstride vazgeçilmez kılar. Veri setinizdeki sınıflar belirgin bir ayrım gösteriyorsa, derin öğrenme gibi ağır toplara başvurmadan önce lojistik regresyon ile hızlı ve sağlam bir başlangıç yapabilirsiniz.
 
Geri
Üst