müfettiş
Moderatör
- Katılım
- 20 Ocak 2024
- Mesajlar
- 325
- Tepkime puanı
- 1
- Puanları
- 18
Veri bilimi dünyasına adım atan her analistin ve mühendisin ilk karşılaştığı duraklardan biri Lojistik Regresyondur. İsmindeki "regresyon" ifadesi kafa karıştırıcı olsa da, bu algoritma aslında dünyadaki en popüler ve temel sınıflandırma yöntemlerinden biridir.
Bir e-postanın spam olup olmadığı, bir banka işleminin sahtekarlık içerip içermediği veya bir hastanın belirli bir hastalığa sahip olup olmadığı gibi "Evet/Hayır" sorularının cevabı, genellikle arka planda çalışan bir lojistik regresyon modeline dayanır.
f(x)=1+e−x1
Burada x, doğrusal regresyon modelinden gelen w0+w1x1+... sonucudur. Bu fonksiyonun çıktısı her zaman 0 ile 1 arasındadır.
Bu durumu analiz etmek için Karışıklık Matrisi kullanılır:
Bir e-postanın spam olup olmadığı, bir banka işleminin sahtekarlık içerip içermediği veya bir hastanın belirli bir hastalığa sahip olup olmadığı gibi "Evet/Hayır" sorularının cevabı, genellikle arka planda çalışan bir lojistik regresyon modeline dayanır.
Lojistik Regresyon Nedir?
Lojistik regresyon, bağımlı değişkenin kategorik olduğu durumlarda kullanılan bir istatistiksel yöntemdir. En yaygın hali olan İkili (Binary) Lojistik Regresyon, sonucu iki olası sınıftan birine atar: 0 veya 1, Başarılı veya Başarısız, Pozitif veya Negatif.Neden Doğrusal Regresyon Değil?
Doğrusal regresyonda sonuçlar −∞ ile +∞ arasında herhangi bir değer alabilir. Ancak sınıflandırma problemlerinde bize 0 ile 1 arasında bir olasılık değeri gerekir. Lojistik regresyon, doğrusal bir denklemi alır ve onu Sigmoid (Lojistik) Fonksiyonu içerisinden geçirerek 0 ile 1 arasına sıkıştırır.Matematiksel Temel: Sigmoid Fonksiyonu
Lojistik regresyonun kalbi olan Sigmoid fonksiyonu şu formülle ifade edilir:f(x)=1+e−x1
Burada x, doğrusal regresyon modelinden gelen w0+w1x1+... sonucudur. Bu fonksiyonun çıktısı her zaman 0 ile 1 arasındadır.
- Eğer çıktı 0.5'ten büyükse, model veriyi Sınıf 1 olarak tahmin eder.
- Eğer çıktı 0.5'ten küçükse, model veriyi Sınıf 0 olarak tahmin eder.
Lojistik Regresyonun Türleri
Problemin yapısına göre lojistik regresyon üç farklı şekilde karşımıza çıkar:- İkili (Binary) Lojistik Regresyon: Sadece iki kategori vardır. (Örn: Geçti/Kaldı)
- Çoklu (Multinomial) Lojistik Regresyon: İkiden fazla, sıralanmamış kategori vardır. (Örn: Ulaşım tercihi; Tren, Otobüs, Uçak)
- Sıralı (Ordinal) Lojistik Regresyon: Kategoriler arasında bir hiyerarşi vardır. (Örn: Müşteri memnuniyeti; Düşük, Orta, Yüksek)
Model Performansını Ölçme: Karışıklık Matrisi (Confusion Matrix)
Bir sınıflandırma modelinin sadece "doğruluk" (accuracy) oranına bakmak genellikle yanıltıcıdır. Örneğin, 100 kişiden sadece 1'inin hasta olduğu bir veri setinde model herkese "sağlıklı" derse %99 başarılı görünür ancak asıl görevi olan "hastayı bulma" konusunda başarısızdır.Bu durumu analiz etmek için Karışıklık Matrisi kullanılır:
- True Positive (TP): Hasta olana "Hasta" dedik. (Doğru)
- True Negative (TN): Sağlıklı olana "Sağlıklı" dedik. (Doğru)
- False Positive (FP): Sağlıklı olana "Hasta" dedik. (Hata - Tip I)
- False Negative (FN): Hasta olana "Sağlıklı" dedik. (Hata - Tip II)
Lojistik Regresyonun Avantajları ve Dezavantajları
Her algoritma gibi lojistik regresyonun da güçlü ve zayıf yönleri vardır:Avantajları
- Basitlik ve Hız: Eğitilmesi ve tahmin yapması oldukça hızlıdır.
- Yorumlanabilirlik: Hangi değişkenin sonucu ne yönde etkilediğini (katsayılar üzerinden) anlamak çok kolaydır.
- Olasılık Çıktısı: Sadece bir sınıf etiketi değil, o sınıfa ait olma olasılığını da verir.
Dezavantajları
- Doğrusallık Varsayımı: Bağımsız değişkenler ile hedef değişken arasında doğrusal bir ilişki olduğunu varsayar. Karmaşık, doğrusal olmayan verilerde (örneğin görüntü işleme) zayıf kalır.
- Aykırı Değerlere Hassasiyet: Aykırı veriler (outliers) modelin katsayılarını saptırabilir.
- Overfitting Riski: Çok fazla değişken kullanıldığında model veriyi ezberleyebilir (bunu önlemek için L1/L2 regülarizasyonu kullanılır).
Uygulama Alanları
- Sağlık: Bir hastanın tahlil sonuçlarına göre diyabet riski olup olmadığını tahmin etme.
- Finans: Kredi başvurusu yapan bir kişinin borcuna sadık kalıp kalmayacağını belirleme.
- Pazarlama: Bir kullanıcının web sitesindeki bir reklama tıklayıp tıklamayacağını öngörme.
- İK: Bir çalışanın şirketten ayrılma (churn) ihtimalini analiz etme.