Veri Analizinde Hipotez Testleri (P-Value, T-Test)

müfettiş

Moderatör
Top Poster Of Month
Katılım
20 Ocak 2024
Mesajlar
325
Tepkime puanı
1
Puanları
18
Veri bilimi ve istatistikte kararlarımızı sadece gözlemlere dayanarak değil, matematiksel bir güvenle almak zorundayız. "Bu ayki satış artışı gerçekten yaptığımız reklamdan mı kaynaklanıyor yoksa tamamen şans eseri mi?" gibi soruların cevabı Hipotez Testlerinde gizlidir.


1. Hipotez Testi Nedir?​

Hipotez testi, bir popülasyona ait bir varsayımın (hipotezin), örneklem verileri kullanılarak istatistiksel olarak ne kadar geçerli olduğunu belirleme sürecidir. Süreç her zaman iki rakip hipotezin kurulmasıyla başlar:

  • Sıfır Hipotezi (H0): "Etki yoktur", "Fark yoktur" veya "Durum statiktir" diyen temel varsayımdır. Genellikle çürütmeye çalıştığımız iddiadır.
  • Alternatif Hipotez (H1 veya Ha): "Bir fark vardır", "İlaç işe yarıyor" veya "Yeni tasarım daha iyi" diyen, kanıtlamaya çalıştığımız varsayımdır.

2. P-Value (P-Değeri): Karar Verici​

P-value, hipotez testlerinin en kritik ve en çok yanlış anlaşılan kavramıdır. Teknik olarak p-value; sıfır hipotezi doğruyken, gözlemlediğimiz sonucun (veya daha uç bir sonucun) tamamen şans eseri ortaya çıkma olasılığıdır.

  • Düşük P-value (≤0.05): Şans eseri olma olasılığı çok düşüktür. H0 hipotezini reddederiz. Sonuç "istatistiksel olarak anlamlıdır".
  • Yüksek P-value (>0.05): Sonuç şans eseri ortaya çıkmış olabilir. H0 hipotezini reddetmek için yeterli kanıt yoktur.
Önemli Not: p=0.05 değeri genellikle bilim dünyasında kabul gören bir eşiktir (Anlamlılık düzeyi, α). Bu eşik, hata payımızın %5 olduğunu kabul ettiğimiz anlamına gelir.

3. T-Testi: Ortalamaların Karşılaştırılması​

T-testi, iki grubun ortalamaları arasında istatistiksel olarak anlamlı bir fark olup olmadığını ölçmek için kullanılır. Örneğin, "Eğitim alan grup ile almayan grubun sınav notları arasında fark var mı?" sorusu için T-testi idealdir.

En Sık Kullanılan T-Testi Türleri:​

  1. Tek Örneklem (One-Sample) T-Testi: Bir grubun ortalamasını, bilinen bir standart değerle (örneğin Türkiye yaş ortalaması) karşılaştırır.
  2. Bağımsız İki Örneklem (Independent Two-Sample) T-Testi: Birbirinden bağımsız iki farklı grubu (örneğin Kontrol Grubu ve Deney Grubu) karşılaştırır.
  3. Bağımlı (Paired) T-Testi: Aynı grubun iki farklı zamandaki durumunu karşılaştırır. (Örnek: Bir diyet programından "önce" ve "sonra" ölçülen kilolar).

4. Hipotez Testi Nasıl Uygulanır? (Adım Adım)​

Bir veri analizi projesinde süreci şu şekilde yönetmelisiniz:

  1. Varsayımları Belirleyin: Verinizin normal dağılıma uyup uymadığını kontrol edin (Normal dağılım yoksa parametrik olmayan testler seçilmelidir).
  2. Hipotezleri Kurun: H0: Fark yok; H1: Fark var.
  3. Anlamlılık Düzeyini Seçin: Genellikle α=0.05.
  4. Test İstatistiğini Hesaplayın: T-skorunu veya ilgili istatistiği yazılımlar (Python, R, Excel) aracılığıyla bulun.
  5. Karar Verin: Eğer p<α ise H0'ı reddedin ve farkın anlamlı olduğunu ilan edin.

Tip I ve Tip II Hatalar​

Hiçbir test %100 kesinlik sunmaz. Yanılma payımız her zaman vardır:

  • Tip I Hata (α): Gerçekte fark yokken "Fark var" demek (Yalancı Pozitif).
  • Tip II Hata (β): Gerçekte bir fark varken onu bulamamak (Yalancı Negatif).

Sonuç​

Hipotez testleri, veri analizinde sezgilerimizi matematiksel kanıtlarla desteklememizi sağlar. P-value bize verinin ne kadar şaşırtıcı olduğunu söylerken, T-testi gibi araçlar bu şaşkınlığın bir tesadüf mü yoksa gerçek bir değişim mi olduğunu kanıtlar.
 
Geri
Üst