Veri Analizinde "Korelasyon Nedir, Neden Nedensellik Değildir?"

müfettiş

Moderatör
Katılım
20 Ocak 2024
Mesajlar
325
Tepkime puanı
1
Puanları
18
Veri analizi ve istatistik dünyasında en sık karşılaşılan, ancak bir o kadar da yanlış anlaşılan kavramların başında "Korelasyon ve Nedensellik" ilişkisi gelir. Çoğu zaman iki değişkenin aynı anda artması veya azalması, birinin diğerine neden olduğu yanılgısını yaratır. Ancak veri biliminde bu iki kavramı birbirinden ayırmak, hatalı kararlar almamak adına hayati önem taşır.


Korelasyon Nedir?​

Korelasyon, iki değişken arasındaki istatistiksel ilişkinin gücünü ve yönünü ifade eder. Eğer bir değişken değiştiğinde diğeri de belirli bir eğilimle değişiyorsa, bu iki değişken arasında korelasyon vardır diyebiliriz.

Korelasyon genellikle Pearson Korelasyon Katsayısı (r) ile ölçülür ve bu değer -1 ile +1 arasında yer alır:

  • +1: Mükemmel pozitif korelasyon (Biri artarken diğeri de aynı oranda artar).
  • -1: Mükemmel negatif korelasyon (Biri artarken diğeri aynı oranda azalır).
  • 0: Değişkenler arasında doğrusal bir ilişki yoktur.
licensed-image.jpeg

Nedensellik (Causality) Nedir?​

Nedensellik, bir olayın (neden) başka bir olayın (sonuç) meydana gelmesine doğrudan yol açtığı durumdur. Yani "A olduğu için B oldu" diyebilmemiz için bir neden-sonuç ilişkisinin kanıtlanması gerekir. Nedensellik, korelasyondan çok daha derin bir iddiadır ve kanıtlanması için kontrollü deneyler (A/B testleri gibi) gerektirir.


"Korelasyon Nedensellik Değildir" Ne Demektir?​

İki şeyin birlikte hareket etmesi, birinin diğerini doğurduğu anlamına gelmez. Bu durumu açıklayan üç temel senaryo vardır:

1. Üçüncü Değişken Faktörü (Karıştırıcı Değişken)​

İki değişken arasındaki ilişki, aslında her ikisini de etkileyen gizli bir üçüncü faktörden kaynaklanıyor olabilir.

Klasik Örnek: Dondurma satışları ile boğulma vakaları arasında pozitif bir korelasyon vardır. Dondurma satışları arttığında boğulma vakaları da artar. Ancak dondurma yemek boğulmaya neden olmaz. Burada gizli değişken **"Hava Sıcaklığı"**dır. Hava ısındığında hem dondurma tüketimi artar hem de daha fazla insan yüzmeye gittiği için boğulma riski artar.

2. Ters Nedensellik​

Bazen A'nın B'ye neden olduğunu düşünürüz, ancak gerçekte B, A'ya neden olmaktadır.

  • Örnek: Çok fazla egzersiz yapan kişilerin daha fazla su içtiği görülür. Burada su içmek egzersiz yapmaya değil, egzersiz yapmak su ihtiyacına neden olur.

3. Tamamen Tesadüf (Sahte Korelasyonlar)​

Büyük veri setlerinde, birbiriyle hiçbir mantıksal bağı olmayan iki değişkenin grafikleri tamamen tesadüfen birbirine benzeyebilir.

  • Örnek: Bir ülkede peynir tüketimi arttıkça, yatak çarşafına dolanarak ölenlerin sayısının arttığı görülebilir. Bu iki veri seti arasında matematiksel bir korelasyon olsa da, aralarında mantıklı bir bağ yoktur.

Nedenselliği Nasıl Kanıtlarız?​

Veri biliminde korelasyonun ötesine geçip nedenselliği anlamak için şu yöntemler kullanılır:

  • A/B Testleri (Kontrollü Deneyler): Bir grubu kontrol grubu olarak tutup diğer grupta tek bir değişkeni değiştirerek sonucun değişip değişmediğini gözlemlemek.
  • Zaman Serisi Analizi: Nedenin, sonuçtan kronolojik olarak önce geldiğini kanıtlamak.
  • Alan Uzmanlığı: İstatistiği, mantık ve alan bilgisiyle birleştirmek. Eğer veri "Güneş gözlüğü takmak cilt kanserine neden olur" diyorsa (çünkü güneşli havalarda ikisi de artar), alan uzmanı bunun bir korelasyon olduğunu hemen fark edecektir.

Sonuç​

Korelasyon, bize keşfetmemiz gereken ilginç noktaları gösteren bir pusuladır. "Burada bir şeyler oluyor, bir bak!" der. Ancak nedensellik, o olayın mekanizmasını açıklayan haritadır. Veri analizinde başarılı olmak için korelasyonun sunduğu ipuçlarını almalı, ancak nedenselliği kanıtlamadan kesin yargılara varmaktan kaçınmalısınız.
 
Geri
Üst