Veri Bilimi İçin İstatistik: Bilmeniz Gereken 10 Temel Kavram

müfettiş

Moderatör
Katılım
20 Ocak 2024
Mesajlar
325
Tepkime puanı
1
Puanları
18
Veri bilimi dünyasına adım atan birçok kişi doğrudan Python kütüphanelerine veya karmaşık derin öğrenme modellerine odaklansa da, bu disiplinin gerçek motoru istatistiktir. İstatistik bilmeden makine öğrenmesi modelleri kurmak, temelini görmediğiniz bir binanın en üst katını inşa etmeye benzer. Verinin ne anlama geldiğini, sonuçların tesadüf olup olmadığını ve tahminlerin ne kadar güvenilir olduğunu anlamak için istatistiksel bir bakış açısı şarttır.

İşte modern veri biliminde uzmanlaşmak için hakim olmanız gereken 10 temel istatistiksel kavram:


1. Merkezi Eğilim Ölçüleri (Mean, Median, Mode)​

Veri setinin "merkezini" bulmak, analizin en temel adımıdır.

  • Ortalama (Mean): Tüm değerlerin toplamının veri sayısına bölümüdür. Aykırı değerlere karşı çok hassastır.
  • Medyan (Ortanca): Veriler küçükten büyüğe dizildiğinde tam ortadaki değerdir. Aykırı değerlerin (örneğin milyonerlerin olduğu bir mahallede maaş analizi) olduğu durumlarda daha sağlıklı sonuç verir.
  • Mod: Veri setinde en sık tekrar eden değerdir.

2. Dağılım Ölçüleri (Variance, Standard Deviation)​

Verilerin merkeze ne kadar yakın veya uzak olduğunu söyler.

  • Varyans: Verilerin ortalamadan ne kadar saptığının karesel ortalamasıdır.
  • Standart Sapma: Varyansın kareköküdür. Verilerin ne kadar yayıldığını ham veri birimiyle ifade eder. Düşük standart sapma, verilerin ortalama etrafında kümelendiğini gösterir.

3. Olasılık Dağılımları (Normal Dağılım)​

Veri biliminde en çok karşımıza çıkan dağılım Normal Dağılım (Gauss Dağılımı)'dır. Çan eğrisi şeklinde olan bu dağılımda, verilerin çoğu merkezde toplanır. Birçok makine öğrenmesi algoritması, girdilerin normal dağıldığını varsayar. Bu yüzden veriyi modele sokmadan önce bu dağılıma uygun hale getirmek (Scaling/Normalization) kritik önem taşır.

4. Hipotez Testi ve P-Değeri (P-Value)​

Elde ettiğiniz sonucun "şans eseri mi" yoksa "gerçek bir etkinin sonucu mu" olduğunu belirler.

  • P-Değeri: Eğer p-değeri genellikle kabul edilen eşik olan 0.05'ten küçükse, sonucun istatistiksel olarak anlamlı olduğunu ve tesadüf olmadığını söyleriz. A/B testlerinin kalbinde bu kavram yatar.

5. Güven Aralıkları (Confidence Intervals)​

Bir tahminin ne kadar hassas olduğunu gösteren bir aralıktır. Örneğin, "Bu kampanya satışları %10 artıracak" demek yerine, "%95 güvenle satışların %8 ile %12 arasında artacağını öngörüyoruz" demek çok daha profesyonel ve gerçekçi bir yaklaşımdır.

6. Korelasyon ve Nedensellik (Correlation vs. Causation)​

Veri biliminde en sık düşülen tuzaktır. Korelasyon, iki değişkenin birlikte hareket etmesidir. Ancak bu, birinin diğerine neden olduğu anlamına gelmez.

  • Örnek: Dondurma satışları arttığında boğulma vakaları da artar. Aralarında pozitif korelasyon vardır. Ancak dondurma boğulmaya neden olmaz; her ikisinin de ortak nedeni "sıcak hava"dır.

7. Merkezi Limit Teoremi (Central Limit Theorem)​

İstatistiğin mucizesi olarak bilinir. Örneklem sayısı arttıkça, orijinal verinin dağılımı ne olursa olsun, bu örneklemlerin ortalamalarının dağılımı normal dağılıma yaklaşır. Bu teorem, küçük örneklemler üzerinden büyük kitleler hakkında yorum yapmamıza olanak tanır.

8. Regresyon Analizi​

Bağımlı bir değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi modeller. "Reklam harcaması (X) artarsa satışlar (y) ne kadar artar?" sorusuna yanıt arar. Doğrusal regresyon, veriler arasındaki ilişkinin en iyi "çizgisini" bulmaya çalışır.

9. Bayes Teoremi (Bayesian Statistics)​

Yeni bir bilgi (veri) ortaya çıktığında, bir olayın gerçekleşme olasılığını güncellemeyi sağlar. Özellikle e-posta filtrelerinde (spam tespiti) ve tıbbi teşhislerde kullanılan, olasılığa dinamik bir bakış açısı katan temel bir yöntemdir.

10. Örnekleme Hatası ve Yanlılık (Bias)​

Topladığınız verinin tüm kitleyi gerçekten temsil edip etmediğiyle ilgilidir. Eğer bir anket sadece belirli bir yaş grubuna yapılıyorsa, sonuçlar tüm toplum için "yanlı" (biased) olacaktır. Veri biliminde "Çöp girerse çöp çıkar" (Garbage In, Garbage Out) kuralı bu kavramla ilişkilidir.


Veri Biliminde İstatistiğin Gücü​

Bu on kavram, veriyi sadece görselleştirmekten öte, onun altında yatan mekanizmayı anlamanızı sağlar. İyi bir veri bilimci, sadece kod yazan değil, yazdığı kodun istatistiksel geçerliliğini sorgulayabilen kişidir.
 
Geri
Üst