müfettiş
Moderatör
- Katılım
- 20 Ocak 2024
- Mesajlar
- 325
- Tepkime puanı
- 1
- Puanları
- 18
Veri bilimi dünyasına adım atan birçok kişi doğrudan Python kütüphanelerine veya karmaşık derin öğrenme modellerine odaklansa da, bu disiplinin gerçek motoru istatistiktir. İstatistik bilmeden makine öğrenmesi modelleri kurmak, temelini görmediğiniz bir binanın en üst katını inşa etmeye benzer. Verinin ne anlama geldiğini, sonuçların tesadüf olup olmadığını ve tahminlerin ne kadar güvenilir olduğunu anlamak için istatistiksel bir bakış açısı şarttır.
İşte modern veri biliminde uzmanlaşmak için hakim olmanız gereken 10 temel istatistiksel kavram:
ne kadar artar?" sorusuna yanıt arar. Doğrusal regresyon, veriler arasındaki ilişkinin en iyi "çizgisini" bulmaya çalışır.
İşte modern veri biliminde uzmanlaşmak için hakim olmanız gereken 10 temel istatistiksel kavram:
1. Merkezi Eğilim Ölçüleri (Mean, Median, Mode)
Veri setinin "merkezini" bulmak, analizin en temel adımıdır.- Ortalama (Mean): Tüm değerlerin toplamının veri sayısına bölümüdür. Aykırı değerlere karşı çok hassastır.
- Medyan (Ortanca): Veriler küçükten büyüğe dizildiğinde tam ortadaki değerdir. Aykırı değerlerin (örneğin milyonerlerin olduğu bir mahallede maaş analizi) olduğu durumlarda daha sağlıklı sonuç verir.
- Mod: Veri setinde en sık tekrar eden değerdir.
2. Dağılım Ölçüleri (Variance, Standard Deviation)
Verilerin merkeze ne kadar yakın veya uzak olduğunu söyler.- Varyans: Verilerin ortalamadan ne kadar saptığının karesel ortalamasıdır.
- Standart Sapma: Varyansın kareköküdür. Verilerin ne kadar yayıldığını ham veri birimiyle ifade eder. Düşük standart sapma, verilerin ortalama etrafında kümelendiğini gösterir.
3. Olasılık Dağılımları (Normal Dağılım)
Veri biliminde en çok karşımıza çıkan dağılım Normal Dağılım (Gauss Dağılımı)'dır. Çan eğrisi şeklinde olan bu dağılımda, verilerin çoğu merkezde toplanır. Birçok makine öğrenmesi algoritması, girdilerin normal dağıldığını varsayar. Bu yüzden veriyi modele sokmadan önce bu dağılıma uygun hale getirmek (Scaling/Normalization) kritik önem taşır.4. Hipotez Testi ve P-Değeri (P-Value)
Elde ettiğiniz sonucun "şans eseri mi" yoksa "gerçek bir etkinin sonucu mu" olduğunu belirler.- P-Değeri: Eğer p-değeri genellikle kabul edilen eşik olan 0.05'ten küçükse, sonucun istatistiksel olarak anlamlı olduğunu ve tesadüf olmadığını söyleriz. A/B testlerinin kalbinde bu kavram yatar.
5. Güven Aralıkları (Confidence Intervals)
Bir tahminin ne kadar hassas olduğunu gösteren bir aralıktır. Örneğin, "Bu kampanya satışları %10 artıracak" demek yerine, "%95 güvenle satışların %8 ile %12 arasında artacağını öngörüyoruz" demek çok daha profesyonel ve gerçekçi bir yaklaşımdır.6. Korelasyon ve Nedensellik (Correlation vs. Causation)
Veri biliminde en sık düşülen tuzaktır. Korelasyon, iki değişkenin birlikte hareket etmesidir. Ancak bu, birinin diğerine neden olduğu anlamına gelmez.- Örnek: Dondurma satışları arttığında boğulma vakaları da artar. Aralarında pozitif korelasyon vardır. Ancak dondurma boğulmaya neden olmaz; her ikisinin de ortak nedeni "sıcak hava"dır.