Veri Bilimi - İstatistik Varyansı
Varyans
Varyans, değerlerin ne kadar yayılmış olduğunu gösteren başka bir sayıdır.
Aslında varyansın karekökünü alırsanız standart sapmayı elde edersiniz. Ya da tam tersi, standart sapmayı kendisiyle çarparsanız varyansı elde edersiniz!
Varyansı nasıl hesaplayabileceğimize bir örnek vermek için önce 10 gözlemli veri setini kullanacağız:
Süre | Ortalama_Nabız | Max_Pulse | Kalori_Yanık | Saat_Çalışma | Hours_Sleep |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
Varyans genellikle Sigma Karesi sembolü ile temsil edilir: σ^2
Varyansı Hesaplamak için Adım 1: Ortalamayı Bulun
Ortalama_Pulse'nin varyansını bulmak istiyoruz.
1. Ortalamayı bulun:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
ortalama 102.5
Adım 2: Her Değer İçin - Ortalamadan Farkı Bulun
2. Her değer için ortalamadan farkı bulun:
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
Adım 3: Her Fark İçin - Kare Değeri Bulun
3. Her bir farkın kare değerini bulun:
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
Not: Toplam yayılmayı elde etmek için değerlerin karesini almalıyız.
Adım 4: Varyans, Bu Kareli Değerlerin Ortalama Sayısıdır
4. Kare değerleri toplayın ve ortalamayı bulun:
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
Varyans 206.25'tir.
Health_data Varyansını Bulmak için Python Kullanın
Varyansı bulmak için Numpy'den gelen işlevi kullanabiliriz var()
(şimdi 10 gözlemli ilk veri setini kullandığımızı unutmayın):
Örnek
import numpy as np
var = np.var(health_data)
print(var)
Çıktı:
Tam Veri Kümesinin Varyansını Bulmak için Python Kullanın
Burada, tam veri seti için her sütun için varyansı hesaplıyoruz:
Örnek
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
Çıktı: