Veri Bilimi - İstatistik Varyansı


Varyans

Varyans, değerlerin ne kadar yayılmış olduğunu gösteren başka bir sayıdır.

Aslında varyansın karekökünü alırsanız standart sapmayı elde edersiniz. Ya da tam tersi, standart sapmayı kendisiyle çarparsanız varyansı elde edersiniz!

Varyansı nasıl hesaplayabileceğimize bir örnek vermek için önce 10 gözlemli veri setini kullanacağız:

Süre Ortalama_Nabız Max_Pulse Kalori_Yanık Saat_Çalışma Hours_Sleep
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

Varyans genellikle Sigma Karesi sembolü ile temsil edilir: σ^2


Varyansı Hesaplamak için Adım 1: Ortalamayı Bulun

Ortalama_Pulse'nin varyansını bulmak istiyoruz.

1. Ortalamayı bulun:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

ortalama 102.5


Adım 2: Her Değer İçin - Ortalamadan Farkı Bulun

2. Her değer için ortalamadan farkı bulun:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Adım 3: Her Fark İçin - Kare Değeri Bulun

3. Her bir farkın kare değerini bulun:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Not: Toplam yayılmayı elde etmek için değerlerin karesini almalıyız.



Adım 4: Varyans, Bu Kareli Değerlerin Ortalama Sayısıdır

4. Kare değerleri toplayın ve ortalamayı bulun:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

Varyans 206.25'tir.


Health_data Varyansını Bulmak için Python Kullanın

Varyansı bulmak için Numpy'den gelen işlevi kullanabiliriz var()(şimdi 10 gözlemli ilk veri setini kullandığımızı unutmayın):

Örnek

import numpy as np

var = np.var(health_data)
print(var)

Çıktı:

Varyans

Tam Veri Kümesinin Varyansını Bulmak için Python Kullanın

Burada, tam veri seti için her sütun için varyansı hesaplıyoruz:

Örnek

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

Çıktı:

Varyans