Veri Bilimi - İstatistik Korelasyonu
korelasyon
Korelasyon, iki değişken arasındaki ilişkiyi ölçer.
Bir fonksiyonun girdiyi (x) çıktıya (f(x)) çevirerek bir değeri tahmin etme amacı olduğundan bahsetmiştik. Bir fonksiyonun tahmin için iki değişken arasındaki ilişkiyi kullandığını da söyleyebiliriz.
Korelasyon katsayısı
Korelasyon katsayısı, iki değişken arasındaki ilişkiyi ölçer.
Korelasyon katsayısı asla -1'den küçük veya 1'den büyük olamaz.
- 1 = değişkenler arasında mükemmel bir doğrusal ilişki vardır (Calorie_Burnage'a karşı Ortalama_Nabız gibi)
- 0 = değişkenler arasında doğrusal bir ilişki yok
- -1 = değişkenler arasında mükemmel bir negatif doğrusal ilişki vardır (örneğin daha az çalışma saati, bir antrenman seansı sırasında daha yüksek kalori yakımına yol açar)
Mükemmel Doğrusal İlişki Örneği (Korelasyon Katsayısı = 1)
Ortalama_Pulse ve Calorie_Burnage arasındaki ilişkiyi görselleştirmek için dağılım grafiğini kullanacağız (10 gözlemli spor saatinin küçük veri setini kullandık).
Bu sefer dağılım grafikleri istiyoruz, bu yüzden türü "dağılım" olarak değiştiriyoruz:
Örnek
import matplotlib.pyplot as plt
health_data.plot(x ='Average_Pulse', y='Calorie_Burnage',
kind='scatter')
plt.show()
Çıktı:
Daha önce gördüğümüz gibi, Average_Pulse ve Calorie_Burnage arasında mükemmel bir doğrusal ilişki vardır.
Mükemmel Negatif Doğrusal İlişki Örneği (Korelasyon Katsayısı = -1)
Burada kurgusal verileri çizdik. X ekseni, bir eğitim oturumundan önce işimizde çalışılan saatlerin miktarını temsil eder. Y ekseni Calorie_Burnage'dir.
Daha uzun saatler çalışırsak, egzersiz seansından önce yorulduğumuz için daha düşük kalori yakma eğilimindeyiz.
Buradaki korelasyon katsayısı -1'dir.
Örnek
import pandas as pd
import matplotlib.pyplot as plt
negative_corr =
{'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage':
[220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)
negative_corr.plot(x ='Hours_Work_Before_Training',
y='Calorie_Burnage', kind='scatter')
plt.show()
Doğrusal İlişki Yok Örneği (Korelasyon katsayısı = 0)
Burada, full_health_data kümesinden Süreye karşı Max_Pulse grafiğini çizdik.
Gördüğünüz gibi, iki değişken arasında doğrusal bir ilişki yoktur. Bu, daha uzun antrenman seansının daha yüksek Max_Pulse'a yol açmadığı anlamına gelir.
Buradaki korelasyon katsayısı 0'dır.
Örnek
import matplotlib.pyplot as plt
full_health_data.plot(x ='Duration', y='Max_Pulse',
kind='scatter')
plt.show()