Veri Bilimi - İstatistik Korelasyonu


korelasyon

Korelasyon, iki değişken arasındaki ilişkiyi ölçer.

Bir fonksiyonun girdiyi (x) çıktıya (f(x)) çevirerek bir değeri tahmin etme amacı olduğundan bahsetmiştik. Bir fonksiyonun tahmin için iki değişken arasındaki ilişkiyi kullandığını da söyleyebiliriz.


Korelasyon katsayısı

Korelasyon katsayısı, iki değişken arasındaki ilişkiyi ölçer.

Korelasyon katsayısı asla -1'den küçük veya 1'den büyük olamaz.

  • 1 = değişkenler arasında mükemmel bir doğrusal ilişki vardır (Calorie_Burnage'a karşı Ortalama_Nabız gibi)
  • 0 = değişkenler arasında doğrusal bir ilişki yok
  • -1 = değişkenler arasında mükemmel bir negatif doğrusal ilişki vardır (örneğin daha az çalışma saati, bir antrenman seansı sırasında daha yüksek kalori yakımına yol açar)

Mükemmel Doğrusal İlişki Örneği (Korelasyon Katsayısı = 1)

Ortalama_Pulse ve Calorie_Burnage arasındaki ilişkiyi görselleştirmek için dağılım grafiğini kullanacağız (10 gözlemli spor saatinin küçük veri setini kullandık).

Bu sefer dağılım grafikleri istiyoruz, bu yüzden türü "dağılım" olarak değiştiriyoruz:

Örnek

import matplotlib.pyplot as plt

health_data.plot(x ='Average_Pulse', y='Calorie_Burnage', kind='scatter')
plt.show()

Çıktı:

Korelasyon Katsayısı = 1

Daha önce gördüğümüz gibi, Average_Pulse ve Calorie_Burnage arasında mükemmel bir doğrusal ilişki vardır.



Mükemmel Negatif Doğrusal İlişki Örneği (Korelasyon Katsayısı = -1)

Korelasyon Katsayısı = -1

Burada kurgusal verileri çizdik. X ekseni, bir eğitim oturumundan önce işimizde çalışılan saatlerin miktarını temsil eder. Y ekseni Calorie_Burnage'dir.

Daha uzun saatler çalışırsak, egzersiz seansından önce yorulduğumuz için daha düşük kalori yakma eğilimindeyiz.

Buradaki korelasyon katsayısı -1'dir.

Örnek

import pandas as pd
import matplotlib.pyplot as plt

negative_corr = {'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage': [220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)

negative_corr.plot(x ='Hours_Work_Before_Training', y='Calorie_Burnage', kind='scatter')
plt.show()

Doğrusal İlişki Yok Örneği (Korelasyon katsayısı = 0)

Korelasyon Katsayısı = 0

Burada, full_health_data kümesinden Süreye karşı Max_Pulse grafiğini çizdik.

Gördüğünüz gibi, iki değişken arasında doğrusal bir ilişki yoktur. Bu, daha uzun antrenman seansının daha yüksek Max_Pulse'a yol açmadığı anlamına gelir.

Buradaki korelasyon katsayısı 0'dır.

Örnek

import matplotlib.pyplot as plt

full_health_data.plot(x ='Duration', y='Max_Pulse', kind='scatter')
plt.show()