Veri Bilimi - İstatistik Korelasyonu ve Nedensellik
Korelasyon Nedensellik İma Etmez
Korelasyon, iki değişken arasındaki sayısal ilişkiyi ölçer.
Yüksek bir korelasyon katsayısı (1'e yakın), iki değişken arasında kesin bir ilişki kurabileceğimiz anlamına gelmez.
Klasik bir örnek:
- Yaz aylarında bir plajda dondurma satışı artıyor
- Aynı zamanda boğulma kazaları da artıyor
Bu, dondurma satışının artmasının, artan boğulma kazalarının doğrudan nedeni olduğu anlamına mı geliyor?
Python'da Sahil Örneği
Burada denemeniz için kurgusal bir veri seti oluşturduk:
Örnek
import pandas as pd
import matplotlib.pyplot as plt
Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale =
[20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident":
[20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale":
[20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)
Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()
correlation_beach = Drowning.corr()
print(correlation_beach)
Çıktı:
Korelasyon ve Nedensellik - Sahil Örneği
Başka bir deyişle: boğulma kazalarını tahmin etmek için dondurma satışını kullanabilir miyiz?
Cevap büyük ihtimal ile hayır.
Bu iki değişkenin yanlışlıkla birbiriyle ilişkili olması muhtemeldir.
O zaman boğulmaya ne sebep olur?
- vasıfsız yüzücüler
- dalgalar
- Kramp
- nöbet bozuklukları
- Denetim eksikliği
- Alkol (yanlış) kullanımı
- vb.
Argümanı tersine çevirelim:
Düşük bir korelasyon katsayısı (sıfıra yakın) x'deki değişimin y'yi etkilemediği anlamına mı gelir?
Soruya dönelim:
- Ortalama_Nabız'ın düşük korelasyon katsayısı nedeniyle Kalori_Burnage'ı etkilemediği sonucuna varabilir miyiz?
Cevap hayır.
Korelasyon ve nedensellik arasında önemli bir fark vardır:
- Korelasyon, verilerin ne kadar yakından ilişkili olduğunu ölçen bir sayıdır.
- Nedensellik, x'in y'ye neden olduğu sonucudur.
Bu nedenle, tahminler yaparken nedensellik kavramı üzerinde eleştirel olarak düşünmek önemlidir!