Pandalar - Veri Korelasyonları
İlişkiler Bulma
Pandalar modülünün harika bir yönü, corr()
yöntemidir.
Yöntem corr()
, veri kümenizdeki her sütun arasındaki ilişkiyi hesaplar.
Bu sayfadaki örnekler, 'data.csv' adlı bir CSV dosyası kullanır.
data.csv dosyasını indirin . veya data.csv'yi açın
Örnek
Sütunlar arasındaki ilişkiyi göster:
df.corr()
Sonuç
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
Not:
Yöntem, corr()
"sayısal olmayan" sütunları yok sayar.
Sonuç Açıklaması
Yöntemin sonucu, corr()
iki sütun arasındaki ilişkinin ne kadar iyi olduğunu gösteren çok sayıda sayı içeren bir tablodur.
Sayı -1 ile 1 arasında değişir.
1, 1'e 1 ilişki (mükemmel bir korelasyon) olduğu anlamına gelir ve bu veri seti için, ilk sütunda her değer arttığında diğeri de artar.
0.9 da iyi bir ilişkidir ve bir değeri artırırsanız, diğeri de muhtemelen artacaktır.
-0.9, 0.9 kadar iyi bir ilişki olurdu, ancak bir değeri artırırsanız, diğeri muhtemelen düşecektir.
0.2, iyi bir ilişki DEĞİLDİR, yani bir değer yükselirse diğerinin çıkacağı anlamına gelmez.
İyi bir korelasyon nedir?
Kullanıma bağlıdır, ancak bence buna iyi bir korelasyon
demek için en azından 0.6
(veya ) olması gerektiğini söylemek güvenlidir.-0.6
Mükemmel Korelasyon:
"Süre" ve "Süre" nin sayı aldığını görebiliriz 1.000000
, bu mantıklı, her sütunun her zaman kendisiyle mükemmel bir ilişkisi vardır.
İyi Korelasyon:
"Süre" ve "Kalori" 0.922721
arasında çok iyi bir korelasyon var ve ne kadar uzun süre çalışırsanız, o kadar fazla kalori yakacağınızı ve bunun tersini öngörebiliriz: çok fazla kalori yaktıysanız, muhtemelen uzun bir çalışma vardı.
Kötü Korelasyon:
"Süre" ve "Maxpulse" bir 0.009403
korelasyona sahip, bu çok kötü bir korelasyon, yani maksimum nabzı sadece çalışmanın süresine bakarak tahmin edemeyiz ve bunun tersi de geçerlidir.
Sertikalı olmak!
$10 KAYIT