Pandalar - Yanlış Verileri Düzeltme
Yanlış veri
"Yanlış veri", "boş hücreler" veya "yanlış format" olmak zorunda değildir, sadece yanlış olabilir, örneğin birisi "1.99" yerine "199" kaydetmiş gibi.
Bazen veri setine bakarak yanlış veriyi fark edebilirsiniz çünkü ne olması gerektiğine dair bir beklentiniz var.
Veri setimize bakarsanız 7. satırda sürenin 450 olduğunu ancak diğer tüm satırlarda sürenin 30 ile 60 arasında olduğunu görebilirsiniz.
Yanlış olmak zorunda değil, ancak bunun birisinin antrenman seanslarının veri seti olduğunu göz önünde bulundurarak, bu kişinin 450 dakika boyunca antrenman yapmadığı sonucuna varıyoruz.
Duration Date Pulse Maxpulse Calories
0 60 '2020/12/01' 110 130 409.1
1 60 '2020/12/02' 117 145 479.0
2 60 '2020/12/03' 103 135 340.0
3 45 '2020/12/04' 109 175 282.4
4 45 '2020/12/05' 117 148 406.0
5 60 '2020/12/06' 102 127 300.0
6 60 '2020/12/07' 110 136 374.0
7 450 '2020/12/08' 104 134 253.3
8 30 '2020/12/09' 109 133 195.1
9 60 '2020/12/10' 98 124 269.0
10 60 '2020/12/11' 103 147 329.3
11 60 '2020/12/12' 100 120 250.7
12 60 '2020/12/12' 100 120 250.7
13 60 '2020/12/13' 106 128 345.3
14 60 '2020/12/14' 104 132 379.3
15 60 '2020/12/15' 98 123 275.0
16 60 '2020/12/16' 98 120 215.2
17 60 '2020/12/17' 100 120 300.0
18 45 '2020/12/18' 90 112 NaN
19 60 '2020/12/19' 103 123 323.0
20 45 '2020/12/20' 97 125 243.0
21 60 '2020/12/21' 108 131 364.2
22 45 NaN 100 119 282.0
23 60 '2020/12/23' 130 101 300.0
24 45 '2020/12/24' 105 132 246.0
25 60 '2020/12/25' 102 126 334.5
26 60 20201226 100 120 250.0
27 60 '2020/12/27' 92 118 241.0
28 60 '2020/12/28' 103 132 NaN
29 60 '2020/12/29' 100 132 280.0
30 60 '2020/12/30' 102 129 380.3
31 60 '2020/12/31' 92 115 243.0
7. satırdaki "Süre" gibi yanlış değerleri nasıl düzeltebiliriz?
Sertikalı olmak!
$10 KAYIT
Değerleri Değiştirme
Yanlış değerleri düzeltmenin bir yolu, onları başka bir şeyle değiştirmektir.
Örneğimizde, bu büyük olasılıkla bir yazım hatasıdır ve değer "450" yerine "45" olmalıdır ve 7. satıra "45" ekleyebiliriz:
Örnek
7. satırda "Süre" = 45 olarak ayarlayın:
df.loc[7, 'Duration'] = 45
Küçük veri kümeleri için yanlış verileri birer birer değiştirebilirsiniz, ancak büyük veri kümeleri için değiştiremezsiniz.
Yanlış verileri daha büyük veri kümeleriyle değiştirmek için bazı kurallar oluşturabilirsiniz, örneğin yasal değerler için bazı sınırlar belirleyebilir ve sınırların dışındaki değerleri değiştirebilirsiniz.
Örnek
"Süre" sütunundaki tüm değerler arasında dolaşın.
Değer 120'den yüksekse, 120'ye ayarlayın:
for x in df.index:
if df.loc[x, "Duration"] > 120:
df.loc[x, "Duration"] = 120
Satırları Kaldırma
Yanlış verileri ele almanın başka bir yolu da yanlış veri içeren satırları kaldırmaktır.
Bu şekilde, onları neyle değiştireceğinizi bulmak zorunda kalmazsınız ve analizlerinizi yapmak için onlara ihtiyaç duymama ihtimaliniz çok yüksektir.
Örnek
"Süre"nin 120'den yüksek olduğu satırları silin:
for x in df.index:
if df.loc[x, "Duration"] > 120:
df.drop(x, inplace = True)