Pandalar - Boş Hücreleri Temizleme
Boş Hücreler
Boş hücreler, verileri analiz ettiğinizde potansiyel olarak size yanlış bir sonuç verebilir.
Satırları Kaldır
Boş hücrelerle başa çıkmanın bir yolu, boş hücreler içeren satırları kaldırmaktır.
Bu genellikle iyidir, çünkü veri kümeleri çok büyük olabilir ve birkaç satırın kaldırılması sonuç üzerinde büyük bir etki yaratmaz.
Örnek
Boş hücre içermeyen yeni bir Veri Çerçevesi döndürün:
import pandas as pd
df = pd.read_csv('data.csv')
new_df = df.dropna()
print(new_df.to_string())
Temizleme örneklerimizde 'dirtydata.csv' adlı bir CSV dosyası kullanacağız.
Kirli veri.csv dosyasını indirin . veya kirlidata.csv'yi açın
Not: Varsayılan olarak, dropna()
yöntem yeni bir DataFrame döndürür ve orijinali değiştirmez.
Orijinal DataFrame'i değiştirmek istiyorsanız,
inplace = True
argümanı kullanın:
Örnek
NULL değerleri olan tüm satırları kaldırın:
import pandas as pd
df = pd.read_csv('data.csv')
df.dropna(inplace = True)
print(df.to_string())
Not: Şimdi, dropna(inplace = True)
yeni bir DataFrame döndürmez, ancak NULL değerleri içeren tüm satırları orijinal DataFrame'den kaldırır.
Boş Değerleri Değiştir
Boş hücrelerle uğraşmanın başka bir yolu, bunun yerine yeni bir değer eklemektir.
Bu şekilde, bazı boş hücreler nedeniyle tüm satırları silmek zorunda kalmazsınız.
Yöntem fillna()
, boş hücreleri bir değerle değiştirmemize izin verir:
Örnek
NULL değerleri 130 sayısıyla değiştirin:
import pandas as pd
df = pd.read_csv('data.csv')
df.fillna(130, inplace = True)
Yalnızca Belirtilen Sütunlar İçin Değiştir
Yukarıdaki örnek, tüm Veri Çerçevesindeki tüm boş hücreleri değiştirir.
Yalnızca bir sütunun boş değerlerini değiştirmek için DataFrame için sütun adını belirtin:
Örnek
"Kalori" sütunlarındaki NULL değerleri 130 sayısıyla değiştirin:
import pandas as pd
df = pd.read_csv('data.csv')
df["Calories"].fillna(130, inplace = True)
Sertikalı olmak!
$10 KAYIT
Ortalama, Medyan veya Modu Kullanarak Değiştir
Boş hücreleri değiştirmenin yaygın bir yolu, sütunun ortalama, medyan veya mod değerini hesaplamaktır.
Pandalar, belirtilen bir sütun için ilgili değerleri hesaplamak için mean()
median()
ve yöntemlerini kullanır:mode()
Örnek
MEAN'i hesaplayın ve boş değerleri onunla değiştirin:
import pandas as pd
df = pd.read_csv('data.csv')
x = df["Calories"].mean()
df["Calories"].fillna(x, inplace = True)
Ortalama = ortalama değer (tüm değerlerin toplamının değer sayısına bölümü).
Örnek
MEDIAN'ı hesaplayın ve boş değerleri onunla değiştirin:
import pandas as pd
df = pd.read_csv('data.csv')
x = df["Calories"].median()
df["Calories"].fillna(x, inplace = True)
Medyan = tüm değerleri artan şekilde sıraladıktan sonra ortadaki değer.
Örnek
MODU hesaplayın ve boş değerleri onunla değiştirin:
import pandas as pd
df = pd.read_csv('data.csv')
x = df["Calories"].mode()[0]
df["Calories"].fillna(x, inplace = True)
Mod = en sık görünen değer.