Makine Öğrenimi - Veri Dağıtımı
Veri Dağıtımı
Bu öğreticinin önceki bölümlerinde, yalnızca farklı kavramları anlamak için örneklerimizde çok az miktarda veriyle çalıştık.
Gerçek dünyada, veri kümeleri çok daha büyüktür, ancak en azından bir projenin erken bir aşamasında gerçek dünya verilerini toplamak zor olabilir.
Büyük Veri Kümelerini Nasıl Elde Edebiliriz?
Test için büyük veri kümeleri oluşturmak için, herhangi bir boyutta rastgele veri kümeleri oluşturmak için bir dizi yöntemle birlikte gelen Python modülü NumPy'yi kullanıyoruz.
Örnek
0 ile 5 arasında 250 rastgele kayan nokta içeren bir dizi oluşturun:
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
histogram
Veri setini görselleştirmek için topladığımız verilerle bir histogram çizebiliriz.
Bir histogram çizmek için Python modülü Matplotlib'i kullanacağız.
Matplotlib Eğitimimizde Matplotlib modülü hakkında bilgi edinin .
Örnek
Bir histogram çizin:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
Sonuç:
Histogram Açıklaması
5 çubuklu bir histogram çizmek için yukarıdaki örnekteki diziyi kullanıyoruz.
İlk çubuk, dizideki kaç değerin 0 ile 1 arasında olduğunu gösterir.
İkinci çubuk, 1 ile 2 arasında kaç değer olduğunu gösterir.
Vb.
Bu bize şu sonucu verir:
- 52 değer 0 ile 1 arasındadır
- 48 değer 1 ile 2 arasındadır
- 49 değer 2 ile 3 arasındadır
- 51 değer 3 ile 4 arasındadır
- 50 değer 4 ile 5 arasındadır
Not: Dizi değerleri rastgele sayılardır ve bilgisayarınızda tam olarak aynı sonucu göstermez.
Büyük Veri Dağıtımları
250 değer içeren bir dizi çok büyük sayılmaz ama artık rastgele bir değer kümesi oluşturmayı biliyorsunuz ve parametreleri değiştirerek istediğiniz kadar büyük veri kümesi oluşturabilirsiniz.
Örnek
100.000 rastgele sayı içeren bir dizi oluşturun ve bunları 100 çubuklu bir histogram kullanarak görüntüleyin:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()