R Veri Kümesi
Veri Kümesi
Bir veri seti, genellikle bir tabloda sunulan bir veri topluluğudur.
1974 Motor Trend US Magazine'den alınan, R'de " mtcars " (Motor Trend Araba Yol Testleri) adlı popüler bir yerleşik veri seti vardır .
mtcars
Aşağıdaki örneklerde (ve sonraki bölümlerde), istatistiksel amaçlar için veri setini kullanacağız :
Örnek
# Print the mtcars data set
mtcars
Sonuç:
mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1 Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2 Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2 Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4 Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3 Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3 Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3 Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4 Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4 Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4 Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1 Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2 Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1 Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2 AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2 Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4 Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2 Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1 Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2 Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2 Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4 Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6 Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8 Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
Veri Kümesi Hakkında Bilgi
Veri seti ?
hakkında bilgi almak için soru işaretini ( ) kullanabilirsiniz:mtcars
Örnek
# Use the question mark to get information about
the data set
?mtcars
Sonuç:
mtcars {veri kümeleri} | R Dokümantasyon |
Motor Trend Araba Yol Testleri
Açıklama
Veriler 1974 Motor Trend US dergisinden alınmıştır ve 32 otomobil (1973-74 modelleri) için yakıt tüketimi ve otomobil tasarımı ve performansının 10 yönünü içermektedir.
kullanım
mtcars
Biçim
11 (sayısal) değişken üzerinde 32 gözlem içeren bir veri çerçevesi.
[, 1] | mpg | Mil/(ABD) galon |
[, 2] | silindir | Silindir sayısı |
[, 3] | boşuna | Yer Değiştirme (cu.in.) |
[, 4] | hp | Brüt beygir gücü |
[, 5] | drat | Arka aks oranı |
[, 6] | ağırlık | Ağırlık (1000 lbs) |
[, 7] | saniye | 1/4 mil zaman |
[, 8] | vs | Motor (0 = V şeklinde, 1 = düz) |
[, 9] | ben | Şanzıman (0 = otomatik, 1 = manuel) |
[,10] | vites | İleri vites sayısı |
[,11] | karbonhidrat | Karbüratör sayısı |
Not
Henderson ve Velleman (1981) Tablo 1'e bir dipnotta yorum yapıyorlar: 'Mazda'nın döner motorunun düz altı silindirli motor olarak ve Porsche'nin düz motorunun bir V motoru olarak ve ayrıca dizel Mercedes 240D'nin dahil edilmesi, önceki analizlerle doğrudan karşılaştırma yapılabilmesi için korunmuştur.'
Kaynak
Henderson ve Velleman (1981), Etkileşimli çoklu regresyon modelleri oluşturma. Biyometri , 37 , 391-411.
Örnekler
require(graphics) pairs(mtcars, main = "mtcars data", gap = 1/4) coplot(mpg ~ disp | as.factor(cyl), data = mtcars, panel = panel.smooth, rows = 1) ## possibly more meaningful, e.g., for summary() or bivariate plots: mtcars2 <- within(mtcars, { vs <- factor(vs, labels = c("V", "S")) am <- factor(am, labels = c("automatic", "manual")) cyl <- ordered(cyl) gear <- ordered(gear) carb <- ordered(carb) }) summary(mtcars2)
Bilgi al
dim()
Veri kümesinin boyutlarını bulmak için işlevi names()
ve değişkenlerin adlarını görüntülemek için işlevi kullanın:
Örnek
Data_Cars <- mtcars # create a variable of the mtcars data set for better
organization
# Use dim() to find the dimension of the data set
dim(Data_Cars)
# Use names() to find the names of the variables from
the data set
names(Data_Cars)
Sonuç:
[1] 32 11 [1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear" [11] "carb"
rownames()
Her arabanın adı olan ilk sütundaki her satırın adını almak için işlevi kullanın :
Örnek
Data_Cars <- mtcars
rownames(Data_Cars)
Sonuç:
[1] "Mazda RX4" "Mazda RX4 Wag" "Datsun 710" [4] "Hornet 4 Drive" "Hornet Sportabout" "Valiant" [7] "Duster 360" "Merc 240D" "Merc 230" [10] "Merc 280" "Merc 280C" "Merc 450SE" [13] "Merc 450SL" "Merc 450SLC" "Cadillac Fleetwood" [16] "Lincoln Continental" "Chrysler Imperial" "Fiat 128" [19] "Honda Civic" "Toyota Corolla" "Toyota Corona" [22] "Dodge Challenger" "AMC Javelin" "Camaro Z28" [25] "Pontiac Firebird" "Fiat X1-9" "Porsche 914-2" [28] "Lotus Europa" "Ford Pantera L" "Ferrari Dino" [31] "Maserati Bora" "Volvo 142E"
Yukarıdaki örneklerden, veri setinin 32 gözlemi (Mazda RX4, Mazda RX4 Wag, Datsun 710, vb.) ve 11 değişkeni (mpg, cyl, disp, vb) olduğunu öğrendik.
Değişken, ölçülebilen veya sayılabilen bir şey olarak tanımlanır.
İşte mtcars veri setindeki değişkenlerin kısa bir açıklaması:
Değişken ismi | Açıklama |
---|---|
mpg | Mil/(ABD) Galon |
silindir | Silindir sayısı |
boşuna | Yer değiştirme |
hp | Brüt beygir gücü |
drat | Arka aks oranı |
ağırlık | Ağırlık (1000 lbs) |
saniye | 1/4 mil zaman |
vs | Motor (0 = V şeklinde, 1 = düz) |
ben | Şanzıman (0 = otomatik, 1 = manuel) |
vites | İleri vites sayısı |
karbonhidrat | Karbüratör sayısı |
Değişken Değerlerini Yazdır
Bir değişkene ait tüm değerleri yazdırmak istiyorsanız, $
işaretini ve değişkenin adını (örneğin cyl
(silindirler)) kullanarak veri çerçevesine erişin:
Örnek
Data_Cars <- mtcars
Data_Cars$cyl
Sonuç:
[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
Değişken Değerlerini Sırala
Değerleri sıralamak için şu sort()
işlevi kullanın:
Örnek
Data_Cars <- mtcars
sort(Data_Cars$cyl)
Sonuç:
[1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8
Yukarıdaki örneklerden çoğu arabanın 4 ve 8 silindirli olduğunu görüyoruz.
Verileri Analiz Etme
Artık veri seti hakkında bazı bilgilere sahip olduğumuza göre, bazı istatistiksel sayılarla analiz etmeye başlayabiliriz.
Örneğin, summary()
verilerin istatistiksel bir özetini almak için işlevi kullanabiliriz:
Örnek
Data_Cars <- mtcars
summary(Data_Cars)
Çıkış numaralarını anlamadıysanız endişelenmeyin. Kısa sürede onlara hakim olacaksınız.
İşlev summary()
, her değişken için altı istatistiksel sayı döndürür:
- Min.
- Birinci nicelik (yüzdelik)
- Medyan
- Kastetmek
- Üçüncü nicelik (yüzdelik)
- Maks.
Sonraki bölümlerde diğer istatistiksel sayılarla birlikte hepsini ele alacağız.