Để minh họa cho việc áp dung R vào thống kê mô tả, tôi sẽ sử dụng một dữ liệu nghiên cứu có tên là mydata. Trong nghiên cứu này , ngoài các chỉ số liên quan đến category, city, Country, v.v tôi còn đo lường các liên quan đến Profit.Ratio, Profit.per.Order, Sales.Forecast. Có 62 chỉ số nghiên cứu. Dữ liệu này chứa trong directory: E:\quyennv\RStudio. Trước hết , chúng ta cần phải nhập dữ liệu vào R với những lệnh sau:
file .csv đính đính kèm ở dưới:
> options(width = 100)
# chuyển directory
> setwd("E:/quyennv/RStudio")
> mydata <- read.csv("supperstore.csv")
> attach(mydata)
# xem xét các cột trong dữ liệu
> names(mydata)
> mydata
Cho một biến x1, x2, x3, ..., xn chúng ta có thể tính toán một chỉ số thông kê mô tả như sau:
Để tìm giá trị trung bình của Quantity, chúng ta chỉ dùng lệnh:
> mean(Quantity)
[1] 3.74
Hay phương sai và độ lệnh chuẩn của Quantity:
> var(Quantity)
[1] 4.234747
> sd(Quantity)
[1] 2.05785
Tuy nhiên , R có lệnh Summary, có thể cho chúng ta biết tất cả thông tin thống kê về một biến số:
> summary(Quantity)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 2.00 3.00 3.74 5.00 9.00
Trong đó, "1st Qu, 3rd Qu" có nghĩa là first quartile (tương đương với giá trị 25%) và third quartile (tương đương với giá trị 75%) của một biến số. First quartile = 2 coa nghĩa là 25% đối tượng nghiên cứu có Quantity(số lượng) bằng hoặc nhỏ hơn 2. Tương tự, third quartile = 5 có nghĩa là 75% có Quantity bằng hoặc thấp hơn 5. Tất nhiên số trung vị (median) 3.74 cũng có nghĩa là 50%.
R không có hàm tính sai số chuẩn, và trong hàm summary, R cũng không cung cấp độ lệch chuẩn. Để có các số này, chúng ta có thể tự viết một hàm đơn giản (hãy gọi là desc) như sau:
desc <- function(x)
{
av <- mean(x)
sd <- sd(x)
se <- sd/sqrt(length(x))
c(MEAN=av, SD=sd, SE=se)
}
Và có thể gọi hàm này bất cứ khi nào ta muốn
> desc(Quantity)
MEAN SD SE
3.740000 2.057850 0.205785
Để xem phân phối của hormones và chỉ số cùng một lúc, chúng ta có thể vẽ đồ thị cho biến số. Trước hết, chia màng hình thành 4 cửa sổ(với 2 dòng và 2 cột); Sau đó lần lượt vẽ:
> op <- par(mfrow=c(2,2))
> hist(Quantity)
> hist(Days.to.Ship.Actual)
> hist(Days.to.Ship.Scheduled)
0 nhận xét: