นโยบายการจัดการความรู้ มหาวิทยาลัยสงขลานครินทร์ 1.ให้ใช้เครื่องมือการจัดการความรู้ผลักดัน คุณภาพคน และกระบวนทำงาน 2.ส่งเสริมการแลกเปลี่ยนประสบการณ์การทำงาน จากหน้างาน 3.ส่งเสริมให้มีเวทีเรียนรู้ร่วมกัน

Our Shangri-La
Ico64
Kittisakdi Choomalee

ภาควิชาเวชศาสตร์ชุมชน คณะแพทยศาสตร์ มหาวิทยาลัยสงขลานครินทร์
Network
Members · Following: 0 · Followed: 16

อ่าน: 1078
ความเห็น: 1

คิดมาก ไม่คิดมาก เรื่องยาก เรื่องง่าย # 2 [C]

ยักตื้นติดกึก ยักลึกติดกัก

ความเดิมตอนที่แล้ว คิดมาก ไม่คิดมาก เรื่องยาก เรื่องง่าย#1

 

จากข้อมูล dim1x ที่เมื่อเราดู distribution ของข้อมูลแล้วพบว่า ผลจากการทดสอบด้วยวิธีการต่าง ๆนั้น มีแนวโน้มที่จะให้ผลการทดสอบไปในทางปฏิเสธสมมติฐานของการทดสอบ หรือ ค่า p-value จากการทดสอบลู่เข้าหาศูนย์เกือบทั้งหมด ยกเว้นผลจากการทดสอบด้วยวิธี Robust Jarque Bera Test ที่ให้ผลการทดสอบไปในทิศตรงข้ามกับการทดสอบด้วยวิธีอื่น ๆ

 

เมื่อตรวจสอบการกระจายของข้อมูลโดยการใช้ plot ต่าง ๆ พบว่าการกระจายของข้อมูลไม่ได้เบี่ยงเบนออกจากข้อมูลที่มีการกระจายแบบปกติ (normal distribution/ Gaussian distribution) มากนัก และเมื่อดูผลจาก qqnorm plot พบว่าข้อมูลชุดนี้มีลักษณะของข้อมูลที่เป็น tile หรือข้อมูลชุดนี้มีค่าซ้ำ ๆ กันอยู่หลาย ๆ ค่า

 

จากข้อมูลทั้งหมด 439 ค่า

> length(dim1x)

[1] 439

 

dim1x เป็นวัตถุที่เป็น numeric vector ใน R

 

> class(dim1x)

[1] "numeric"

 

> is.vector(dim1x)

[1] TRUE

 

จาก qqnorm ของ dim1x

 

จะเห็นข้อมูลที่เป็น tile ค่อนข้างชัด

 

หรือเมื่อเราตรวจสอบการกระจายของข้อมูลด้วย stem and leaf plot เราจะเห็นการกระจายของข้อมูลชัดเจนยิ่งขึ้น

 

> stem(dim1x)

  The decimal point is at the |

19 | 00000000
20 | 00000000000000000
21 | 0000000000000000000000000000000000
22 | 0000000000000000000000000000000000000000000000000
23 | 00000000000000000000000000000000000000000000000000000000000000000000+8
24 | 00000000000000000000000000000000000000000000000000000000000000000000+32
25 | 00000000000000000000000000000000000000000000000000000
26 | 0000000000000000000000000000000000
27 | 000000000000000000000000000
28 | 000000000000
29 | 00000

 

stem and leaf plot ก็ประมาณเดียวกับ histogram ครับ คือแบ่งข้อมูลออกเป็น stem และ leaf ดูว่า leaf แต่ละ leaf มีอะไรบ้าง

จาก stem and leaf ข้างต้นจะเห็นว่า ข้อมูลส่วนใหญ่จะมีค่าซ้ำ ๆ กัน โดยค่าที่มีค่าซ้ำกันมากที่สุดคือ 24.0 รองลงมาคือ 23.0

 

หรือเมื่อดูจากตารางแจกแจงความถี่จะได้เป็น

 

> table(dim1x)

dim1x 

19  20  21  22  23  24  25  26  27  28  29  

8  17  34  49  88 112  53  34  27  12   5  

 

หรือเมื่อ summary dim1x จะพบว่า

 

> summary(dim1x)   

Min. 1st Qu.  Median    Mean 3rd Qu.    Max.  

19.00   23.00   24.00   23.72   25.00   29.00 

 

ข้อมูลอยู่ในช่วง 19.0 - 29.0 เท่านั้น แต่มีจำนวนข้อมูลถึง 439 ค่า

 

เราดูเฉพาะค่าที่ไม่ซ้ำกันของข้อมูลจะพบว่า

 

> unique(dim1x) 

[1] 25 22 23 24 21 27 20 29 26 19 28

 

> length(unique(dim1x))

[1] 11

 

หรือดูจากผลของ table(dim1x) ก็ได้

 

จากข้อมูลทั้งหมด 439 ข้อมูล มีข้อมูลที่มีค่าไม่ซ้ำกันอยู่แค่ 11 ค่าเท่านั้นเอง

 

หากเราลองตรวจสอบการกระจายของข้อมูลที่ไม่ซ้ำกันทั้ง 11 ค่าด้วยวิธีการทดสอบที่ผ่านมาจะได้ผลเป็นอย่างไร

 

> udim1x <- unique(dim1x)

 

> stem(udim1x)

   The decimal point is 1 digit(s) to the right of the |

1 | 9
2 | 01234
2 | 56789

 

> boxplot(udim1x, main="boxplot of udim1x")

> hist(udim1x, prob=T,ylim=c(0,0.18))
> curve(dnorm(x,mean(udim1x),sd(udim1x)),add=T,lwd=2, col="red")

 

> plot(ecdf(udim1x))

 

 

> qqnorm(udim1x, col="blue")
> qqline(udim1x, col="red", lwd=2)

 

จาก qqnorm & qqline plot จะเห็นว่ามีเพียงค่าแรกและค่าสุดท้ายเท่านั้นที่อยู่ห่างจากเส้นสมมติสีแดง (เส้น qqline)

 

ลองทดสอบด้วยวิธีการทดสอบทางสถิติวิธีต่าง ๆ

 

> shapiro.test(udim1x)

        Shapiro-Wilk normality test

data:  udim1xW = 0.96839, p-value = 0.8698

 

> AndersonDarlingTest(udim1x)

        Anderson-Darling test of goodness-of-fit        Null hypothesis: uniform distribution

data:  udim1xAn = Inf, p-value = 5.455e-05

 

> CramerVonMisesTest(udim1x)

        Cramer-von Mises normality test

data:  udim1xW = 0.018921, p-value = 0.9704

 

> ShapiroFranciaTest(udim1x)

        Shapiro-Francia normality test

data:  udim1xW = 0.98523, p-value = 0.9902

 

> JarqueBeraTest(udim1x)

        Robust Jarque Bera Test

data:  udim1xX-squared = 0.4944, df = 2, p-value = 0.781

 

> ks.test(udim1x, "dnorm", mean(udim1x), sd(udim1x), alternative="two.sided")

        One-sample Kolmogorov-Smirnov test

data:  udim1xD = 0.96139, p-value < 2.2e-16alternative hypothesis: two-sided

 

> ks.test(udim1x, "rnorm", mean(udim1x), sd(udim1x), alternative="two.sided")

        One-sample Kolmogorov-Smirnov test

data:  udim1xD = 25.395, p-value < 2.2e-16alternative hypothesis: two-sided

 

> LillieTest(udim1x)

        Lilliefors (Kolmogorov-Smirnov) normality test

data:  udim1xD = 0.09039, p-value = 0.9987

 

> PearsonTest(udim1x, n.classes=6, adjust=TRUE)

        Pearson chi-square normality test

data:  udim1xP = 0.45455, p-value = 0.9288

 

ผลจากการทดสอบด้วยวิธีการทางสถิติเกือบทุกวิธีการทดสอบให้ค่า p-value ของการทดสอบลู่เข้าหา 1 ยกเว้นการทดสอบด้วย KS Test ( Kolmogorov-Smirnov test) และ Anderson-Darling test  เท่านั้นที่ยังให้ผลการทดสอบออกมาเหมือนเดิมคือค่า p-value จากการทดสอบยังลู่เข้าหา 0 เช่นเดิม

 

ข้อมูลชุดนี้ ไม่ได้เป็น ratio scale แท้ ๆ แต่เป็นข้อมูลที่เกิดจากผลรวมของ ordinal scale ดังนั้น เราจะพบข้อมูลที่มีลักษณะเป็น tile หรือมีข้อมูลที่มีค่าซ้ำกันจำนวนมากในข้อมูลชุดนี้

 

นิทานเรื่องนี้สอนให้รู้ว่า

..............

 

อิอิอิ

 

เราเอง

 

เพลง: บางเงา
ศิลปิน: มาลีฮวนน่า

 

หมวดหมู่บันทึก: เรื่องทั่วไป
สัญญาอนุญาต: ซีซี: แสดงที่มา-ไม่ใช้เพื่อการค้า-อนุญาตแบบเดียวกัน Cc-by-nc-sa
สร้าง: 24 กรกฎาคม 2558 16:39 แก้ไข: 09 สิงหาคม 2562 16:06 [ แจ้งไม่เหมาะสม ]
ดอกไม้
สมาชิกที่ให้กำลังใจ: Ico24 คนธรรมดา, Ico24 ทดแทน, และ 3 คนอื่น.
สมาชิกที่ให้กำลังใจ
 
Facebook
Twitter
Google

บันทึกอื่นๆ

ความเห็น

นิทานเรื่องนี้สอนให้รู้ว่า มีเลขแค่สิบเอ็ดตัวก็ทำให้เป็นสี่ร้อยกว่าๆค่าได้ แถมคิดอะไรต่ออะไรได้อีกมากมายทีเดียวเจียว...

คุณต้องทำการเข้าระบบก่อนแสดงความเห็น