นโยบายการจัดการความรู้ มหาวิทยาลัยสงขลานครินทร์ 1.ให้ใช้เครื่องมือการจัดการความรู้ผลักดัน คุณภาพคน และกระบวนทำงาน 2.ส่งเสริมการแลกเปลี่ยนประสบการณ์การทำงาน จากหน้างาน 3.ส่งเสริมให้มีเวทีเรียนรู้ร่วมกัน

Our Shangri-La
Ico64
Kittisakdi Choomalee

ภาควิชาเวชศาสตร์ชุมชน คณะแพทยศาสตร์ มหาวิทยาลัยสงขลานครินทร์
เครือข่าย
สมาชิก · ติดตาม: 0 · ผู้ติดตาม: 16

อ่าน: 1535
ความเห็น: 3

ก้าวย่างทางเดิน ลืมเลือนคืนวัน ดั้นด้นไป: แกะกล่อง ๒ [C]

ไม่ใช่ใหม่แกะกล่อง และไม่ใช่แมงกะพรุนกล่อง

 

แกะกล่องกันครับสำหรับบันทึกนี้ ดูกล่องด้านล่างประกอบนะครับ

อย่าพาลคิดไปถึงแมงกะพรุนกล่องที่เป็นข่าวดังในตอนนี้นะครับ มันไม่เกี่ยวกัน

 

 

ไฟล์ข้อมูลที่ใช้ในบันทึกนี้ เผื่อว่าใครอยากจะลองทำตามนะครับ download ไฟล์ข้อมูลไปเก็บในโฟลเดอร์ทำงานของ R นะครับ แล้วใช้บรรทัดคำสั่งด้านล่าง (ไม่ต้องมีเครื่องหมาย > ในบรรทัดคำสั่ง)

 

แกะกล่อง

 

อย่างที่กล่าวไปในบันทึกที่แล้วว่า boxplot เป็นการนำเสนอข้อมูลแบบ non-parametric statistics หรือสถิติที่ไม่อิงพารามิเตอร์

 

นั่นคือใน boxplot จะไม่มีค่าพารามิเตอร์หรืออีกนัยหนึ่งคือใน boxplot จะไม่แสดงค่าเฉลี่ย ไม่แสดงค่าส่วนเบี่ยงเบนมาตรฐาน แต่จะมีค่าการวัดแนวโน้มเข้าสู่ส่วนกลาง (measures of central tendency) ค่าอื่นปรากฏอยู่แทน นั่นก็คือค่ามัธยฐาน (median)

 

boxplot แบ่งออกเป็น ๒ ส่วนใหญ่ ๆ คือ ส่วนของ box และส่วนของ whisker

 

ส่วนของ box ก็คือส่วนที่เป็น "กล่อง" สี่เหลี่ยมนั่นเอง หรือในรูปก็คือส่วนที่เป็นพื้นที่สีเหลือง

 

ขอบบนของกล่องคือค่าที่ตำแหน่ง quatile ที่ 3 (3rd quartile) หรือค่าของข้อมูลที่ตำแหน่ง 75 percentile

 

และขอบล่างของกล่องคือค่าของข้อมูลที่ตำแหน่ง quartile ที่ 1 (1st quartile) หรือค่าของข้อมูลที่ตำแหน่ง 25 percentile

 

ส่วนเส้นแนวนอนสีน้ำเงิน (ตามรูป) ที่คาดตรงกลางกล่องนั้นคือเส้นบอกตำแหน่งค่าของข้อมูลที่ quartile ที่ 2 (2nd quartile) หรือ 50 percentile หรือค่ามัธยฐานของข้อมูล (median)

 

ตำแหน่งของค่ามัธยฐานนี้จะเคลื่อนที่ขึ้นลงอยู่ภายในกล่อง (box) ไม่จำเพาะเจาะจงว่าอยู่ที่ตำแหน่งกึ่งกลางของกล่อง แต่ตำแหน่งของค่ามัธยฐานในกล่องจะขึ้นอยู่กับข้อมูลนั้น ๆ ซึ่ง อาจจะขยับเข้าใกล้ หรือเป็นตำแหน่งเดียวกับค่า quartile ที่ 3 ก็ได้ หรือจะลดต่ำลงมาเข้าใกล้หรือเป็นค่าเดียวกับค่า quartile ที่ 2 ก็ได้

 

ค่าความต่างระหว่างค่าของ quartile ที่ 3 กับค่าของ quatile ที่ 1 คือค่า IQR หรือค่า Inter Quartile Range ถ้าให้เปรียบเทียบก็คงทำนองเดียวกับค่าส่วนเบี่ยงเบนมาตรฐานหรือค่า sd ที่เป็นค่าพารามิเตอร์นั่นเอง (ค่าพารามิเตอร์ เป็นค่าของประชากร (population)) ดังนั้นหากเรานำเสนอค่าการวัดแนวโน้มเข้าสู่ส่วนกลางด้วยค่ามัธยฐานก็ต้องนำเสนอคู่กับค่า IQR (เหมือนที่เรานำเสนอค่าเฉลี่ยร่วมกับค่าส่วนเบี่ยงเบนมาตรฐาน)

 

ส่วนที่ 2 ของ box and whisker plot ก็คือส่วนของ whisker หรือส่วนของหนวด  หนวดนั้นจะมีทั้งด้านบนกล่องและด้านล่างกล่อง

 

หนวดด้านบนกล่องจะยาวออกไปจาขอบบนของกล่องเท่ากับ 1.5 x IQR ค่าสูงสุดของหนวดเส้นบนจะเรียกว่า inner fence ซึ่งค่าที่ตำแหน่ง inner fence นี้อาจจะเป็นตำแหน่งของค่าสูงสุด (maximum) ของข้อมูลหรือไม่ก็ได้

 

เช่นเดียวกันกับหนวดเส้นล่างของกล่อง เส้นหนวดจะยาวไปจากตำแหน่งขอบล่างของกล่อง (1st quartile) เป็นระยะ 1.5 x IQR และค่าต่ำสุดของเส้นหนวดล่างจะเรียกว่า inner fence เช่นเดียวกัน ซึ่งค่าที่ตำแหน่ง inner fence นี้อาจจะเป็นตำแหน่งของค่าต่ำสุด (minimum) ของข้อมูลหรือไม่ก็ได้

 

ถัดจาก inner fence ทั้งด้านบนและด้านล่างของกล่องไปอีก 1.5 IQR จะเรียกว่า outer fence แต่จะไม่แสดงขอบเขตให้เห็น ข้อมูลที่มีค่าอยู่ในช่วงนี้จะแสดงข้อมูลในลักษณะเป็นวงกลมเล็ก ๆ วงกลม 1 วงแทนข้อมูลอย่างน้อย 1 ข้อมูล (หากข้อมูลมีค่าเท่ากัน วงกลมนี้จะซ้อนทับกัน ดังนั้นวงกลมที่เราเห็น 1 วงอาจจะมีข้อมูลอยู่มากกว่า 1 ข้อมูลก็ได้) ใน boxplot ข้างต้น คือจุดสีเขียวขอบแดงนั่นเอง

 

ค่าที่อยู่ระหว่างตำแหน่ง inner fence และ outer fence นี้เรียกว่า suspected outlier หรือบางครั้งเรียกว่าเป็น outlier

 

ข้อมูลที่มีค่าอยู่นอก outer fence (สำหรับด้านบนกล่องคือข้อมูลที่มีค่ามากกว่า outer fence และด้านล่างกล่องคือข้อมูลที่มีค่าน้อยกว่า outer fence) จะเรียกว่าเป็น outlier หรือบางครั้งเรียกว่า extreme value

 

ข้อมูลที่เป็น outlier หรือ extreme value นี้มองได้ ๒ อย่างครับ คือค่าที่มีค่าแตกต่างจากกลุ่ม (คนส่วนใหญ่) ค่อนข้างมาก ดังนั้นจึงเป็นไปได้ว่าเป็นข้อมูลที่อาจจะสำคัญที่ต้องให้ความสนใจ หรือเป็นไปได้ว่าเป็นค่าที่ไม่ควรสนใจ หรืออาจจะเป็นค่าที่เกิดตากความผิดพลาดของการวัด การลงข้อมูล (ทั้ง human/ tools error)

 

ข้อมูล outlier/ extreme value เหล่านี้จะส่งผลต่อข้อมูลโดยรวมค่อนข้าง ซึ่งอาจจะทำให้รูปแบบการกระจายของข้อมูลเปลี่ยนแปลงไปได้ ในบางครั้งค่าเหล่านี้อาจจะถูกตัดออกไม่นำไปรวมในการวิเคราะห์ข้อมูล (แต่การจะตัดข้อมูลออกไปไม่นำมาใช้นั้น ต้องมีข้อพิจารณาหลายอย่างรวมถึงการพิจารณาด้านจริยธรรมด้วย - เก็บข้อมูลจากกลุ่มตัวอย่างมาแล้ว ไม่นำไปใช้)

 

คำจำกัดความของ outlier บางครั้งจะกำหนดให้เป็นค่าที่มีค่ามากกว่า/ น้อยกว่า 3IQR ถัดจากค่า quartile ที่ 3 หรือ quartile ที่ 1 ตามลำดับ

 

ถ้าข้อมูลมีการกระจายแบบ normal distribution  box and whisker plot ควรจะมีลักษณะสมมาตร (ใกล้เคียงกับ boxplot ในบันทึกนี้) หรือในบางตำรา*จะกำหนดเอาไว้ว่าหากข้อมูลมีการกระจายแบบ normal distribution แล้ว ค่าของ IQR = 1.35s

 

s ในที่นี้คือค่าส่วนเบี่ยงเบนมาตรฐานของประชากร (สัญลักษณ์ของส่วนเบี่ยงเบนมาตรฐานที่เป็นค่าพารามิเตอร์ (ค่าในประชากร) จะแทนด้วย sigma (lower case) ไม่ใช่ sd ที่เป็นส่วนเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่างหรือเป็นค่าสถิติ แต่ในบันทึกนี้จะใช้ s แทนตัวอักษร sigma ที่เป็นอักษรกรีก

 

หรือในบางตำรา*จะ กำหนดว่า หากข้อมูลมีการกระจายที่เป็นแบบ normal distribution ช่วงกว้างของแต่ละส่วนของข้อมูลต้องมีระยะเท่ากัน โดยจะกำหนดช่วงข้อมูลออกเป็น ๗ ช่วง (Parametric)* คือ

  1. the 2nd percentile
  2. the 9th percentile
  3. the 25th percentile or lower quartile or first quartile
  4. the 50th percentile or median (middle value, or second quartile)
  5. the 75th percentile or upper quartile or third quartile
  6. the 91st percentile
  7. the 98th percentile

 

ดังนั้นในแต่ละส่วนของกล่องจะแสดงถึงการกระจายของข้อมูล (spread/ dispersion of data) ความเบ้ (skewness) หรือแสดงข้อมูลที่เป็น outlier

 

ไฟล์ข้อมูลคลิกเพื่อ download

 

R code สำหรับ สร้าง boxplot ในบันทึกนี้ครับ

> dim1 <- read.csv("dim1x.csv")
> dim1x <- dim1$x
> boxx <- summary(dim1x)
> biqr <- as.numeric(boxx[5] - boxx[2])
> biqr15 <- biqr*1.5
> boxplot(dim1x, xlab="dim1x", main="Box and Whisker plot", col="yellow",
  border="black", outcol="red", outbg="green", outcex=1.5 , outpch=21,  medcol="blue", whiskcol="brown", staplecol="purple", lwd=2, ylim=c(12,32))
> arrows(1.3,25,1.3,28,cod=3,length = 0.1) 
> arrows(1.3,25,1.3,28,cod=3, angle=90)
> text(1.45,26,"1.5 IQR")
> text(1.45,(28+0.08),"inner fence")
> arrows(1.3,23,1.3,25,cod=3,length = 0.1)  
> arrows(1.3,23,1.3,25,cod=3, angle=90)
> text(1.45,24,"IQR, Box")
> arrows(1.3,28,1.3,(28+biqr15),cod=3,length = 0.1)
> arrows(1.3,28,1.3,(28+biqr15),cod=3, angle=90)
> text(1.45,30,"1.5 IQR")
> text(1.45,(28+biqr15)+0.08,"outer fence")
> arrows(0.71,24, 0.78,24,length = 0.1)
> text(0.65,24.08,"Median")
> arrows(0.71,23, 0.78,23,length = 0.1)
> text(0.65,23.08,"Q1",adj=0.3)
> arrows(0.71,25, 0.78,25,length = 0.1)
> text(0.65,25.08,"Q3",adj=0.3)
> arrows(0.89,29, 0.98,29,length = 0.1)
> text(0.69,29.08,"outliers / suspected outliers")
> arrows(0.89,19, 0.98,19,length = 0.1)
> text(0.69,19.08,"outliers / suspected outliers")
> arrows(1.01,26.7,1.06,26.7,length = 0.1,cod=1)
> text(1.15,26.8,"Whisker")
> text(1,16,"Q2 = 2nd Quartile = 50 percentile = Median")
> text(1,15,"IQR= Inter Quartile Range (Q3 - Q1)")
> text(1,14,"Q1= 1st Quartile (25 percentile), Q3 = 3rd Quartile (75 percentile)")

 

อิอิอิ

 

เราเอง


* เข้าถึง 04082015

เพลง: เมื่อได้ยินเพลงนี้
ศิลปิน: Blissonic

 

หมวดหมู่บันทึก: เรื่องทั่วไป
สัญญาอนุญาต: ซีซี: แสดงที่มา-ไม่ใช้เพื่อการค้า-อนุญาตแบบเดียวกัน Cc-by-nc-sa
สร้าง: 04 สิงหาคม 2558 16:44 แก้ไข: 15 สิงหาคม 2562 19:10 [ แจ้งไม่เหมาะสม ]
ดอกไม้
สมาชิกที่ให้กำลังใจ: Ico24 pompom, Ico24 คนธรรมดา, และ Ico24 ทดแทน.
สมาชิกที่ให้กำลังใจ
 
Facebook
Twitter
Google

บันทึกอื่นๆ

ความเห็น

สถิติยากขนาดนี้ หาคนทำสถิติเก่ง ๆ มาทำให้น่าจะง่ายกว่านิ

box and whisker plot นี่เราเจอค่อนข้างบ่อยเหมือนกันครับ ในงานวิจัยต่าง ๆ ที่ลงตีพิมพ์ในวารสาร โดยจะเป็นส่วนของการสรุปข้อมูล

ถ้าเจอหน้าตาแบบนี้จะได้ดูแล้วรู้ว่า รูปนี้แสดงข้อมูลอะไรให้เราเห็นบ้างครับ

อิอิอิ

 

เราเอง

แกะได้จริงน้า 555

คุณต้องทำการเข้าระบบก่อนแสดงความเห็น