นโยบายการจัดการความรู้ มหาวิทยาลัยสงขลานครินทร์ 1.ให้ใช้เครื่องมือการจัดการความรู้ผลักดัน คุณภาพคน และกระบวนทำงาน 2.ส่งเสริมการแลกเปลี่ยนประสบการณ์การทำงาน จากหน้างาน 3.ส่งเสริมให้มีเวทีเรียนรู้ร่วมกัน

Our Shangri-La
Ico64
Kittisakdi Choomalee

ภาควิชาเวชศาสตร์ชุมชน คณะแพทยศาสตร์ มหาวิทยาลัยสงขลานครินทร์
เครือข่าย
สมาชิก · ติดตาม: 0 · ผู้ติดตาม: 16

อ่าน: 931
ความเห็น: 4

ก้าวย่างทางเดิน ลืมเลือนคืนวัน ดั้นด้นไป: บันทึกเรียงความคิดวิเคราะห์ข้อมูล #๑ [C]

รวบรวม เรียบเรียง ประมวลความรู้ สำหรับการวิเคราะห์ข้อมูล survey data, cluster data, repeated measurement, longitudinal data, fixed effect, random effect, GEE, GLMMs

กำลังนั่งปวด ๆ หัวอยู่กับการทำความเข้าใจการวิเคราะห์ข้อมูลในรูปแบบต่าง ๆ ที่ไม่ใช่รูปแบบธรรมดาที่เรา ๆ ท่าน ๆ เจอกันบ่อย ๆ

 

อันที่จริงก็เจอกันบ่อย ๆ แต่ส่วนใหญ่เราไม่คิดมาก คิดลึก คิดนานไปขนาดนั้น

 

น่าจะเอาไว้เล่าในบันทึกเรื่องเล่าชวน (ปวด) หัว ก็น่าจะดีไม่น้อยเหมือนกันนะครับ เนื่องจากเป็นเรื่อง "เจ็บเบ็ดหัว" ยิ่งกว่าเดินชนเสา

 

อิอิอิ

 

ผมต้องเข้าไปยุ่งไปเกี่ยวกับเรื่องราวของข้อมูลที่เป็น

  • Survey Data ถ้าเป็นการสำรวจ (Survey) แบบธรรมด๊าธรรมดา ก็คงจะไม่ต้องคิดอะไรมากมายเนื่องเพราะ ข้อมูลที่ได้มาไม่ได้มีความซับซ้อนซ่อนเงื่อนแต่อย่างใด แต่ที่เริ่มจะปวดหัวตัวร้อน นอนไม่หลับ กระสับกระส่ายก็เนื่องจากว่า ข้อมูลเชิงสำรวจ (survey) ที่ว่านี่ เป็นข้อมูลในแบบของ Cluster Sampling

 

ถ้าจะไปทำความเข้าใจว่า cluster คืออะไร มีผู้รู้อธิบายเอาไว้ว่า Cluster คือสิ่งที่อยู่รวมกันเป็นกลุ่มก้อน

 

cluster sampling เป็นวิธีการสุ่มตัวอย่าง (Sampling) ที่ใช้สำหรับการสุ่มตัวอย่างจากประชากรที่อยู่ในพื้นที่ขนาดใหญ่ (กว้าง)

 

การสุ่มตัวอย่างแบบ cluster sampling ก็คือการแบ่งกลุ่มของประชากรออกเป็นกลุ่ม ๆ แล้วใช้วิธีการสุ่มกลุ่มประชากรที่แบ่งไว้ จากนั้นสุ่มตัวอย่างจากกลุ่มประชากรที่สุ่มมาได้อีกครั้งหนึ่ง

 

ฮา

 

แบบเข้าใจง่าย ๆ ก็คือ สมมติว่าประชากรเป้าหมายของเราเป็นนักศึกษา ม.อ. วิทยาเขตหาดใหญ่

 

ครั้นเรา จะไปสุ่มตัวอย่างเพื่อเก็บข้อมูลจากนักศึกษาทุกคณะก็อาจจะต้องลงทุนลงแรงมาก อย่ากระนั้นเลยเราแบ่งนักศึกษาออกเป็นกลุ่ม ๆ สิ่งที่ง่ายที่สุดที่ใช้ในการแบ่งกลุ่มก็คือ "คณะ" ดังนั้นเราแบ่งนักศึกษาออกเป็นกลุ่ม ๆ (cluster) โดยใช้คณะที่นักศึกษาคนนั้น ๆ สังกัดอยู่เป็นตัวแบ่งกลุ่ม หรือกำหนดให้คณะเป็น Cluster

 

สมมติอีกว่า คณะทั้งหมดในวิทยาเขตหาดใหญ่มี ๑๐ คณะ

 

ตีว่าเราต้องการจำนวน cluster สำหรับสุ่มตัวอย่าง ๓ cluster หรือ ๓ คณะ เราก็หยิบฉลากเอาว่าได้ ๓ คณะไหนบ้างจากทั้งหมด ๑๐ คณะ

 

เมื่อได้ ๓ คณะที่เราต้องลงไปเก็บข้อมูลแล้ว ในแต่ละคณะก็จะมีนักศึกษาจำนวนหลายคน และจำนวนนักศึกษาแต่ละคณะก็มีจำนวนไม่เท่ากันอีก

 

สมมติอีกว่าเราต้องการเก็บข้อมูลจากนักศึกษา ๑๐๐ คน จาก ๓ คณะที่สุ่มมาได้

 

เราจะสุ่มตัวอย่างนักศึกษาจากแต่ละคณะ (๓ คณะ) จำนวนเท่าไหร่ต่อคณะดี

 

วิธีที่ง่ายที่สุดแต่ไม่ดีที่สุดก็คือการกำหนดโควตา (quota) ตามสัดส่วนนักศึกษาของแต่ละคณะ (๓ คณะ)

 

วิธีที่ดีกว่านั้นคือการใช้ PPS หรือ Probability Proportion to Size

 

การใช้ PPS เพื่อให้โอกาสหรือเพื่อให้ความน่าจะเป็นของนักศึกษาไม่ว่าจะอยู่คณะไหน (แม้จำนวนนักศึกษาจะมากจะน้อยไม่เท่ากันก็ตาม) ก็มีโอกาสถูกสุ่มเท่ากัน

 

ผมข้าม ๆ เจ้า PPS ไปนะครับ

 

ข้อมูลที่ถูกสุ่มมาจาก ๓ คณะ จะมีลักษระอย่างหนึ่งก็คือ มีความคล้ายคลึงกันของข้อมูลที่ได้จากนักศึกษาที่ถูกสุ่มมาจากคณะเดียวกัน หรือข้อมูลที่เก็บมาได้จะเป็นเหมือนข้อมูล ๓ ก้อน หรือ ๓ กลุ่มใหญ่ ๆ

อันนี้ในความหมายก็คือ ข้อมูล (บางอย่าง) ที่เราเก็บมาถูกอิทธิพลจากปัจจัยในระดับคณะทำให้ข้อมูลของนักศึกษาที่ได้มาจากคณะเดียวกันมีความคล้ายคลึงหรือเหมือนกัน

 

เช่นนักศึกษาจากคณะทรัพยฯ ก็จะมีลักษณะบางอย่างที่เหมือนกันอยู่ และต่างจากลักษณะเดียวกันในนักศึกษาจากคณะวิศวฯ เป็นต้น

 

ดังนั้นข้อมูลที่ได้มาก็อาจจะไม่ใช่เป็นข้อมูลที่ดีเพราะ ข้อมูลมีความเหมือนกัน ซึ่งเราเก็บข้อมูลจากนักศึกษาเพียง ๑ คนจากแต่ละคณะที่สุ่มได้ก็สามารถบอกถึงลักษณะบางอย่างของนักศึกษาในคณะนั้น ๆ ได้

 

ลักษณะเช่นนี้จะทำให้ความแปรปรวน (Variance) ของข้อมูลต่ำสูง หรือเรียกว่าเกิดการกระจุกตัวของข้อมูล

 

ซึ่งตอนวิเคราะห์ข้อมูลเราต้องคำนึงถึงการกระจุกกันของข้อมูลในลักษณะนี้ด้วย

 

สิ่งที่บอกว่าข้อมูลที่เก็บมาได้มีการกระจุกกันหรือไม่ (ข้อมูลมีความคล้ายคลึงกัน) อย่างหนึ่งก็คือ Design Effect

 

ข้อมูลที่ได้จากการสุ่มตัวอย่างแบบ Cluster เรียกอีกอย่างหนึ่งว่า Correlated Data

 

ตัวอย่างง่าย ๆ ของข้อมูลที่มีความสัมพันธ์กัน (Correlated Data) คือ ข้อมูลที่เก็บจากสมาชิกในบ้านเดียวกัน ข้อมูลสถานะภาพสมรสของสามีกับสถานภาพสมรสของภรรยา

 

ข้อมูลที่มีความสัมพันธ์กันระหว่างข้อมูลของแต่ละตัวอย่าง (between observation) เราเรียกว่า Intraclass correlation

 

ตัวอย่างของ inttraclass correlation ก็คือผลจากตาราง ANOVA (สูตรการคำนวณค่า Intraclass Correlation ของวิธีการทางสถติติที่ต่างกันจะแตกต่างกันไป)

 

เริ่มปวดหัวแล้วครับ

 

อิอิอิ

 

เราเอง

 

เพลง: อยากหยุดเวลา
ศิลปิน: ศรัณย่า ส่งเสริมสวัสดิ์

 

หมวดหมู่บันทึก: บริการวิชาการ
สัญญาอนุญาต: ซีซี: แสดงที่มา-ไม่ใช้เพื่อการค้า-อนุญาตแบบเดียวกัน Cc-by-nc-sa
สร้าง: 02 ตุลาคม 2556 22:29 แก้ไข: 01 พฤษภาคม 2563 10:08 [ แจ้งไม่เหมาะสม ]
ดอกไม้
สมาชิกที่ให้กำลังใจ: Ico24 ServiceMan, Ico24 คนธรรมดา, และ 6 คนอื่น.
สมาชิกที่ให้กำลังใจ
 
Facebook
Twitter
Google

บันทึกอื่นๆ

ความเห็น

ผมปวดหัวมานานแล้วครับ กับบันทึกน้า เอิ้ก เอิ้ก

 

"ใจสั่งมา"

สงสารน้า..แกหนา..งานมีแต่ปวดเบ็ดหัว

อิ..อิ..

เล่ามาบ่อย ๆ ครับ "เจ็บเบ็ดหัว" บ่อย ๆ เดี๋ยวก็ชินเอง

ผมก็จะซึมซับแนวคิดเชิงสถิติจากการอ่านบันทึกนี้ไง 555555

@น้อง ๒ ใย บันทึกเทาให้อ่านแบบบันเทิงไม่ใช่อ่านแบบปวดหัวครับ

อิอิอิ

ถ้าเริ่มปวดหัวก็หยุดพักสักครู่

แต่อ่านเสร็จอย่าลืมยิ้ม และให้ดอกไม้

ฮา

@ท้าวฯ ถ้าได้กินเรียนรับรองหายปวดหัว

อิอิอิ

@ คนธรรมดา เล่าบ่อย ๆ คนเล่าจะปวดหัวหนักขึ้น ๆ ครับ

อิอิอิ

เราเอง

คุณต้องทำการเข้าระบบก่อนแสดงความเห็น