
ในยุค Data ที่ทุกคนกำลังให้ความสำคัญกับข้อมูล เราจะได้เห็นกราฟหรือตัวเลขมาใช้ในโฆษณาเพื่อดึงดูดลูกค้า หรือบางทีก็ใช้ผลสำรวจมาแสดงเพื่อเพิ่มความน่าเชื่อถือ
แต่กราฟและตัวเลขที่เห็นนี่มันเชื่อถือได้จริงๆหรอ ??
ที่ FINNOMENA ทีม Business Intelligence (BI) จะสรุปข้อมูลให้ทีมอื่นๆไปใช้งาน อย่างเช่นทีม Marketing จะนำเอาข้อมูลไปใช้ในการวางแผนโฆษณา หรือทีม Traction ก็ใช้ข้อมูลไปวางแผนทำบทความที่คนน่าจะชอบอ่าน ในทีม BI ก็จะมี Data scientist กับ BI developer นี่แหละที่เป็นคนสร้างสรรค์กราฟและตัวเลขต่างๆให้อย่างสวยงาม
บทความนี้เลยอยากพูดถึงทริค 4 อย่างที่พวกเรา เอ้ย! พวกโฆษณา สำนักข่าว แล้วก็โพลสำรวจชอบใช้เพื่อเอาข้อมูลมาทำให้ดูดี ดูน่าเชื่อถือ แต่อาจจะทำให้คนอ่านโดนหลอกได้ง่ายๆกัน
แต่ถ้าต่อไปนี้ไม่อยากโดนหลอก ก็ลองไปดูกันเลย !
1. กราฟลวงตา
เวลาที่มีข้อมูลเยอะๆ ถ้าใช้ตัวเลขดิบๆ มาแสดงจะทำให้เข้าใจยาก ก็เลยต้องเอาข้อมูลมาแสดงเป็นกราฟหรือแผนภูมิที่ทำให้เข้าใจได้ง่ายขึ้น ยิ่งถ้าใส่สีสันสวยงามก็ยิ่งดึงดูดให้คนอยากดูมากขึ้น
แต่ถ้าไม่ดูให้ดีๆ ก็จะโดนหลอกได้ง่ายๆ เหมือนกันนะ
ตัวอย่างฮอตฮิตของเรื่องนี้ขอยกให้สำนักข่าว FOX เลยจ้าาาา …

รูปนี้ถ้าดูแบบผิวเผิน จะเห็นว่ากราฟแท่งขวาสูงกว่ากราฟแท่งซ้ายเกือบ 5 เท่าแน่ะ นั่นแปลว่า … ภาษีจะเพิ่มขึ้นถึง 5 เท่าเลยเรอะ!
แต่ถ้าสังเกตตัวเลขดีๆ จะเห็นว่ากราฟ 2 แท่งนี้ต่างกันแค่ 4.6% เท่านั้น ที่ดูต่างกันเยอะเพราะตัวเลขบนแกน Y ไม่ได้เริ่มที่ 0 นั่นเอง
พอปรับแกนแล้ว ก็ดูต่างกันแค่นิดเดียวเอง

นี่เป็นเทคนิคสุดคลาสสิคที่คนชอบใช้หลอกว่าข้อมูลมีความแตกต่างกันเยอะ ทั้งที่จริงๆ แล้วต่างกันเพียงนิดเดียวเท่านั้น
นอกจากจะหลอกด้วยแกน Y แล้ว แกน X ก็หลอกได้นะ

กราฟนี้ดูเป็นเส้นตรงสวยงาม ดูผ่านๆก็คือ จำนวนคนว่างงานเพิ่มขึ้นอย่างคงที่ทุกๆไตรมาส … หรอ?
ถ้าสังเกตแกน X ดีๆ พี่ FOX แกแรนด้อมข้อมูลมาก แต่ละปีก็ใช้ข้อมูลคนละเดือน แถมจัดวางค่าบนแกน X ให้จำนวนคนว่างงานเพิ่มขึ้นแบบเส้นตรงโคตรๆ ถ้านำข้อมูลมาพล็อตกราฟใหม่โดยปรับแกน X ให้ถูกต้อง ก็จะได้กราฟที่แบบด้านล่างที่ดูไม่ได้เป็นเส้นตรงขนาดนั้น

แล้วก็ยังมี Pie chart ที่มีสีสันสวยงามแต่แสดงสัดส่วนได้เพี้ยนมาก

ในรูปนี้ Pie chart แบ่งเป็น 3 ส่วนเท่าๆกัน แต่ตัวเลขที่แสดงดันไม่เท่ากัน แถมตัวเลขก็รวมกันทะลุ 100% ด้วยจ้า … งงเลยจ้าาาา
พอเห็นตัวอย่างกราฟผิดๆพวกนี้แล้ว ก็อยากจะให้เช็คข้อมูลและองค์ประกอบของกราฟสวยๆ ซักนิด เดี๋ยวจะโดนความสวยงามหลอกได้ …
2. สิ่งที่โฆษณาไม่อยากบอก

เคยได้ยินสโลแกนที่ว่า “ยาสีฟันที่ทันตแพทย์ส่วนใหญ่แนะนำ” หรือ “ผู้ใช้กว่า 90% เลือกที่จะกลับมาใช้อีกครั้ง” มั้ย?
แต่ … เคยสงสัยมั้ยว่าคำว่า “ส่วนใหญ่” เนี่ย ความจริงมันคือกี่คนกันแน่
แล้ว “90%” เนี่ย เป็น 90% ของอะไร
สิ่งที่คำโฆษณาไม่ค่อยอยากจะบอกก็คือ จำนวนที่แท้จริง
ถ้าจริงๆ แล้วบริษัทยาสีฟันไปถามทันตแพทย์แค่ 10 คนแล้วมี 9 คนแนะนำยาสีฟันนี้ ก็เรียกว่าส่วนใหญ่หรือ 90% แล้วใช่มั้ยล่ะ! แต่ถ้าบอกว่าไปถามมาแค่ 10 คน มันคงไม่ค่อยน่าเชื่อถือเท่าไหร่ (จริงๆไม่ใช่ 10 นะ แต่อันนี้ยกตัวอย่างให้เข้าใจง่าย)
เราจึงไม่ค่อยเห็นตัวเลขที่แท้จริงในคำโฆษณา หรือถ้ามีก็จะเขียนไว้เล็กมากกกกกกก เพราะตัวเลขนั้นอาจจะน้อยเกินไปจนทำให้คนไม่เชื่อหรือไม่สนใจเลยก็ได้
ก่อนที่จะเชื่อคำโฆษณา เราเลยอยากให้สงสัยเหมือนจขกท.ด้านล่างนี้ซักนิด

3. ผลสำรวจนี่น่าเชื่อถือจริงหรอ?
ลองดูผลสำรวจของชาวอเมริกันที่ถามว่า ในช่วงที่เกิดพายุเฮอร์ริเคนแคทรีนา รัฐบาลอเมริกาดูแลคนผิวขาวและคนผิวสีเท่าเทียมกันหรือไม่

ถ้าเห็นผลสำรวจแค่นี้ ก็ดูเหมือนจะดี ไม่มีปัญหาอะไรเพราะ 68% ตอบว่ารัฐบาลดูแลอย่างเท่าเทียม และ 50% ก็เห็นว่าเรื่องสีผิวไม่ใช่ปัญหาร้ายแรงอะไรแล้ว
แต่เดี๋ยวก่อน!! …. ลองดูข้อมูลเพิ่มเติมจากรูปด้านล่างก่อนนะ

จะเห็นเลยว่าคนผิวขาวและคนผิวสีมีความเห็นที่แตกต่างกันอย่างชัดเจน ในขณะที่คนผิวขาวไม่รู้สึกถึงปัญหา แต่คนผิวสียังคงรู้สึกถึงปัญหานี้อยู่
ที่เป็นแบบนี้เพราะผลสำรวจนี้มี bias นั่นเอง!
จะเห็นว่าจำนวนคนผิวขาวที่ในผลสำรวจนี้มากกว่าคนผิวสีถึง 3 เท่า จึงทำให้ผลสำรวจรวม bias ไปทางคำตอบของคนผิวขาวมากกว่า
เลยอยากให้ระวังว่าเวลาที่เห็นผลสำรวจที่ออกมาดีๆ มันอาจจะมี bias อยู่ก็ได้
อย่างเช่นถ้าเห็นผลสำรวจด้านล่างนี้ เราอาจจะต้องเช็คนิดนึงนะว่า
… พี่ไม่ได้ไปถามแค่ทหารใช่มั้ยคะ …

4. ค่าเฉลี่ยที่เห็นอาจสูงกว่าความเป็นจริง
ข้อสุดท้ายนี้ เป็นตัวเลขที่ใช้กันเยอะมาก แต่ก็เป็นตัวเลขที่โดนหลอกได้ง่ายมาก!
โดยทั่วไปเราจะใช้ค่าเฉลี่ยที่คำนวณจากผลรวมของข้อมูลหารด้วยจำนวนข้อมูลทั้งหมด แต่จริงๆแล้ว ค่าเฉลี่ยแบบนี้อาจทำให้การแสดงข้อมูลถูกบิดเบือนได้ เหมือนในตัวอย่างด้านล่างนี้

ถ้าเราบอกรายได้เฉลี่ยของพนักงานกลุ่มนี้โดยใช้ค่าเฉลี่ย ก็จะได้ว่า
“พนักงานกลุ่มนี้มีรายได้เฉลี่ย $5,700/ปี”
แต่พอไปดูข้อมูลจริงๆ แล้วพนักงานส่วนใหญ่มีรายได้เพียง $2,000-$3,000/ปี เท่านั้น มีเพียง 3 คนเท่านั้นที่รายได้เกินค่าเฉลี่ย
นั่นแปลว่า ค่าเฉลี่ยสูงกว่าข้อมูลส่วนใหญ่ตั้ง 2 เท่าแน่ะ !!
แล้วถ้าเราอยากบอกรายได้เฉลี่ยของพนักงานกลุ่มนี้ เราควรจะใช้อะไรล่ะ? อันนี้ต้องใช้หลักการทางสถิติมาอธิบายนิดนึง
เนื่องจากข้อมูลนี้มีการกระจายแบบไม่สมมาตร (Asymmetrical distribution หรือทางสถิติเรียกว่าเบ้) การใช้ Median หรือ Mode จะให้ข้อมูลที่ถูกต้องมากกว่า อย่างในตัวอย่างถ้าใช้ Median ก็จะได้ว่า
“พนักงานกลุ่มนี้มีรายได้เฉลี่ย $3,000/ปี”
ซึ่งเป็นตัวเลขที่ให้ค่าที่ใกล้เคียงกับพนักงานส่วนใหญ่มากกว่า
แต่คนทั่วไปก็จะเลือกใช้แค่ค่าเฉลี่ยโดยไม่สนใจการกระจายของข้อมูล จึงทำให้ค่าเฉลี่ยที่เห็นอาจมีค่าสูงกว่าที่ควรจะเป็นนั่นเอง
อ่านมาถึงตรงนี้ รู้สึกว่าตัวเองเคยโดนหลอกด้วยวิธีพวกนี้บ้างรึเปล่า? นี่เป็นเพียงตัวอย่างทริคส่วนหนึ่งที่เห็นได้ทั่วไปเท่านั้น จริงๆแล้วยังมีหลายวิธีที่ใช้ตัวเลขและข้อมูลมาหลอกพวกเราได้ หากใครสนใจก็ลองไปหาหนังสือ How to lie with statistics มาอ่านกันได้นะ
รู้อย่างงี้แล้ว หวังว่าต่อไปจะไม่โดนหลอกกันอีกนะ
Leave a Reply