TDG Tech Talk Statistics VS. Machine Learning สองอย่างนี้เหมือนและต่างอย่างไร

ปฏิเสธไม่ได้ว่าปัจจุบัน Data Analytics เป็นสิ่งที่หลายๆ คนสนใจและเป็นทักษะที่หลายคนต้องการพัฒนาเพื่อนำมาใช้กับงานต่างๆ ไม่ว่าจะเป็นด้านภาษาศาสตร์ การแพทย์ การนำไปใช้ในเชิงธุรกิจเพื่อการตัดสินใจ รวมไปถึงการประยุกต์ใช้กับวิทยาศาสตร์สาขาต่างๆ ไม่ว่าจะเป็นทั้งในด้าน ฟิสิกส์ เคมี หรือชีววิทยา ซึ่งวิชาที่หลายคนจะคุ้นเคยกันดีคือวิชาสถิติ(Statistics) และ Machine Learning

ระหว่างประชุมงานในทีม พี่ในทีมได้ถามคำถามที่น่าสนใจขึ้นมาว่า “คิดว่า Statistics กับ Machine Learning มันต่างกันยังไง ทั้งๆ มันก็คือ Math เหมือนกัน” จริงๆ คำถามข้างบนนี้เป็นอะไรที่ว่ากันด้วยพื้นฐานกันจริงๆ ครับ เพราะยอมรับกันตรงๆ ว่าสายงานที่ค่อนข้างใกล้เคียงกับงาน Data Analytics ที่สุดคือ สถิติและ Computer Science ทั้งนี้ จะขอเล่าในมุมสถิติก่อนครับ

ในสมัยก่อนเวลาเรียนสถิตินั้น ทุกคนจะได้เรียนแต่การออกแบบการเก็บข้อมูลจนไปถึงการแปรผล ไม่ว่าจะเป็นการออกแบบการทดลอง(Design Experiment) การเก็บตัวอย่าง(Sampling) รวมถึงสิ่งสำคัญอีกสองสิ่ง คือ การประมาณค่า และการทดสอบสมมติฐานของข้อมูลเพื่อนำพฤติกรรมที่ได้ของกลุ่มตัวอย่างไปอธิบายประชากร เนื่องจากสมัยก่อนนั้นการเก็บข้อมูลขนาดใหญ่นั้นมีต้นทุนสูงมาก โดยเฉพาะการเก็บตัวอย่าง ลองนึกภาพง่ายๆ นะครับ สมมติการจะเก็บข้อมูลสำมะโนประชากร จะต้องส่งคนไปทำแบบสำรวจเยอะมาก รวมถึงพวกเอกสารต่างๆ เพราะมันคือการเก็บข้อมูลครั้งใหญ่ เพราะฉะนั้น สถิติในหลายๆ ครั้งจึงเน้นการประมาณค่าบางอย่างเช่น ค่าเฉลี่ย การกระจายตัวของข้อมูลจากกลุ่มตัวอย่างไปหาประชากรรวมถึงอธิบายพฤติกรรมประชากรจากกลุ่มตัวอย่าง

ส่วน Machine Learning ในมุมมองผู้เขียนนั้น มองว่าสิ่งที่ Machine Learning สนใจคือระดับ Algorithm ไม่ว่าจะเป็น เราจะหาค่าพารามิเตอร์ในตัวแบบอย่างไร Optimizer ของเราเป็นอย่างไร รวมถึงการออกแบบโมเดล ถ้ายกตัวอย่างให้เห็นภาพให้ง่ายขึ้นคือเหมือนเราพยายามสร้าง Deep Neural Network ที่เราเอาแต่ละ Layer มาประกอบกัน

ถ้าจะยกภาพให้เห็นภาพง่ายขึ้น เช่น การทำ Regression ซึ่งเป็นสิ่งที่ทั้งสถิติและ Machine Learning ใช้เป็นตัวพื้นฐานในการทำ Predictive Model นั้น ในทางสถิติเราจะสนใจเรื่องสมมติฐานของ Regression ว่าข้อมูลตรงตามสมมติฐานหรือไม่ หลังจากได้สมการแล้วจะมีการประมาณค่าสถิติรวมถึงทดสอบสมมติฐานบางอย่าง เช่น พารามิเตอร์ตัวนี้มีความสัมพันธ์เชิงเส้นตรงกับตัวแปรตามหรือไม่ รวมถึงดูว่า Model ที่เราได้มานั้นสามารถอธิบายความแปรปรวนได้กี่ % จากในข้อมูลทั้งหมด(R-sq) แต่ในมุม Machine เราจะเรียนในส่วนของ Algorithm เป็นหลัก ว่าการที่เราจะหาพารามิเตอร์ที่ดีที่สุดนั้นทำอย่างไร รวมถึง Algorithm ที่ช่วยให้เรา Optimize Parameter ได้ดีขึ้น(Gradient Descent)

จริงๆ สิ่งที่เกิดขึ้นนั้น ทั้ง Advisor ของผมและคนที่ถามคำถามนี้มองตรงกันคือ แม้ว่าสถิติและ Machine Learning นั้นจะอาศัยคณิตศาสตร์เป็นเครื่องมือเหมือนกัน แต่มุมมองในการมองข้อมูล รวมถึงการไปถึงเป้าหมายนั้นต่างกัน ซึ่งทั้งสองแนวคิดนี้ไม่มีใครผิดใครถูกหรอกครับ เพราะสุดท้ายแล้วการไปถึงเป้าหมายนั้นเหมือนกัน แต่ต่างแค่กระบวนการคิดแค่นั้น ซึ่งเป็นหน้าที่ของ Data Scientist ที่จะหยิบว่าเมื่อเจอโจทย์แบบนี้จะต้องจัดการอย่างไร รวมถึงโจทย์แนวทางนี้ควรจะวิเคราะห์ข้อมูลไปทางไหน

ที่มา:

A First Course in Machine Learning by Simon Rogers & Mark Girolami

https://towardsdatascience.com/the-actual-difference-betwee…

http://www.edvancer.in/machine-learning-vs-statistics/

https://machinelearningmastery.com/relationship-between-ap…/

Hashtag